Google компани 2025 оны Google I/O хурал дээр өөрийн мультимодаль хиймэл оюуны шинэчилсэн хувилбар болох Gemini 2.5-ыг танилцууллаа. Энэхүү шинэчлэл нь бодит цагийн аудио үүсгэх, диалог хийх чадвартай болж, сэтгэл хөдлөлийн өнгө аяс, аялга, интонацийг таних, түүнийг дуурайлган дамжуулах боломжийг олгож байна.
Шинэ боломжууд:
- Gemini 2.5 Flash Preview хувилбараар дамжуулан хэрэглэгчид бодитой дуу хоолойгоор ШИ-тэй харилцах боломжтой боллоо
- Сэтгэл хөдлөлийн илэрхийллүүдийг таньж, тухайн сэтгэл хөдлөлд нийцүүлэн интонаци, хандлагыг өөрчилнө
- 24+ хэл дээр чөлөөтэй ярьж, хэл хооронд автоматаар шилжих чадвартай
- Орчны дуу чимээг үл тоон таних, харилцан ярианы явцад интернетээр холбогдож, бодит мэдээлэл хайх боломжтой
Дуу хоолой үүсгэх (TTS) шинэ функцууд:
- Ярианы хурд, хэлбэр, сэтгэл хөдлөлийг удирдах боломжтой
- Олон өөр дуу хоолойгоор диалог үүсгэх боломжтой тул подкаст, аудиокнига зэрэгт нэн тохиромжтой
- Үүсгэсэн аудио бүрт SynthID тэмдэглэгээ хийгддэг бөгөөд энэ нь тухайн контентыг ШИ-гаар бүтээснийг илтгэнэ
Шинэчлэлүүдийг туршихыг хүссэн хөгжүүлэгчид Google AI Studio дахь Stream болон Generate Media табуудыг ашиглан туршиж үзэх боломжтой. Gemini 2.5 нь текст, зураг, аудио, видео зэрэг олон төрлийн мэдээллийг нэг платформ дээр нэгтгэж, хиймэл оюуны хэрэглээний цар хүрээг мэдэгдэхүйц тэлж байна.
Эдгээр шинэ боломжууд нь виртуал туслах, интерактив програм, боловсролын шийдэл зэрэг салбарт шинэ үеийг нээж буй томоохон алхам юм.