Сүүлийн нэг жилийн хугацаанд хиймэл оюун ухаантай (AI) харилцах нь ер бусын зүйл байхаа больжээ. Контекстийг ойлгодог, хошигнодог, харилцан яриа өрнүүлдэг, тэр ч байтугай сэтгэл хөдлөлийг мэдэрдэг харилцан ярианы загварууд нь ухаалаг утас, зөөврийн компьютер, ухаалаг спикер хэрэглэгчдийн хувьд энгийн хэрэглээ болсон байна. AI туслахууд нь зөвхөн энгийн команд биелүүлэхээр хязгаарлагдахаа больсон бөгөөд тэд байгалийн яриа өрнүүлж, зөвлөгөө өгч, ажлын даалгаварт туслах чадвартай ярилцагч болон хувирчээ.
Энэхүү нийтлэлд ProIT нь бидний өдөр тутам хиймэл оюун ухаантай харилцах арга барилыг өөрчилж буй хамгийн онцлох таван чатбот болон дуут туслахын талаар өгүүлэх болно.
1. ChatGPT Voice

Энэ бол ChatGPT-тэй амьд ярианы хэлбэрээр харилцах боломжийг олгодог дуут функц юм. Энэ нь текст, дуу авиа, дүрсийг нэгэн зэрэг боловсруулах чадвартай олон төрөлт (multimodal) систем болох GPT-4o архитектур дээр бүтээгдсэн. Энэ нь модель таныг сонсож, ойлгож, дууг текст рүү хөрвүүлэх завсрын шатлалгүйгээр шууд хариулдаг гэсэн үг бөгөөд үүний ачаар харилцаа бараг тэр даруй явагдаж байгаа мэт мэдрэмж төрүүлдэг.
2025 онд OpenAI нь ChatGPT Voice-ийн ашиглалтын бодлогыг эрс шинэчилсэн:
- Төлбөртэй хэрэглэгчид (Plus ба Pro) нь GPT-4o дээр суурилсан дуут чатыг өдөр бүр бараг хязгааргүй ашиглах эрхтэй. Хэрэв GPT-4o-ийн өдрийн минутын хязгаар дуусвал систем автоматаар GPT-4o mini горимд шилжих боловч дуут функц хэвээр үлдэнэ;
- Enterprise (Байгууллагын) хэрэглэгчид уян хатан үнийн тарифтай бол хязгаарлалтгүйгээр харилцах боломжтой — ашиглалт нь зөвхөн зарцуулсан кредитээс хамаарна;
- Үнэгүй хэрэглэгчид GPT-4o mini дээр суурилсан ChatGPT Voice-ийг өдөрт хэдэн цагийн хязгаартайгаар ашиглах боломжтой (хязгаар өөрчлөгдөж болно).
Дуут горимын шинэ хувилбар нь сайжруулсан өнгө аяс, илүү нарийвчлалтай зогсолт, зөөлөн шилжилтийг санал болгодог бөгөөд энэ бүхэн нь хариултыг механик бус, илүү “амьд” сонсгох зорилготой юм. Түүнчлэн, одоо яриаг бодит цаг хугацаанд орчуулах боломжтой болсон — А хэлээр ярихад функц шууд Б хэл рүү хөрвүүлнэ.
Өөр нэг чухал онцлог бол өмнөх харилцан ярианы контекстийг санах чадвар юм — түүний юу яригдсаныг “санаж”, яриаг дарааллаар нь үргэлжлүүлэх боломжтой. Мөн багийн ажлын талбарт зориулсан ChatGPT-ийн хүрээнд дуут сессийг бичиж авах, автоматаар буулгах (120 минут хүртэл) болон хураангуй үүсгэх боломжийг нэвтрүүлж байна.
Функциональ байдлын хувьд ChatGPT Voice-ийг өнөөдөр хэл сурах, ярилцлага хийх, текст уншуулах, дуут аялал хийх эсвэл зүгээр л бичихээс илүүтэйгээр “ярилцах” хялбар арга болгон ашиглах боломжтой. Гэсэн хэдий ч дуут горим нь энгийн ChatGPT-тэй ижил том хэлний загвар дээр ажилладаг тул алдаа гаргах эсвэл баримтыг буруу тайлбарлах магадлалтай гэдгийг санах хэрэгтэй. Чухал мэдээллийг үргэлж шалгаж байх нь зүйтэй.
2. Gemini Live

Gemini Live бол Google-ээс гаргасан шинэ үеийн олон төрөлт (multimodal) интерфейс бөгөөд хиймэл оюун ухаантай хүнтэй ярьж байгаа мэт байгалийн байдлаар харилцах боломжийг олгодог. Энэ нь зөвхөн дуу хоолойг бус, зураг, видео эсвэл ухаалаг утасны дэлгэц дээрх контентыг ч ойлгодог. Бодит цаг хугацааны горимд Gemini нь таны камераар юу харуулж байгааг харж, дэлгэц дээрх объектуудыг онцолж, тэдгээрт хариу үйлдэл үзүүлэх — тайлбарлах, дүн шинжилгээ хийх, зөвлөгөө өгөх чадвартай.
2025 оны 8-р сард Google нь Gemini Live-д томоохон шинэчлэлт хийсэн: одоо систем нь харааны удирдамж (visual guidance) дэмждэг болж, видео урсгал дахь зүйлсийг таньж, дэлгэц дээрх текст эсвэл өгөгдөлд дүн шинжилгээ хийж, Google-ийн бусад үйлчилгээнүүд болох Calendar, Keep, Tasks, Maps, тэр ч байтугай Gmail-тэй шууд харилцан ажилладаг болсон. Жишээлбэл, и-мэйл харуулаад өөрчлөлтүүдийг хэлж бичүүлэх, календарьт үйл явдал нэмэх эсвэл гараа хүргэхгүйгээр баримт бичгээс товч дүгнэлт авах боломжтой.
Gemini Live нь Google-ийн сонгодог Google Assistant-ийг аажмаар солих томоохон стратегийн нэг хэсэг болсон. Шинэ туслах нь Gemini 2.5 Flash загвар дээр ажилладаг бөгөөд аудиог төрөлх байдлаар нь боловсруулдаг. Энэ нь яриаг жигд болгож, хариултын дундуур AI-г таслах (barge-in) боломжийг олгож, мэдэгдэхүйц сааталгүйгээр хурдан хариу үйлдэл үзүүлдэг. Дуу таних систем нь бета горимд Украин хэл зэрэг 45 гаруй хэлийг дэмждэг болсон.
Gemini Live-ийг ашиглахын тулд Android эсвэл iOS дээрх албан ёсны Gemini аппликейшн, эсвэл Google AI вэб хувилбарыг нээхэд л хангалттай. Гар утасны хувилбарт хэрэглэгч дуу хоолойгоор харилцах, дэлгэц эсвэл камераа хуваалцах, мөн урд нь харж буй зүйлийнхээ талаар зөвлөгөө авах боломжтой. Жишээлбэл, Gemini Live нь програмын интерфейсийг ойлгох, дизайны макет дээр сэтгэгдэл хэлэх эсвэл онлайн худалдааны үеэр ямар бүтээгдэхүүн сонгохыг зөвлөхөд тусална.
Google-ийн зүгээс Gemini Live нь нууцлалын зарчмуудыг баримталдаг болохыг онцолж байна — хэрэглэгч загварыг сайжруулахад зориулж видео эсвэл аудионы аль хэсгийг хадгалахыг бие даан хязгаарлах боломжтой. Шинэ Live Privacy Controls самбараас дүрсийг бичихийг идэвхгүй болгох эсвэл зөвхөн харилцан ярианы хэсгүүдийг хадгалахыг зөвшөөрөх боломжтой.
3. Copilot Voice

Энэ бол Microsoft Copilot-ийн дуут харилцааны функц бөгөөд компанийн хиймэл оюун ухааныг жинхэнэ ярианы туслах болгон хувиргадаг. Энэ нь товчлуур дарахгүйгээр тасралтгүй харилцан яриа өрнүүлэх боломжийг олгодог: та асуулт асуух, хариултыг тодруулах эсвэл сэдвийг өөрчлөх, шинэ асуулт асуухыг хүсвэл Copilot-ийг ярианы дундуур тасалж болно.
Энэ функц нь гар утасны төхөөрөмжүүд, Copilot-ийн вэб хувилбар, мөн Windows 11 дээр ажилладаг бөгөөд туслахыг ямар ч товчлуур дарахгүйгээр “Hey Copilot” командын тусламжтайгаар дуудах боломжтой.
Дуут горим нь 50 гаруй хэлийг дэмждэг бөгөөд Azure Speech Services технологийн ачаар Copilot Voice нь маш байгалийн сонсогддог: систем нь контекстээс хамааран өнгө аяс, зогсолт, дууны өнгө болон ярианы хурдыг тохируулдаг. Хэрэглэгч тохиргооноос дуу хоолойг сонгож, дараа нь тоглуулах хурдтай хамт өөрчлөх боломжтой.
2025 оны 2-р сараас эхлэн Microsoft нь Voice болон Think Deeper функцүүдийг захиалгын төрлөөс үл хамааран бүх хэрэглэгчдэд нээлттэй болгосон. Өмнө нь эдгээр хэрэгслүүд зөвхөн төлбөртэй багцад багтдаг байв. Одоо дуут харилцааг бараг цаг хугацааны хязгаарлалтгүйгээр ашиглах боломжтой болсон бол корпорацын хэрэглэгчид нэгдсэн дуут командын дэмжлэгийг хүлээн авсан.
Copilot Voice-тэй харилцаж эхлэхийн тулд аппликейшн дээрх микрофоны дүрс дээр дарах эсвэл зүгээр л дуут командыг идэвхжүүлэхэд хангалттай. Үүний дараа туслах нь хэрэглэгчтэй аудио хэлбэрээр мэндчилж, товчлуурыг дахин дарах шаардлагагүйгээр сонсдог. Та микрофоныг түр унтраах, дуу хоолойг өөрчлөх эсвэл харилцан яриаг дуусгах боломжтой — энэ бүгдийг Copilot самбараас хийдэг.
Copilot Voice-ийг янз бүрийн хувилбараар идэвхтэй ашиглаж байна. Ажлын орчинд энэ нь баримт бичиг, тэмдэглэл эсвэл захидал үүсгэх, Outlook дээр хариулт боловсруулах эсвэл PowerPoint дээр танилцуулга бэлтгэхэд тусалдаг. Гар утасны хэрэглэгчдийн хувьд энэ нь аялал, хурал эсвэл спортоор хичээллэх үед текст шивэхгүйгээр хурдан хариулт авах тохиромжтой арга юм. Зарим хэрэглэгчид Copilot Voice-ийг хэлний дасгалжуулагч болгон ашигладаг: модель нь гадаад хэлээр яриа өрнүүлж, дуудлага засах эсвэл ажлын ярилцлагыг дуурайлган хийхэд тусалдаг.
Microsoft нь хувийн нууцыг хамгаалах үүднээс Copilot Voice нь аудиог дотооддоо (local processing) боловсруулдаг бөгөөд хэрэглэгчийн зөвшөөрөлгүйгээр ярианы бичлэгийг хадгалдаггүй болохыг онцолж байна.
4. Siri

Siri бол 2025 онд Apple Intelligence-тэй нэгдсэний ачаар “хоёр дахь амьдрал”-аа олж авсан хамгийн алдартай дуут туслахуудын нэг юм. Одоо Siri нь зөвхөн үндсэн командуудыг биелүүлдэг туслах биш, харин дэлгэц дээр юу болж байгааг ойлгож, түүнд хариу үйлдэл үзүүлэх чадвартай, контекстийг мэдэрдэг интерфейс болсон. Жишээлбэл, хэрэглэгч мессеж үзэж байх үед Siri уг цонхноос шууд харилцагчийг хаягийн дэвтэрт нэмэх эсвэл сануулагч үүсгэхийг санал болгож чадна.
iOS 18, iPadOS 18 болон macOS Sequoia гарснаар Apple нь Siri-гийн цөмийг шинэчилж, харилцааг илүү хурдан бөгөөд байгалийн болгосон. Туслах нь яриаг илүү сайн таньж, байгалийн өнгө аясыг хадгалж, Украин хэлний хэсэгчилсэн нутагшуулга зэрэг 25 гаруй хэлийг дэмждэг. Siri нь зөвхөн дуу хоолойгоор бус, текст горимоор ажиллах боломжтой нь чимээ шуугиантай орчин эсвэл ажлын байранд тохиромжтой. Хэрэглэгч мөн дуу хоолой, хурд болон өнгө аясыг өөрчлөх боломжтой.
2025 оны гол шинэчлэлтүүдийн нэг бол хүсэлтийг дотооддоо боловсруулах (local processing) юм. Одоо Siri ихэнх командыг үүлэн (cloud) технологиор бус шууд төхөөрөмж дээр боловсруулдаг болсон нь хурдыг нэмэгдүүлж, нууцлалыг баталгаажуулдаг. Apple үүнийг Private Cloud Compute гэж нэрлэдэг — өгөгдлийг зөвхөн шифрлэгдсэн хэлбэрээр дүн шинжилгээ хийдэг бөгөөд хэрэглэгчийн зөвшөөрөлгүйгээр сервер дээр хэзээ ч хадгалдаггүй.
Siri нь Messages, Mail, Photos, Calendar, Maps болон HomeKit зэрэг Apple-ийн бусад програмуудтай илүү нягт уялдаатай болсон. Туслах нь мессежид хариулах, тэмдэглэл үүсгэх, контекстээр зураг хайх (“Парис руу хийсэн аяллын зургуудыг харуул”) эсвэл HomeKit-ээр дамжуулан ухаалаг гэрээ удирдах боломжтой. Siri-ийн шинэчлэгдсэн интерфейс нь одоо минималист хэв маягтай, урсгал хөдөлгөөнт дүрстэй болсон бөгөөд iPhone, iPad, Mac, тэр ч байтугай Apple Watch зэрэг бүх төхөөрөмж дээр ижил дүр төрхөө хадгалж байна.
Мөн Apple дараалсан асуултуудыг нэмсэн, өөрөөр хэлбэл Siri-г дахин дахин “Hey Siri” гэж дуудах шаардлагагүй — хэрэглэгч туслахын хариултын дараа шууд яриагаа үргэлжлүүлж болно. Өөр нэг шинэ функц бол on-screen awareness бөгөөд энэ нь Siri-д дэлгэц дээрх контентод дүн шинжилгээ хийх, тайлбар өгөх эсвэл програмуудын хооронд шилжихгүйгээр үйлдэл хийх боломжийг олгодог.
Практик хэрэглээний жишээнүүд:
- Maps програмд: Siri дэлгэцэнд хүрэхгүйгээр маршрутыг өөрчлөх эсвэл түгжрэлийн талаар мэдээлэх;
- Messages-ээр: Чихэвчээр хариулт хэлж бичүүлэх эсвэл ирсэн мессежийг уншуулах;
- Гэртээ: HomeKit-ээр гэрэл, хөгжим эсвэл агааржуулагч асаах;
- Ажлын үед: Календарт уулзалт нэмэх, Files дотроос баримт бичиг хайх эсвэл и-мэйлээс сануулагч үүсгэх.
Хэдийгээр мэдэгдэхүйц сайжруулалт хийгдсэн ч Apple Intelligence-ийн зарим функцүүд АНУ-аас гадуур хараахан боломжгүй хэвээр байна. Bloomberg-ийн мэдээлснээр Apple-ийн том хэлний загвар дээр суурилсан “үүсгүүр” (generative) Siri-ийн бүрэн хувилбар нь 2026 онд iOS 19 шинэчлэлттэй хамт гарах төлөвтэй байна.
5. Google Assistant

Энэ бол Google компаниас 2016 онд танилцуулсан ухаалаг хувийн туслах бөгөөд тэр цагаас хойш Android экосистемд дуут удирдлага, хайлт болон автоматжуулалтыг нэгтгэх гол хэрэгсэл болсон юм. Энэ нь хэрэглэгчдэд асуулт асуух, мессеж илгээх, зам харах, ухаалаг гэрийн төхөөрөмжүүдийг удирдах, Google бүртгэлээсээ мэдээлэл харах болон бусад ажлуудыг гүйцэтгэх боломжийг олгодог байв.
Гэсэн хэдий ч 2025 онд Google нь Google Assistant-ийг шинэ Gemini платформоор аажмаар солихоо баталсан. 3-р сард компани албан ёсны мэдэгдэл гаргаж: Classic Assistant “ихэнх гар утасны төхөөрөмж дээр цаашид ажиллахгүй” бөгөөд энэ нь 2025 оны сүүлээр хэрэгжинэ гэжээ.
Ийнхүү Assistant нь бие даасан туслахын үүргээс дуусгавар болох үе шат руу шилжиж, түүний боломжууд нь олон төрөлт (multimodal) шинэ AI туслах Gemini-д нэгтгэгдэж байна. Өөрчлөлтийн хамт хувирал ирж байна: Google Assistant хэрэглэгчдэд харилцан үйлчлэлийн шинэчилсэн загварыг санал болгосон — илүү уян хатан байдал, олон төрөлт байдал болон үйлчилгээнүүдтэй илүү гүнзгий интеграцчилал. Жишээлбэл: систем одоо нэг хүсэлтээр хэд хэдэн програмтай зэрэг ажиллах, интерфейс, дэлгэц эсвэл видеог боловсруулах, илүү төвөгтэй үйлдлүүдийг гүйцэтгэх боломжтой болсон — энэ бүхэн Assistant-ийн функцүүдийг орлож буй Gemini-ийн шинэчлэлтүүдэд тусгагдсан.
Практик дээр энэ нь дараах утгатай:
- Android хэрэглэгч туслахыг дуут командаар эсвэл товчлуур дарж идэвхжүүлэх, хариулт авах, ярианы сэдвийг өөрчлөх, дуут болон текст команд дамжуулах боломжтой;
- Туслах нь календарь, и-мэйл, газрын зураг, мөн ухаалаг гэрийн төхөөрөмжүүд эсвэл машинтай нэгдсэн;
- 2025 оны шинэчлэлтээр Google шинэ төхөөрөмжүүдийг (ухаалаг цаг, спикер, зурагт) хуучин Assistant-ийн оронд Gemini платформ руу шилжүүлж эхэлсэн.
Хэдийгээр Google Assistant олон төхөөрөмж дээр хэсэг хугацаанд үлдэх боловч гол чиг хандлага нь дуу хоолой, дүрс, дэлгэц, контекстийг ойлгодог жинхэнэ шинэ үеийн “AI туслах” руу шилжих хөдөлгөөн юм — энэ нь зүгээр нэг командын хариу үйлдэл биш, харин идэвхтэй-интерактив хамтын ажиллагаа юм.
Дүгнэж хэлэхэд: Google Assistant нь асар их хэмжээний үүргийг гүйцэтгэж байсан ба одоо ч гүйцэтгэсээр байгаа боловч түүний тусдаа дуут туслах гэдэг эрин үе нь шинэ загварт байр сууриа тавьж өгч байгааг хэрэглэгчид анхаарах хэрэгтэй.
Мэдээ мэдээллийг цаг алдалгүй авахын тулд mongoltechnews.com-д бүртгүүлээрэй!