Apple яриа болон дуу хоолойн хиймэл оюуны технологийн хөгжүүлэлтийн хүрээнд шинэ судалгаа нийтэлжээ. Энэхүү судалгаа нь зөвхөн юу хэлснийг бус, яаж хэлснийг ойлгож, ярианы чанар дээр төвлөрдгөөрөө онцлог бөгөөд хүртээмжийн хувьд чухал ахиц авчрах төлөвтэй байна.
Хүний дуу хоолойг “эмч” шиг ойлгодог AI
Судалгаанд Apple-ийн эрдэмтэд Voice Quality Dimensions (VQD) буюу “Дуу хоолойн чанарын хэмжээсүүд” хэмээх системийг танилцуулсан. Энэ нь илэрхий ойлгогдохуйц дуу хоолойн онцлогууд болох ойлгомжтой байдал, шүдний авиа тод бус байдал, барзгар дуу хоолой, амьд хэлбэртэй сонсогдох байдал, өндөр намын нэгэн хэвийн байдал, сэтгэл хөдлөлгүй аялгуу, амьсгаатай дуу гэх мэт долоон үндсэн үзүүлэлт дээр үндэслэдэг.
Эдгээр үзүүлэлт нь ярианы эмгэг судлаачдын үнэлдэг, мэдрэлийн гаралтай өвчин (Паркинсон, ALS, тархины саажилт гэх мэт)-д нэрвэгдсэн хүмүүсийн дуу хоолойн өөрчлөлтийг тодорхойлоход хэрэглэгддэг. Apple эдгээрийг машин сургалтад ашиглан AI-д таних чадвар суулгажээ.
Яриаг ойлгохоос илүүтэй “сонсох” чадвар
Одоогийн ярианы ихэнх загвар эрүүл, хэвийн дуу хоолойд сургагдсан байдаг. Энэ нь тусгай хэрэгцээт хэрэглэгчдэд зориулсан хүртээмжийн том цоорхой гэсэн үг. Apple энэ асуудлыг шийдвэрлэхийн тулд Паркинсон, ALS болон тархины саажилттай хүмүүсийн бичлэг бүхий олон нийтэд нээлттэй өгөгдлийн санг ашиглаж, “проб” гэх хөнгөн жинтэй AI загваруудыг бэлтгэсэн байна.
Сонирхолтой нь, энэхүү загвар нь хэлсэн зүйлийг биш, яаж хэлснийг хэмжиж үнэлдэг.
Долоон хэмжээс:
- Ойлгомжтой байдал — сонсогчид үгийг ойлгох хялбар байдал
- Шүдний авиа тод бус байдал — авиа бүдэг, хэлбэргүй сонсогдох
- Барзгар хоолой — хүчтэй, сөөнгө, хүнд дуутай
- Энгийн, амьд дуутай байх байдал — хүний дуу шиг сонсогдох чадвар
- Нэг түвшний чанга байдал — дууны чанга сул нь өөрчлөгдөхгүй
- Нэгэн хэвийн аялгуу — робот мэт нэгэн хэвийн өнгө аяс
- Амьсгаатай дуу — шивнээ мэт, хийтэй сонсогдох
Apple нийт таван үндсэн загвар (CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE)-ыг ашиглан дууны онцлогуудыг гаргаж, тэдгээрийн үндсэн дээр ярианы чанарын хэмжээсүүдийг тодорхойлох загварыг бэлтгэсэн. Загваруудын гүйцэтгэл хэмжээс бүрт харилцан адилгүй байсан ч ерөнхийдөө амжилттай ажилласан байна.
Энгийн тайлбартай AI — хар хайрцаг биш
Энэ судалгааны хамгийн онцлох зүйл бол AI загварын гаргаж буй дүгнэлтүүд нь тайлбарлагддаг байх юм. Өнөөгийн AI ихэвчлэн “итгэх магадлал 87%” гэх мэт хар хайрцаг шинжтэй байхад, энэ систем ямар онцлог чанаруудын үндсэн дээр ийм дүгнэлт гаргасан гэдгээ тайлбарладаг. Энэ нь ярианы эмгэг судалгаа болон оношлогооны талбарт том дэвшил болж чадна.
Хүртээмжээс цааш — Siri-ийн хувьсал
Apple зөвхөн клиник хэрэглээгээр хязгаарласангүй. Судлаачид уг AI-г RAVDESS гэх сэтгэл хөдлөлийн ярианы өгөгдөл дээр туршиж үзсэн бөгөөд уурласан дуу бага моно чанга байсан, тайван дуу зөөлөн, гунигтай дуу аялгуугүй гэх мэтээр байгалийн төсөөлөлд нийцсэн дүгнэлт хийсэн байна.
Ингэснээр Apple ирээдүйд Siri мэт дижитал туслахуудыг хэрэглэгчийн сэтгэл хөдлөлөөр нь дууны өнгө аясыг өөрчилдөг болгоход нэг алхам ойртжээ.
Судалгааны бүрэн эхийг arXiv сайтад унших боломжтой.