Apple компани хиймэл оюун ухааны орчин үеийн загварууд камерт тулгуурлахгүйгээр ч хэрэглэгчийн хийж буй үйлдлийг нэлээд нарийвчлалтай тодорхойлж чадна гэдгийг харуулсан судалгааны ажлаа танилцууллаа. “LLM ашиглан үйл ажиллагааг танихын тулд олон төрлийн мэдрэгчийн өгөгдлийг цаашид нэгтгэх нь” нэртэй энэхүү өгүүлэлд мэдрэлийн сүлжээ дуу чимээ болон хөдөлгөөний өгөгдлийг ашиглан, урьдчилсан тусгай сургалтгүйгээр хүний зан үйл, үйл ажиллагааг таних аргыг тайлбарласан байна.
Дуу чимээ, хөдөлгөөнөөр “хардаг” загвар
Судалгаанд хэрэглэсэн загвар нь хэрэглэгчийн орчин дахь аудио дохионууд, түүнчлэн төхөөрөмжийн хурдатгалын мэдрэгч, гироскопоор хэмжигдсэн хөдөлгөөний өгөгдлийг нэгтгэн дүн шинжилгээ хийдэг. Ингэхдээ LLM буюу том хэлний загварын чадамжийг ашиглан мэдрэгчийн “тоон” мэдээллийг хүний үйлдэл, нөхцөл байдлын утгатай тодорхойлолт болгон хөрвүүлж буй юм.
Туршилтын үеэр том загвар өөрөө шууд аудио бичлэг дээр ажиллаагүй, харин тусгай жижиг загваруудаар урьдчилан боловсруулсан, богино текстэн тайлбаруудыг хүлээн авчээ. Эдгээр жижиг загварууд эхлээд аудио болон хөдөлгөөний өгөгдлөөс текст хэлбэрийн хадмал орчуулга, таамаглал бий болгож, дараа нь том LLM тэдгээрийг ашиглан тухайн мөчид хэрэглэгч яг юу хийж байгааг тодорхойлох оролдлого хийсэн байна.
Ego4D өгөгдлийн сан ба 12 төрлийн үйл ажиллагаа
Apple-ийн судалгаанд “Ego4D” нэртэй, бодит ертөнцийн нүдний өндөрлөгөөс авсан олон цагийн видео, үйл явдлыг агуулсан том өгөгдлийн санг ашиглажээ. Үүнд гэрийн өдөр тутмын ажил, гадаа тоглох, дасгал хийх зэрэг олон төрлийн нөхцөл байдал багтсан байдаг.
Судалгааны зорилгоор судлаачид цэвэрлэгээ хийх, хоол бэлтгэх, спортын дасгал, гэрийн тэжээвэр амьтантай тоглох, ном унших, компьютертэй ажиллах, сургалт гэх мэт нийт 12 төрлийн үйл ажиллагаанаас 20 секундийн богино хэсгүүдийг сонгон, тусдаа өгөгдлийн сан үүсгэсэн байна. Ингэснээр загвар зөвхөн хөдөлгөөн, дуу чимээгээр тухайн агшинд яг аль төрлийн үйлдэл хийгдэж байгааг таних чадвартай эсэхийг шалгажээ.
Gemini ба Qwen загварууд дээр хийсэн туршилт
Мэдрэгчийн өгөгдлөөс үүсгэсэн текстэн мэдээллийг дараагийн шатанд Gemini-2.5-pro болон Qwen-32B зэрэг том хэлний загварууд руу оруулж туршсан. Судалгаанд загваруудыг хоёр өөр нөхцөлд ажиллуулсан байна.
Нэгдүгээрт, “хаалттай” хувилбар дээр LLM зөвхөн санал болгож буй 12 үйлдлийн ангиллаас нэгийг нь сонгох ёстой байсан. Хоёрдугаарт, “нээлттэй” хувилбар дээр загварт аль нэг бэлэн жагсаалтыг өгөхгүй, өөрийнхөөрөө боломжит хариуг таамаглах боломж олгожээ.
Туршилтын дүнгээр эдгээр загваруудын гүйцэтгэл харьцангуй өндөр түвшинд хүрч, зарим тохиолдолд зөв ангилал авах хувь 58 хувьд хүрсэн байна. Үүнээс гадна өөр өөр загваруудын хооронд үзүүлэлтүүд ойролцоо байсан нь аргын найдвартай байж болохыг харуулжээ.
Камергүй “ажиглалт” ба ирээдүйн ухаалаг төхөөрөмжүүд
Apple-ийн судалгааны баг олон төрлийн жижиг моделиуд, мэдрэгчийн өгөгдөл, том хэлний загварыг нэгтгэх ийм арга барил нь камер ашиглахгүйгээр хэрэглэгчийн үйлдэл, зан үйлийг нэлээд нарийвчлалтай тодорхойлох боломжийг нээж байна гэж дүгнэжээ. Тэдний үзэж буйгаар, дуу, хөдөлгөөн, орчны мэдрэгч дээр суурилсан ийм систем нь ухаалаг гар утас, ухаалаг цаг, нүдний шил зэрэг өмсдөг төхөөрөмжүүд дээр илүү “ухаалаг” хяналт, дэмжих функцүүдийн суурь болж чадна.
Ингэснээр ирээдүйд төхөөрөмжүүд камер асаахгүйгээр л хэрэглэгчийн хөдөлгөөн, өдөр тутмын үйл ажиллагааг ойлгож, тохирсон зөвлөгөө, автомат тохиргоо, дэмжлэг үзүүлэх боломжтой болно. Нэг талаас энэ нь хувийн нууцын эрсдэлийг бууруулж болох ч нөгөө талаас, мэдрэгчийн өгөгдөл дээр суурилсан нууцлал, аюулгүй байдлын шинэ маргаан, стандартыг зайлшгүй дагуулна гэж ажиглагчид харж байна.
2 сэтгэгдэл
Технологи өнөөдөр үнэхээр хол явжээ. Заримдаа бүр айдас төрмөөр
Хувийн мэдээллийн аюулгүй байдалд хэр нөлөөлөх бол гэхээс жаахан болгоомжтой л байна