Humaine компанийн сүүлд хийсэн судалгаа олон хүний төсөөллийг өөрчиллөө: сая сая хэрэглэгчийн хайртай гэж тооцогддог ChatGPT нь хэрэглэгчийн бодит туршлага дээр суурилсан чатботын чансаанд ердөө наймдугаар байрт бичигджээ. Харин тэргүүн байрыг Google-ийн Gemini 2.5 Pro эзэлж, Хятадын DeepSeek болон Францын Mistral-ын Magistral загваруудаас давсан байна.
Хоёр нэргүй загвар, нэг хэрэглэгч, нэг сонголт
Humaine-ийн арга зүй нь хиймэл тест биш, бодит ярианд тулгуурласан гэдгээрээ онцлог. АНУ, Их Британиас сонгогдсон бараг 25 мянган оролцогч тус бүр хоёр өөр чатботтой зэрэг харилцсан бөгөөд аль нь илүү таатай, ойлгомжтой, найдвартай байлаа гэж үзсэнээ сонгож тэмдэглэжээ.
Хамгийн чухал нь оролцогчид ямар загвартай харилцаж байгаагаа мэдэхгүй, нэр нь нууцлагдсан нөхцөлд үнэлсэн. Ингэснээр брэндийн нэр, урьдчилсан хандлага, сурталчилгаанаас үл хамаарч зөвхөн ярианы чанар, туршлага дээр тулгуурлан дүгнэх боломжтой болжээ.
Юуг үнэлсэн бэ: тоочноос илүү “ярианы мэдрэмж”
Чатботуудыг дараах үндсэн шалгуураар харьцуулсан байна.
Нэгдүгээрт, сэтгэн бодох логик, даалгавар гүйцэтгэх чадвар, мэдээллийг зөв дамжуулах байдал. Хоёрдугаарт, урсгал яриаг авч явах, өмнөх хэлсэн зүйлээ санах, гэнэт сэдэв солигдоход алдагдахгүй дасан зохицох чадвар. Гуравдугаарт, мэдээлэл танилцуулах хэв маяг – хэт хүйтэн, механизм шиг биш, харин ойлгомжтой, хүний ярианд ойр эсэхийг үнэлжээ.
Мөн хэрэглэгчийн итгэлцэл, ёс зүй, хариултын аюулгүй байдал чухал үзүүлэлт байв. Судалгааны үр дүнгээс харахад хүмүүсийн хувьд “зөв хариу өгөх” ганц үзүүлэлт хангалтгүй болж, амьд ярианы мэдрэмж, харилцахад тайван, хүний мэт санагдах байдал илүү чухал болжээ.
Шилдэг 10-т хэн багтав?
Эцсийн дүнгээр хэрэглэгчидийн хувьд хамгийн өндөр үнэлгээ авсан загвар нь Gemini 2.5 Pro байлаа. Түүний араас DeepSeek v3 болон Magistral Medium зэрэг загварууд бичигдсэн бөгөөд Grok цуврал, Gemini-ийн өөр хувилбарууд, DeepSeek R1, Gemma зэрэг шинэ тоглогчид ч жагсаалтад багтжээ. ChatGPT-4.1 загвар хэрэглэгчийн хувьд нийт дүнгээр наймдугаар байрт орсон нь “хамгийн их ярьдаг нь” үргэлж “хамгийн их таалагддаг” байдаггүйг харуулсан сонирхолтой дохио боллоо.
Google болон DeepSeek-ийн харьцангуй залуу, шинэчлэгдсэн зарим хувилбарууд ч мөн үнэлгээнд орсон ч уян хатан байдал, дасан зохицох чадварын хувьд өөрийн “том ах”-аасаа доогуур дүн авсан байна. Энэ нь шинэ загвар, илүү том параметртэй байх нь дангаараа хэрэглэгчийн туршлагыг автоматаар сайжруулдаггүйг сануулж байна.
Хэрэглэгчийн хүлээлт өөрчлөгдөж байна
Humaine-ийн судалгаа нэг гол зүйл хэллээ:
Хиймэл оюун ухааны дараагийн шатны өрсөлдөөн зөвхөн “хэчнээн хүчтэй, хэчнээн ухаалаг” загвар бүтээх тухай биш, харин хэрэглэгчтэй хэрхэн ярьж, хүнийг хэр ойлгож, өөрт нь таатай мэдрэмж төрүүлэх вэ гэдэгт төвлөрөхөөс өөр аргагүй болж байна.
Хэрэв чатбот “хэн нэгэн хүнтэй ярьж байгаа” мэт мэдрэмж төрүүлж чадахгүй, харин тестийн асуултад хариулж буй алгоритм шиг санагдсаар байвал, тэр брэнд ямар ч алдартай байсан хэрэглэгчид өөр сонголт руу шилжихэд бэлэн болжээ.