Grok алдааны түвшнээр өрсөлдөгчдөө хол орхив
Илон Маскийн байгуулсан xAI компанийн хөгжүүлсэн Grok хиймэл оюунт чатбот 10 өөр загварыг хамарсан харьцуулсан үнэлгээнд алдаатай хариулт өгөх магадлал хамгийн бага буюу 8 хувиар хэмжигдсэн талаар хиймэл оюунт үйлчилгээний найдвартай байдлыг судалдаг Relum платформын тайланд дурджээ.
Судалгаанд Grok-ийг ажлын орчинд ашиглахад тохиромжтой, “хамгийн найдвартай” ангилалд багтах чатботуудын нэгээр нэрлэсэн байна. Алдаатай хариултын түвшин 8 хувьтай гарсан нь бусад өрсөлдөгч загваруудтай харьцуулахад үлэмж бага үзүүлэлт гэж тайланд онцолсон.
Hарин OpenAI-ийн ChatGPT 35 хувийн алдааны түвшинтэйгээр Google-ийн Gemini-ийн дараа жагсжээ. Gemini-ийн алдаа 38 хувьтай гарсан бөгөөд ингээд хоёр том брэнд найдвартай байдлын үзүүлэлтээр Grok-оос мэдэгдэхүйц хоцорсон дүнтэй байна.
Эрсдэлийн оноогоор ч Grok дээгүүр бичигдэв
Relum-ийн хийсэн үнэлгээ нь зөвхөн нэг хэмжүүрт тулгуурлаагүй. Чатбот бүрийг алдаатай хариултын давтамж, хэрэглэгчийн өгсөн үнэлгээ, өгч буй хариултын тогтвортой байдал, системийн доголдол, тасалдлын давтамж зэрэг нийлмэл үзүүлэлтээр нь шинжилжээ.
Эдгээрийг нэгтгэн 0-өөс 99 хүртэлх “найдвартай байдлын эрсдэлийн оноо” өгсөн бөгөөд тоо өндөр байх тусам илүү ноцтой асуудалтай, эрсдэл ихтэй гэж тайлбарласан байна.
Нийлбэр үзүүлэлтээр Grok 6 гэсэн эрсдэлийн оноо авч, судалгаанд оролцсон загваруудаас хамгийн сайн үзүүлэлттэйд тооцогджээ. DeepSeek чатбот 4 гэсэн маш сайн оноо авсан бөгөөд системийн тасалдалгүй ажилласан үзүүлэлтээр хоёрдугаарт эрэмбэлэгдсэн байна.
ChatGPT, Claude, Meta AI хамгийн их эрсдэлтэй бүлэгт орлоо
Relum-ийн тайланд ChatGPT-ийн хувьд галлюцинац гэж нэрлэгддэг бодит бус, зохиомол мэдээлэл өгөх тохиолдлын давтамж, мөн системийн тасалдлын үзүүлэлтүүд өндөр гарсан тул 99 гэсэн хамгийн дээд эрсдэлийн оноо авсан гэж тэмдэглэжээ.
Энэ жагсаалтын араас Anthropic-ийн Claude 75 гэсэн оноогоор, Meta AI 70 оноогоор бичигдсэн байна. Ийм байдлаар томоохон тоглогчид найдвартай байдлын эрсдэлийн ангиллын дээд талд буюу “илүү асуудалтай” бүсэд оржээ.
Ийнхүү Relum-ийн дүгнэлтээр найдвартай, тогтвортой ажиллагааны үзүүлэлтээр Илон Маскын xAI-ийн Grok чатбот одоогоор ChatGPT, Gemini болон бусад өрсөлдөгчдөө алдааны түвшин, системийн тогтвортой байдлаар давж гарсан дүр зурагтай байна.
2 сэтгэгдэл
AI-ийн өрсөлдөөн улам сонирхолтой болж байна
Шинэ технологи хурдтай хөгжиж байгааг харахад гайхалтай