ChatGPT-ийн хамгаалалтыг тойрч, хориглосон зураг үүсгэж болдгийг судлаачид илрүүлжээ

нийтлэгч Содном Энхбаяр
ChatGPT-ийн хамгаалалтыг тойрч, хориглосон зураг үүсгэж болдгийг судлаачид илрүүлжээ

OpenAI илэрсэн сул талын дараа хамгаалалтаа чангатгасан байна

Их Британийн хиймэл оюуны аюулгүй байдлын Mindgard компани ChatGPT-ийн хамгаалалтын механизмыг тойрч гарах боломжтой сул тал илрүүлсэн гэж мэдэгдлээ.

Судлаачдын мэдээлснээр, тусгайлан өөрчилсөн текст хүсэлт ашигласнаар чатботоор платформын дүрмийг зөрчихүйц, эмзэг шинжтэй зураг, хүчирхийллийн дүрслэл үүсгүүлэх боломж гарч байсан аж. BBC энэ талаар мэдээлсний дараа OpenAI нэмэлт хамгаалалтын арга хэмжээ авсан гэж мэдэгджээ.

Сул тал GPT-5.4 хувилбартай холбоотой гэжээ

Mindgard-ийн судлаачдын хэлснээр, асуудал ChatGPT-ийн өмнөх олон нийтэд нээлттэй хувилбаруудын нэг болох GPT-5.4-тэй холбоотой байсан байна.

Тэдний тайлбарласнаар, өргөн танигдсан prompt template-ийн жижиг өөрчлөлтөөр платформын эмзэг контентын дүрмийг зөрчсөн зураг үүсгэх боломжтой байжээ.

Mindgard-ийн үүсгэн байгуулагч, Ланкастерийн их сургуулийн компьютерын шинжлэх ухааны профессор Питер Гарраган: “Энэ бол хиймэл оюунд өгч буй бүрэн гэмгүй заавар боловч үр дүнд нь маш, маш муу зураг, контент үүсгэж байна” гэж мэдэгдсэн байна.

Тэрээр загвар шууд хүсээгүй байхад өөрөө хүчирхийллийн эсвэл сексуал шинжтэй дүрслэл үүсгэх чадвартай байсан нь хамгийн их санаа зовоосон асуудал гэж онцолжээ.

Судлаачид гарсан үр дүнд цочирдсон гэв

Аюулгүй байдлын судлаач Жим Найтингейлийн хэлснээр, туршилтын үеэр гарсан зарим үр дүн түүнийг “цочирдуулсан” байна.

Түүний тайлбарласнаар, үүссэн зарим зураг хүнд гэмтэл, хүчирхийлэл болон бэлгийн гэмт хэргийн сэдэвтэй холбоотой санаа агуулж байжээ.

Судлаачид энэ нь хэрэглэгч шууд хориглосон зүйл хүсээгүй нөхцөлд ч загвар хүсээгүй агуулга руу шилжиж болзошгүйг харуулсан гэж үзэж байна.

OpenAI нэмэлт хамгаалалт нэвтрүүлжээ

OpenAI уг мэдээллийг судалсны дараа ийм төрлийн хүсэлтүүдийн эсрэг хамгаалалтаа сайжруулсан гэж мэдэгдсэн байна.

Компанийн зүгээс ChatGPT-д олон давхар хамгаалалтын систем ашигладаг бөгөөд автомат moderation болон хүний хяналтыг хослуулдаг гэж тайлбарлажээ.

OpenAI: “Энэ чиг хандлагыг судалсны дараа бид ийм төрлийн хүсэлтүүдийн эсрэг нэмэлт хамгаалалтын арга хэмжээ нэвтрүүлсэн” гэж мэдэгдсэн байна.

Судлаачид шинэ хамгаалалтыг ч тойрох аргууд олсон гэжээ

Гэсэн ч Mindgard-ийн судлаачдын хэлснээр, OpenAI хамгаалалтаа нэмэгдүүлсний дараа ч зарим өөр арга замаар хязгаарлалтыг тойрох боломж илэрсэн байна.

Тэдний үзэж буйгаар, асуудал бүрэн шийдэгдээгүй боловч OpenAI үүнийг засахаар үргэлжлүүлэн ажиллаж байгаа аж.

Mindgard нь хиймэл оюуны загваруудын хамгаалалтын механизмыг шалгаж, сул тал илрүүлэх чиглэлээр ажилладаг компани юм. Ийм судалгааны зорилго нь хортой этгээдүүд ашиглахаас өмнө хөгжүүлэгчдэд эрсдэлийг илрүүлж, засах боломж олгох явдал гэж тайлбарлаж байна.

OpenAI ямар контентыг хориглодог вэ

OpenAI-ийн бодлогоор бэлгийн хүчирхийлэл, зөвшөөрөлгүй интим материал, хүүхдийн бэлгийн мөлжлөг, мөн хамгаалалтын хязгаарлалтыг тойрох оролдлого бүхий контент бүтээхийг хориглодог.

Мөн компанийн албан ёсны зааварт загварууд эротик контент, хэт хүчирхийлэлтэй дүрслэл үүсгэх ёсгүй гэж заасан байдаг. Харин боловсрол, түүх, урлаг, мэдээний тодорхой нөхцөлд хязгаарлагдмал байдлаар зөвшөөрөгдөх тохиолдол байж болно гэж тайлбарладаг.

“Насанд хүрэгчдийн горим”-ын нээлт хойшилсон

Энэ оны хаврын эхээр OpenAI ChatGPT-д зориулсан “насанд хүрэгчдийн горим”-ыг нэвтрүүлэхээр төлөвлөж байсан ч уг санаагаа хойшлуулсан байна.

Тус горим нь эротик яриаг зөвшөөрч, зарим контентын хязгаарлалтыг сулруулах ёстой байсан гэж мэдээлэгдэж байв.

Гэвч хэрэглэгчдийн сэтгэлзүйн сайн сайхан байдлын талаар зөвлөх шинжээчдийн зөвлөл эрсдэл анхааруулсны дараа уг шийдвэрийг хойшлуулжээ. Тэд хэрэглэгчид AI-д хэт сэтгэлзүйн хамааралтай болох, мөн эмзэг нөхцөлд буруу чиглүүлсэн “зөвлөх” маягийн харилцаа үүсэх аюултайг сануулсан байна.

AI хамгаалалт бүх салбарын том сорилт хэвээр байна

Humane Intelligence байгууллагын гүйцэтгэх захирал, хиймэл оюуны системийн үнэлгээний шинжээч Румман Чоудхури хамгаалалтын механизмыг тойрох асуудал бүх салбарын хувьд хүнд сорилт хэвээр байгааг онцолжээ.

Түүний хэлснээр, хөгжүүлэгчид хамгаалалтаа сайжруулах бүрд судлаачид болон хортой этгээдүүд түүнийг тойрох шинэ аргыг хайдаг тул энэ нь нэг төрлийн “муур, хулганын тоглоом” шиг үргэлжилдэг байна.

Чоудхури мөн том хэлний загварууд хүний адил санаа зорилго, нөхцөл байдал, ёс суртахууны хэм хэмжээг ойлгодоггүй гэж тайлбарлажээ. Иймээс хүсээгүй, зохисгүй үр дүн гарах эрсдэлийг бүрэн арилгах нь одоогоор боломжгүй хэвээр байна.

Mindgard өмнө нь Claude загварт ч сул тал илрүүлж байжээ

Mindgard-ийн судлаачид өмнө нь Anthropic компанийн Claude чатботод ижил төстэй хамгаалалтын сул тал илрүүлсэн гэж мэдээлж байсан.

Тэдний хэлснээр, Claude Sonnet 4.5 хувилбарт зарим prompt болон нийгмийн инженерчлэлийн арга ашиглан загвараар хориглосон төрлийн контент үүсгүүлэх боломж гарч байжээ.

Судлаачид ийм төрлийн туршилтаар AI системүүдийн хамгаалалт хэрхэн ажиллаж байгааг шалгаж, компаниудад эмзэг цэгээ засахад туслах зорилготой гэж тайлбарласан байна.

AI-ийн аюулгүй байдалд илүү хатуу хяналт шаардлагатай болж байна

ChatGPT-тэй холбоотой энэхүү сул тал нь хиймэл оюуны системүүд хүчирхэг болохын хэрээр хамгаалалтын механизм илүү нарийн, олон давхар, тасралтгүй шинэчлэгддэг байх шаардлагатайг дахин харууллаа.

Хэрэглэгчийн шууд хүсэлт аюултай биш мэт харагдсан ч загвар буруу чиглэлд агуулга үүсгэх боломжтой нь AI-ийн аюулгүй байдлын салбарт шийдэх ёстой хамгийн төвөгтэй асуудлуудын нэг хэвээр байна.

Холбоотой нийтлэлүүд

Сэтгэгдэл үлдээх

MongolTechNews — Монгол болон дэлхийн технологийн хамгийн сүүлийн үеийн мэдээ
MongolTechNews нь ухаалаг гар утас, хиймэл оюун ухаан, блокчэйн, финтек, стартап, программ хангамж, ирээдүйн технологи зэрэг Монгол болон дэлхийн технологийн салбарын хамгийн сүүлийн үеийн мэдээг танд хүргэнэ.