Chain-of-Zoom хиймэл оюун ухаан 256 дахин томруулж, дүрсний нарийвчлан мэдээллийг алдалгүй хадгална

нийтлэгч Содном Энхбаяр
Chain-of-Zoom

БНСУ-ын KAIST AI судалгааны хүрээлэнгийн баг шинэ үеийн хиймэл оюунд суурилсан Chain-of-Zoom нэртэй зургийн томруулалтын технологийг танилцууллаа. Энэхүү систем нь 256 дахин томруулахдаа дүрсний нарийвчилсан мэдээллийг хадгалах чадвартай бөгөөд бага нягтралтай зургуудыг маш өндөр нарийвчлалтай болгон хувиргах боломжийг олгодог.

Шинэ аргачлал: алхам алхмаар томруулах

Өмнө нь ашиглагддаг генератив системүүд зургийн дутагдалтай хэсгийг таамаглан нөхдөг байхад, Chain-of-Zoom нь зургыг шууд 256 дахин томруулахаас татгалзаж, үүний оронд алхам алхмаар, шат дараалсан томруулалтын аргаар тод, бодит дүрс бий болгодог. Энэ шат болгонд диффуз маягийн сайн сургагдсан өндөр нягтралын загварыг ашиглаж, өмнөх үр дүнгээ улам боловсронгуй болгодог.

Vision-Language хослол

Chain-of-Zoom нь Vision-Language model буюу дүрс болон хэлний загварыг хамтад нь ашигладаг. Энэ нь тухайн зурган дээр дараагийн шатанд ямар зүйлс тодорч гарч ирэх ёстойг хэлбэржүүлэхэд тусална. Жишээлбэл, “навчны судал”, “ноосон бүтэц”, “тоосгон хана” гэх мэт тодорхой хэллэгүүдийг үүсгэж, түүгээр дүрсний дараагийн нарийвчилгаа чиглэгддэг.

Ингэснээр:

  • Нарийвчилсан зураглалын боломж сайжирна.
  • Дүрс гажихгүй, бодит мэт харагдана.
  • Систем нь өмнө нь сурсан хязгаартаа баригдахгүй, өөрөө суралцах чадвартай.

Хүний оролцоотой сургалт

Төслийн баг хиймэл оюуны сургалтыг хүний шүүлт, шийтгэл, давтамж шүүлтүүр зэрэг гурван төрлийн хяналтаар сайжруулсан. Ингэснээр хэлбэршсэн текстүүд улам тодорхой, ойлгомжтой болж, буруу тайлбар, давхардсан үг хэллэгийг багасгажээ.

Ашиглах боломжууд:

  • Эмнэлгийн оношлогоо – нарийвчилсан дүрсэлгээ шаардлагатай
  • Камерийн бичлэг – аюулгүй байдлын өндөр деталчлал
  • Хуучин зургийн сэргээн засвар – бүдэг дүрсийг тод болгох
  • Шинжлэх ухааны дүрслэл – микроскопи, астрономи зэрэгт

Анхаарах эрсдэл:

Гэвч Chain-of-Zoom нь анхны зургаа бүрэн солих чадвартай тул шинэ дүрсийг бүтээж буйг анхаарах шаардлагатай. Энэ нь цаашид фэйк зураг, визуал мэдээллээр хууран мэхлэх эрсдэлийг бий болгоно. Хөгжүүлэгчид ч энэ тал дээр нухацтай анхаарах ёстойг дурдсан.

Холбоотой нийтлэлүүд

Сэтгэгдэл үлдээх

MongolTechNews — Монгол болон дэлхийн технологийн хамгийн сүүлийн үеийн мэдээ
MongolTechNews нь ухаалаг гар утас, хиймэл оюун ухаан, блокчэйн, финтек, стартап, программ хангамж, ирээдүйн технологи зэрэг Монгол болон дэлхийн технологийн салбарын хамгийн сүүлийн үеийн мэдээг танд хүргэнэ.