DeepSeek компани OpenAI-ийн GPT-5, Google-ийн Gemini 3.0 Pro-той шууд өрсөлдөхөөр хоёр шинэ том хэлний загвар — DeepSeek-V3.2 болон DeepSeek-V3.2-Speciale-ийг танилцууллаа. Тэд өөрсдийн тестээр матемatik, логик, програмчлалын даалгаврууд дээр GPT-5-High, Gemini 3.0 Pro-той ижил түвшинд, зарим үед давуу гүйцэтгэлтэй гэж мэдэгдэж байна.
Хоёр загвар хоёулаа 685 тэрбум параметртэй, 128,000 токен контекст дэмждэг. Гол техникийн шинэчлэл нь DeepSeek Sparse Attention (DSA) хэмээх “ховор анхаарал”-ын архитектур: урт текст дээр тооцооллын зардлыг ~70% бууруулж, 128K контекстийн өртөгийг өмнөх V3.1-ээс бараг гурав дахин хямд болгожээ.
V3.2 – өдөр тутмын ажил, ерөнхий хэрэглээний “универсал” загвар бол V3.2-Speciale нь ОУ-ын математикийн, програмчлалын олимпиадын түвшний бодлого шийдэхэд онцгой сайн ажиллах “хардкор” хувилбар гэж DeepSeek тайлбарласан. AIME 2025 дээр Speciale 96.0% авч, GPT-5-High (94.6%), Gemini 3.0 Pro (95.0%)-ийг давсан, HMMT дээр 99.2% хүртэл оноо авсан гэж мэдээлжээ.
Том давуу тал нь — MIT лиценз. DeepSeek хоёр загвараа Hugging Face дээр нээлттэй байршуулсан тул хэн ч:
- татаж аваад локал дээр ажиллуулах,
- өөрчлөх,
- арилжааны бүтээгдэхүүндээ хязгаарлалтгүй суулгах
боломжтой. Энэ нь хаалттай API-д суурилсан OpenAI, Anthropic загваруудад бодит дарамт үүсгэж болзошгүй.
Үүнтэй зэрэгцээд эрсдэл ч байна. Герман, Итали зэрэг улс Хятад руу өгөгдөл дамжуулахтай холбоотойгоор DeepSeek апп-д хязгаарлалт тавьж эхэлсэн, АНУ-д засгийн газрын төхөөрөмж дээр DeepSeek ашиглахыг хориглох санал гарч байна.
DeepSeek-ийн V3.2 цуврал дараах сигналыг өгч байна:
– Хятадын багууд Nvidia-ийн хамгийн сүүлийн үеийн чипгүй ч “дээд лигт” тоглож чаддаг;
– параметрийн тоо биш, архитектурын үр ашиг (DSA шиг) ирээдүйн гол зэвсэг болж байна;
– нээлттэй эхийн LLM-үүд хаалттай “paywall”-тай загваруудын жинхэнэ өрсөлдөгч болж эхэллээ.