Chiński startup DeepSeek zaprezentował model AI nowszej generacji
Chiński startup DeepSeek zaktualizował eksperymentalny model sztucznej inteligencji, co określił jako krok w kierunku sztucznej inteligencji nowej generacji – podała we wtorek agencja Bloomberga.
Chiński startup przedstawił DeepSeek-V3.2-Exp, wyjaśniając, że wykorzystuje ona nową technikę, którą nazywa DeepSeek Sparse Attention (DSA). Chińska firma podała, że może ona obniżyć koszty obliczeniowe i zwiększyć wydajność niektórych modeli. Startup z Hangzhou podał w komunikacie, że najnowsza wersja oznacza krok pośredni w kierunku struktury nowej generacji, wskazując również, że współpracuje nad tym modelem z chińskimi producentami chipów.
Najnowsza wersja bazuje na starszym V3.1-Terminus, wprowadzając mechanizm zaprojektowany do eksploracji i optymalizacji szkolenia, a także działania sztucznej inteligencji. Startup poinformował, że ma ona na celu zaprezentowanie jego badań nad sposobami poprawy wydajności przetwarzania długich sekwencji tekstowych.
Wykorzystanie przez startup mechanizmu Sparse Attention wskazuje na poszukiwania przez DeepSeek sposobów na trudności szkolenia modeli AI, biorąc pod uwagę ograniczony dostęp do układów scalonych Nvidia Corp. i innych. Założyciel DeepSeek, Liang Wenfeng, był w tym roku współautorem artykułu na ten temat, w którym opisano, jak programiści mogą łączyć innowacje programistyczne ze skalibrowanym sprzętem, aby zmniejszyć zapotrzebowanie na moc obliczeniową.
„Mówiąc wprost, oznacza to, że firma poświęca pewną dokładność wyników, ale stara się utrzymać wysoki poziom inteligencji. Ciągłe innowacje w zakresie wydajności modeli przyspieszyłyby adopcję AI i zapewniły lepszy zwrot z inwestycji w Chinach, pomimo ograniczeń w zakresie układów scalonych” – napisał analityk Jefferies, Edison Lee.
Według Bloomberga, redukcja kosztów daje DeepSeek większą swobodę konkurowania. Firma poinformowała o obniżeniu o połowę cen swoich narzędzi programowych, dołączając do innych chińskich startupów, które tną koszty, aby przyciągnąć użytkowników. W poniedziałek Huawei Technologies Co. i Cambricon Technologies Corp. – liderzy chińskiego rynku układów AI – ogłosili, że ich produkty będą obsługiwać najnowszą aktualizację modelu DeepSeek.
Firma DeepSeek poinformowała, że najnowsze wersje jej modeli obsługują strukturę FP8 lub Floating Point 8, a jednocześnie pracuje nad obsługą BF16. Oba te terminy techniczne oznaczają sposoby przechowywania liczb na komputerach w kontekście sztucznej inteligencji i uczenia maszynowego. W teorii FP8 oszczędza pamięć i przyspiesza obliczenia.
Modele AI przetwarzają miliony liczb, a korzystanie z mniejszych formatów, takich jak FP8 i BF16, łączy szybkość z dokładnością i ułatwia uruchamianie dużych modeli na mniej zaawansowanym sprzęcie. Chociaż FP8 nie jest zbyt precyzyjny, jest uważany za przydatny w wielu zadaniach AI. BF16 lub Brain Floating Point 16 jest uważany za bardziej dokładny w przypadku trenowania modeli AI.
Akcje chiński spółek notowanych w Chinach kontynentalnych zajmujących się półprzewodnikami wzrosły o 2 proc. po tym, jak DeepSeek wypuścił nowy model. (PAP Biznes)
kek/ ana/