DeepSeek-V3: Jak sprzętowe współprojektowanie obniża koszty trenowania dużych modeli AI
Nowy raport techniczny zespołu DeepSeek, współtworzony przez CEO Wenfenga Lianga, ujawnia strategie obniżania kosztów trenowania dużych modeli językowych (LLM) poprzez innowacyjne podejście do sprzętu i oprogramowania.

Nowo opublikowany 14-stronicowy raport techniczny zespołu stojącego za modelem DeepSeek-V3, współtworzony przez CEO DeepSeek, Wenfenga Lianga, rzuca światło na wyzwania skalowania i refleksje dotyczące architektury sprzętowej dla sztucznej inteligencji. Dokument ten, będący kontynuacją wcześniejszego raportu technicznego, szczegółowo analizuje złożone zależności między rozwojem, trenowaniem dużych modeli językowych (LLM) a infrastrukturą sprzętową. Praca wykracza poza specyfikę architektury DeepSeek-V3, koncentrując się na tym, jak współprojektowanie modelu z uwzględnieniem sprzętu może skutecznie adresować ograniczenia obecnych rozwiązań, prowadząc do opłacalnego trenowania i wnioskowania na dużą skalę.
Szybkie skalowanie LLM-ów ujawniło krytyczne wąskie gardła w obecnych architekturach sprzętowych, zwłaszcza w zakresie pojemności pamięci, efektywności obliczeniowej i przepustowości połączeń. DeepSeek-V3, trenowany na klastrze 2048 procesorów graficznych NVIDIA H800, stanowi przekonujący przykład, jak synergiczne podejście do projektowania modelu i uwzględniania sprzętu może pokonać te ograniczenia. Badania te koncentrują się na wzajemnym oddziaływaniu architektury sprzętowej i projektu modelu w celu osiągnięcia ekonomicznego trenowania i wnioskowania na dużą skalę, dostarczając praktycznych wskazówek do efektywnego skalowania LLM-ów bez kompromisów w zakresie wydajności czy dostępności.
Innowacje architektoniczne DeepSeek-V3
DeepSeek-V3 integruje kilka kluczowych innowacji architektonicznych, w tym architekturę DeepSeekMoE oraz Multi-head Latent Attention (MLA). Rozwiązania te bezpośrednio odpowiadają na podstawowe wyzwania skalowania LLM-ów: efektywność pamięci, opłacalność i szybkość wnioskowania.
LLM-y wykazują wykładniczy wzrost zapotrzebowania na pamięć, przewyższając wolniejszy wzrost pamięci o wysokiej przepustowości, takiej jak HBM. Chociaż równoległość wielowęzłowa oferuje rozwiązanie, optymalizacja wykorzystania pamięci u źródła pozostaje kluczowa. DeepSeek rozwiązuje to wąskie gardło za pomocą MLA, które wykorzystuje macierze projekcyjne do kompresji reprezentacji klucz-wartość (KV) wszystkich głowic uwagi w mniejszy wektor latentny, trenowany wspólnie z modelem. Podczas wnioskowania, tylko ten skompresowany wektor latentny musi być buforowany, co znacznie zmniejsza zużycie pamięci w porównaniu do przechowywania pełnych pamięci podręcznych KV dla każdej głowicy.
DeepSeek podkreśla również inne cenne techniki redukcji rozmiaru pamięci podręcznej KV, inspirując do przyszłych postępów w mechanizmach uwagi efektywnych pod względem pamięci. Na przykład, DeepSeek-V3 osiąga znaczącą redukcję, wymagając zaledwie 70 KB na token, co jest znacznie mniej niż 516 KB w przypadku LLaMA-3.1 405B i 327 KB w Qwen-2.5 72B.
W przypadku rzadkich obliczeń, DeepSeek opracował DeepSeekMoE, zaawansowaną architekturę Mixture-of-Experts (MoE). Modele MoE oferują dwie kluczowe zalety pod względem opłacalności:
- Efektywność kosztowa: Pozwalają na trenowanie znacznie większych modeli przy tej samej mocy obliczeniowej, co modele gęste, dzięki aktywacji tylko podzbioru ekspertów dla każdego tokena.
- Szybkość wnioskowania: Umożliwiają szybsze wnioskowanie, ponieważ tylko podzbiór ekspertów musi być aktywowany i ładowany do pamięci podczas przetwarzania.
DeepSeek priorytetowo traktuje zarówno maksymalną przepustowość na poziomie systemu, jak i opóźnienie pojedynczego żądania dla szybkości wnioskowania. Aby zmaksymalizować przepustowość, model od początku wykorzystuje architekturę nakładających się podwójnych mikro-partii, celowo nakładając opóźnienia komunikacyjne z obliczeniami. Ponadto, DeepSeek rozdziela obliczenia MLA i MoE na odrębne etapy. To podejście potokowe umożliwia płynne nakładanie się komunikacji typu „wszyscy do wszystkich” z ciągłymi obliczeniami, zapewniając pełne wykorzystanie GPU.
Optymalizacja sprzętowa i sieciowa
Raport porusza również kwestię znaczenia skalowania w czasie testów dla modeli rozumowania oraz podkreśla kluczową rolę wysokiej prędkości generowania tokenów w przepływach pracy uczenia ze wzmocnieniem i w redukcji opóźnień odczuwanych przez użytkownika w długich sekwencjach wnioskowania. Optymalizacja szybkości wnioskowania poprzez współinnowacje sprzętowo-programowe jest zatem kluczowa dla efektywności modeli rozumowania.
Podczas gdy techniki kwantyzacji, takie jak GPTQ i AWQ, znacznie zmniejszyły wymagania pamięciowe głównie dla wnioskowania, DeepSeek był pionierem w wykorzystaniu trenowania z mieszaną precyzją FP8 dla dużego modelu MoE. Pomimo wsparcia FP8 przez NVIDIA Transformer Engine, DeepSeek-V3 jest pierwszym publicznie znanym dużym modelem, który wykorzystał FP8 do trenowania. To osiągnięcie, wynikające z bliskiej współpracy zespołów infrastruktury i algorytmów oraz szeroko zakrojonych eksperymentów, znacznie redukuje koszty obliczeniowe przy zachowaniu jakości modelu, czyniąc trenowanie na dużą skalę bardziej wykonalnym.
DeepSeek wykorzystuje również kompresję niskiej precyzji do komunikacji sieciowej w architekturze DeepSeek-V3. Podczas równoległości EP, tokeny są planowane za pomocą drobnoziarnistej kwantyzacji FP8, zmniejszając objętość komunikacji o 50% w porównaniu do BF16, co znacznie skraca czas komunikacji.
Obecnie DeepSeek wykorzystuje architekturę NVIDIA H800 GPU SXM, która, choć oparta na architekturze Hopper podobnej do H100, charakteryzuje się zmniejszoną wydajnością obliczeniową FP64 i przepustowością NVLink (400 GB/s w porównaniu do 900 GB/s w H100) z powodu wymogów regulacyjnych. Ta znacząca redukcja przepustowości skalowania wewnątrz węzła stwarza wyzwania dla obciążeń o wysokiej wydajności. Aby to zrekompensować, każdy węzeł jest wyposażony w osiem kart sieciowych 400G Infiniband (IB) CX7, aby zwiększyć możliwości skalowania międzywęzłowego.
Kluczowym aspektem współprojektowania modelu jest „routing świadomy węzłów” dla strategii wyboru ekspertów TopK w architekturze MoE. Biorąc pod uwagę około 4:1 różnicę w przepustowości między komunikacją wewnątrz węzła (NVLink, ~160 GB/s efektywnie) a między węzłami (IB, ~40 GB/s efektywnie na kartę sieciową), DeepSeek zaprojektował routing tak, aby wykorzystać wyższą przepustowość wewnątrz węzła. Dzięki grupowaniu 256 ekspertów routingu (4 na GPU w konfiguracji 8 węzłów, 64 GPU) w 8 grup po 32 ekspertów, z których każda znajduje się na jednym węźle, oraz algorytmicznemu zapewnieniu, że każdy token jest kierowany do maksymalnie 4 węzłów, DeepSeek łagodzi wąskie gardło komunikacji IB i poprawia efektywną przepustowość komunikacji podczas trenowania.
Do trenowania DeepSeek-V3 wdrożono sieć skalowalną Multi-Plane Fat-Tree (MPFT). Każdy węzeł, wyposażony w 8 GPU i 8 kart sieciowych IB, przypisuje każdą parę GPU-NIC do innej płaszczyzny sieciowej. Dodatkowo, każdy węzeł posiada kartę sieciową 400 Gbps Ethernet RoCE podłączoną do oddzielnej płaszczyzny sieciowej pamięci masowej w celu dostępu do rozproszonego systemu plików 3FS. Sieć skalowalna wykorzystuje 64-portowe przełączniki 400G IB, teoretycznie obsługujące do 16 384 GPU przy zachowaniu zalet kosztowych i opóźnieniowych dwuwarstwowej sieci. Ze względu na ograniczenia polityczne i regulacyjne, faktyczne wdrożenie objęło ponad dwa tysiące GPU.
Wnioski i przyszłe kierunki
DeepSeek podkreśla kilka zalet MPFT, w tym jego skład jako podzbioru Multi-Rail Fat-Tree (MRFT), co pozwala na płynną integrację istniejących optymalizacji NVIDIA i NCCL dla sieci MRFT, opłacalność, izolację ruchu, zmniejszone opóźnienia i solidność. Analiza wydajności porównująca MPFT i MRFT wykazała, że wydajność „wszyscy do wszystkich” sieci wielopłaszczyznowych jest bardzo podobna do sieci jednopłaszczyznowych wielościeżkowych, a wydajność MPFT i MRFT była niemal identyczna podczas trenowania modelu V3 na 2048 GPU.
Wnioski z raportu DeepSeek-V3 jasno wskazują, że przyszłość efektywnego trenowania i wnioskowania dużych modeli językowych leży w głębokiej integracji i współprojektowaniu sprzętu i oprogramowania. Poprzez innowacyjne podejścia do zarządzania pamięcią, optymalizacji komunikacji sieciowej i wykorzystania zaawansowanych architektur, takich jak MoE i FP8, DeepSeek demonstruje, jak można znacząco obniżyć koszty i zwiększyć wydajność, otwierając drogę do bardziej dostępnych i skalowalnych rozwiązań AI. To podejście jest kluczowe dla przezwyciężenia obecnych ograniczeń sprzętowych i dalszego postępu w dziedzinie sztucznej inteligencji na dużą skalę.
Źródło: syncedreview.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Fugu od Sakana AI: orkiestracja wielu modeli LLM rzuca wyzwanie gigantom
Japoński startup Sakana AI wprowadza Fugu – system, który dynamicznie koordynuje wiele modeli językowych, działając jak jeden model. Twórcy twierdzą, że Fugu dorównuje, a nawet przewyższa najlepsze modele Anthropic w tes
Redakcja Aigest6 dni temu
Automatyczne przypisywanie błędów w systemach Multi-Agentowych: Przełomowe badanie naukowców z Penn State i Duke
Naukowcy z Penn State University i Duke University, we współpracy z Google DeepMind, wprowadzili nową koncepcję automatycznego przypisywania błędów w systemach Multi-Agentowych opartych na dużych modelach językowych (LLM
Redakcja Aigest16 cze 2025

Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Amerykański producent chipów pamięci, Micron, zyskuje na wartości, a analitycy z Wall Street upatrują w nim potencjalnego następcę sukcesu Nvidii, napędzanego rosnącym popytem na pamięć w erze sztucznej inteligencji.
Redakcja Aigest19 godz. temu

Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Systemy AI staną się niezawodnymi współpracownikami, gdy zaczną realizować całe zadania w trwałych środowiskach pracy, zamiast jedynie generować odpowiedzi. Klucz tkwi w ponownym wykorzystywaniu „umiejętności”.
Redakcja Aigest21 godz. temu

Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska
Prezes SoftBanku, Masayoshi Son, wyraził sceptycyzm wobec wizji Elona Muska dotyczącej orbitalnych centrów danych, wskazując na wysokie koszty i długi czas realizacji, co może opóźnić rozwój AI.
Redakcja Aigestwczoraj

Azjatyckie startupy AI wprowadzają modele podobne do Mythos w obliczu amerykańskiego zakazu eksportu Anthropic
W odpowiedzi na zakaz eksportu modeli AI Anthropic przez administrację USA, azjatyckie startupy, takie jak chińskie 360 i japońskie Sakana AI, wprowadzają na rynek własne zaawansowane rozwiązania.
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.