Aigest.
Newsy

DeepSeek-V3: Jak sprzętowe współprojektowanie obniża koszty trenowania dużych modeli AI

Nowy raport techniczny zespołu DeepSeek, współtworzony przez CEO Wenfenga Lianga, ujawnia strategie obniżania kosztów trenowania dużych modeli językowych (LLM) poprzez innowacyjne podejście do sprzętu i oprogramowania.

RA

Udostępnij
DeepSeek-V3: Jak sprzętowe współprojektowanie obniża koszty trenowania dużych modeli AI
Fot. Synced

Nowo opublikowany 14-stronicowy raport techniczny zespołu stojącego za modelem DeepSeek-V3, współtworzony przez CEO DeepSeek, Wenfenga Lianga, rzuca światło na wyzwania skalowania i refleksje dotyczące architektury sprzętowej dla sztucznej inteligencji. Dokument ten, będący kontynuacją wcześniejszego raportu technicznego, szczegółowo analizuje złożone zależności między rozwojem, trenowaniem dużych modeli językowych (LLM) a infrastrukturą sprzętową. Praca wykracza poza specyfikę architektury DeepSeek-V3, koncentrując się na tym, jak współprojektowanie modelu z uwzględnieniem sprzętu może skutecznie adresować ograniczenia obecnych rozwiązań, prowadząc do opłacalnego trenowania i wnioskowania na dużą skalę.

Szybkie skalowanie LLM-ów ujawniło krytyczne wąskie gardła w obecnych architekturach sprzętowych, zwłaszcza w zakresie pojemności pamięci, efektywności obliczeniowej i przepustowości połączeń. DeepSeek-V3, trenowany na klastrze 2048 procesorów graficznych NVIDIA H800, stanowi przekonujący przykład, jak synergiczne podejście do projektowania modelu i uwzględniania sprzętu może pokonać te ograniczenia. Badania te koncentrują się na wzajemnym oddziaływaniu architektury sprzętowej i projektu modelu w celu osiągnięcia ekonomicznego trenowania i wnioskowania na dużą skalę, dostarczając praktycznych wskazówek do efektywnego skalowania LLM-ów bez kompromisów w zakresie wydajności czy dostępności.

Innowacje architektoniczne DeepSeek-V3

DeepSeek-V3 integruje kilka kluczowych innowacji architektonicznych, w tym architekturę DeepSeekMoE oraz Multi-head Latent Attention (MLA). Rozwiązania te bezpośrednio odpowiadają na podstawowe wyzwania skalowania LLM-ów: efektywność pamięci, opłacalność i szybkość wnioskowania.

LLM-y wykazują wykładniczy wzrost zapotrzebowania na pamięć, przewyższając wolniejszy wzrost pamięci o wysokiej przepustowości, takiej jak HBM. Chociaż równoległość wielowęzłowa oferuje rozwiązanie, optymalizacja wykorzystania pamięci u źródła pozostaje kluczowa. DeepSeek rozwiązuje to wąskie gardło za pomocą MLA, które wykorzystuje macierze projekcyjne do kompresji reprezentacji klucz-wartość (KV) wszystkich głowic uwagi w mniejszy wektor latentny, trenowany wspólnie z modelem. Podczas wnioskowania, tylko ten skompresowany wektor latentny musi być buforowany, co znacznie zmniejsza zużycie pamięci w porównaniu do przechowywania pełnych pamięci podręcznych KV dla każdej głowicy.

DeepSeek podkreśla również inne cenne techniki redukcji rozmiaru pamięci podręcznej KV, inspirując do przyszłych postępów w mechanizmach uwagi efektywnych pod względem pamięci. Na przykład, DeepSeek-V3 osiąga znaczącą redukcję, wymagając zaledwie 70 KB na token, co jest znacznie mniej niż 516 KB w przypadku LLaMA-3.1 405B i 327 KB w Qwen-2.5 72B.

W przypadku rzadkich obliczeń, DeepSeek opracował DeepSeekMoE, zaawansowaną architekturę Mixture-of-Experts (MoE). Modele MoE oferują dwie kluczowe zalety pod względem opłacalności:

  • Efektywność kosztowa: Pozwalają na trenowanie znacznie większych modeli przy tej samej mocy obliczeniowej, co modele gęste, dzięki aktywacji tylko podzbioru ekspertów dla każdego tokena.
  • Szybkość wnioskowania: Umożliwiają szybsze wnioskowanie, ponieważ tylko podzbiór ekspertów musi być aktywowany i ładowany do pamięci podczas przetwarzania.

DeepSeek priorytetowo traktuje zarówno maksymalną przepustowość na poziomie systemu, jak i opóźnienie pojedynczego żądania dla szybkości wnioskowania. Aby zmaksymalizować przepustowość, model od początku wykorzystuje architekturę nakładających się podwójnych mikro-partii, celowo nakładając opóźnienia komunikacyjne z obliczeniami. Ponadto, DeepSeek rozdziela obliczenia MLA i MoE na odrębne etapy. To podejście potokowe umożliwia płynne nakładanie się komunikacji typu „wszyscy do wszystkich” z ciągłymi obliczeniami, zapewniając pełne wykorzystanie GPU.

Optymalizacja sprzętowa i sieciowa

Raport porusza również kwestię znaczenia skalowania w czasie testów dla modeli rozumowania oraz podkreśla kluczową rolę wysokiej prędkości generowania tokenów w przepływach pracy uczenia ze wzmocnieniem i w redukcji opóźnień odczuwanych przez użytkownika w długich sekwencjach wnioskowania. Optymalizacja szybkości wnioskowania poprzez współinnowacje sprzętowo-programowe jest zatem kluczowa dla efektywności modeli rozumowania.

Podczas gdy techniki kwantyzacji, takie jak GPTQ i AWQ, znacznie zmniejszyły wymagania pamięciowe głównie dla wnioskowania, DeepSeek był pionierem w wykorzystaniu trenowania z mieszaną precyzją FP8 dla dużego modelu MoE. Pomimo wsparcia FP8 przez NVIDIA Transformer Engine, DeepSeek-V3 jest pierwszym publicznie znanym dużym modelem, który wykorzystał FP8 do trenowania. To osiągnięcie, wynikające z bliskiej współpracy zespołów infrastruktury i algorytmów oraz szeroko zakrojonych eksperymentów, znacznie redukuje koszty obliczeniowe przy zachowaniu jakości modelu, czyniąc trenowanie na dużą skalę bardziej wykonalnym.

DeepSeek wykorzystuje również kompresję niskiej precyzji do komunikacji sieciowej w architekturze DeepSeek-V3. Podczas równoległości EP, tokeny są planowane za pomocą drobnoziarnistej kwantyzacji FP8, zmniejszając objętość komunikacji o 50% w porównaniu do BF16, co znacznie skraca czas komunikacji.

Obecnie DeepSeek wykorzystuje architekturę NVIDIA H800 GPU SXM, która, choć oparta na architekturze Hopper podobnej do H100, charakteryzuje się zmniejszoną wydajnością obliczeniową FP64 i przepustowością NVLink (400 GB/s w porównaniu do 900 GB/s w H100) z powodu wymogów regulacyjnych. Ta znacząca redukcja przepustowości skalowania wewnątrz węzła stwarza wyzwania dla obciążeń o wysokiej wydajności. Aby to zrekompensować, każdy węzeł jest wyposażony w osiem kart sieciowych 400G Infiniband (IB) CX7, aby zwiększyć możliwości skalowania międzywęzłowego.

Kluczowym aspektem współprojektowania modelu jest „routing świadomy węzłów” dla strategii wyboru ekspertów TopK w architekturze MoE. Biorąc pod uwagę około 4:1 różnicę w przepustowości między komunikacją wewnątrz węzła (NVLink, ~160 GB/s efektywnie) a między węzłami (IB, ~40 GB/s efektywnie na kartę sieciową), DeepSeek zaprojektował routing tak, aby wykorzystać wyższą przepustowość wewnątrz węzła. Dzięki grupowaniu 256 ekspertów routingu (4 na GPU w konfiguracji 8 węzłów, 64 GPU) w 8 grup po 32 ekspertów, z których każda znajduje się na jednym węźle, oraz algorytmicznemu zapewnieniu, że każdy token jest kierowany do maksymalnie 4 węzłów, DeepSeek łagodzi wąskie gardło komunikacji IB i poprawia efektywną przepustowość komunikacji podczas trenowania.

Do trenowania DeepSeek-V3 wdrożono sieć skalowalną Multi-Plane Fat-Tree (MPFT). Każdy węzeł, wyposażony w 8 GPU i 8 kart sieciowych IB, przypisuje każdą parę GPU-NIC do innej płaszczyzny sieciowej. Dodatkowo, każdy węzeł posiada kartę sieciową 400 Gbps Ethernet RoCE podłączoną do oddzielnej płaszczyzny sieciowej pamięci masowej w celu dostępu do rozproszonego systemu plików 3FS. Sieć skalowalna wykorzystuje 64-portowe przełączniki 400G IB, teoretycznie obsługujące do 16 384 GPU przy zachowaniu zalet kosztowych i opóźnieniowych dwuwarstwowej sieci. Ze względu na ograniczenia polityczne i regulacyjne, faktyczne wdrożenie objęło ponad dwa tysiące GPU.

Wnioski i przyszłe kierunki

DeepSeek podkreśla kilka zalet MPFT, w tym jego skład jako podzbioru Multi-Rail Fat-Tree (MRFT), co pozwala na płynną integrację istniejących optymalizacji NVIDIA i NCCL dla sieci MRFT, opłacalność, izolację ruchu, zmniejszone opóźnienia i solidność. Analiza wydajności porównująca MPFT i MRFT wykazała, że wydajność „wszyscy do wszystkich” sieci wielopłaszczyznowych jest bardzo podobna do sieci jednopłaszczyznowych wielościeżkowych, a wydajność MPFT i MRFT była niemal identyczna podczas trenowania modelu V3 na 2048 GPU.

Wnioski z raportu DeepSeek-V3 jasno wskazują, że przyszłość efektywnego trenowania i wnioskowania dużych modeli językowych leży w głębokiej integracji i współprojektowaniu sprzętu i oprogramowania. Poprzez innowacyjne podejścia do zarządzania pamięcią, optymalizacji komunikacji sieciowej i wykorzystania zaawansowanych architektur, takich jak MoE i FP8, DeepSeek demonstruje, jak można znacząco obniżyć koszty i zwiększyć wydajność, otwierając drogę do bardziej dostępnych i skalowalnych rozwiązań AI. To podejście jest kluczowe dla przezwyciężenia obecnych ograniczeń sprzętowych i dalszego postępu w dziedzinie sztucznej inteligencji na dużą skalę.

Źródło: syncedreview.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Fugu od Sakana AI: orkiestracja wielu modeli LLM rzuca wyzwanie gigantom
Automatyczne przypisywanie błędów w systemach Multi-Agentowych: Przełomowe badanie naukowców z Penn State i Duke
Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska
Azjatyckie startupy AI wprowadzają modele podobne do Mythos w obliczu amerykańskiego zakazu eksportu Anthropic

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.