DeepSeek prezentuje DSpark: przyspieszenie generowania DeepSeek-V4 o 60-85%
DeepSeek wprowadził DSpark, framework do spekulatywnego dekodowania, który znacząco przyspiesza generowanie treści przez modele DeepSeek-V4, oferując otwarte zasoby i kod do trenowania.

DeepSeek zaprezentował DSpark, framework do spekulatywnego dekodowania, udostępniając jednocześnie jego otwarte punkty kontrolne i kod szkoleniowy. Rozwiązanie to stanowi optymalizację obsługi istniejących modeli, a nie wprowadzenie nowego. Punkty kontrolne DeepSeek-V4-Pro-DSpark i DeepSeek-V4-Flash-DSpark wykorzystują dotychczasowe wagi modelu V4, do których dołączono moduł roboczy. Zespół badawczy DeepSeek udostępnił również DeepSpec, bazę kodu na licencji MIT, przeznaczoną do trenowania i oceny modułów roboczych spekulatywnego dekodowania. Celem tej pracy jest przyspieszenie wnioskowania dużych modeli w środowiskach produkcyjnych o dużym obciążeniu.
Jak działa spekulatywne dekodowanie DSpark?
Spekulatywne dekodowanie dzieli proces generowania na dwie fazy. Mały model roboczy proponuje blok tokenów, który następnie jest weryfikowany przez pełny model docelowy w jednym przejściu. Metoda próbkowania z odrzuceniem akceptuje najdłuższy prawidłowy prefiks i dodaje jeden dodatkowy token. Dzięki temu, że zasada ta dokładnie zachowuje rozkład docelowy, nie dochodzi do utraty jakości, co gwarantuje również DSpark. Kluczowe zmiany wprowadzone przez DSpark dotyczą sposobu tworzenia tokenów roboczych i liczby weryfikowanych tokenów.
Opóźnienie na token jest opisane równaniem: L = (T draft + T verify ) / τ, gdzie τ to liczba tokenów akceptowanych w cyklu. Przyspieszenie można osiągnąć na trzy sposoby: szybsze tworzenie tokenów (zmniejszenie T draft), lepsze tworzenie tokenów (zwiększenie τ) lub inteligentniejsza weryfikacja (redukcja zmarnowanego T verify). DSpark jednocześnie wykorzystuje wszystkie te trzy mechanizmy.
Innowacje w tworzeniu tokenów
Wcześniejsze rozwiązania do tworzenia tokenów roboczych wymagały kompromisów. Moduły autoregresywne, takie jak Eagle3, warunkowały każdy token na podstawie poprzednich, co zapewniało wysoką akceptację, ale koszt tworzenia rósł wraz z rozmiarem bloku. Moduły równoległe, jak DFlash, generowały cały blok w jednym przejściu, co było tańsze, ale każdy token ignorował swoich sąsiadów, prowadząc do „kolizji multimodalnych” i szybkiego spadku akceptacji w dalszej części bloku.
DSpark rozwiązuje ten problem, dzieląc proces tworzenia tokenów na dwa etapy. Najpierw ciężki, równoległy rdzeń (w ich konfiguracji DFlash) generuje podstawowe logity dla każdej pozycji. Następnie lekka, sekwencyjna głowica dodaje zależny od prefiksu bias przed próbkowaniem każdego tokenu.
Domyślna głowica sekwencyjna to głowica Markowa, która uwzględnia tylko bezpośrednio poprzedzający token. Niskorangowa faktoryzacja (ranga 256) utrzymuje jej koszt na niskim poziomie, nawet przy dużych słownikach. Na przykład, gdy pozycja pierwsza próbuje „of”, głowica wzmacnia „course” i tłumi „problem”. Opcjonalna głowica RNN śledzi cały prefiks bloku, ale oferuje tylko marginalne korzyści, dlatego głowica Markowa jest domyślnym rozwiązaniem. Dzięki temu DSpark dziedziczy wysoką dokładność pierwszego tokenu z równoległego rdzenia, a głowica sekwencyjna utrzymuje stabilną akceptację głęboko w bloku.
Optymalizacja weryfikacji i wydajności
Szkolenie DSpark zamraża model docelowy i ponownie wykorzystuje jego osadzanie oraz głowicę wyjściową. Kluczowym elementem jest funkcja straty całkowitej wariancji, której minimalizacja bezpośrednio maksymalizuje współczynnik akceptacji tokenów roboczych.
Większa liczba tokenów roboczych nie zawsze oznacza większą prędkość. Weryfikowanie tokenów, które zostaną odrzucone, marnuje pojemność wsadową pod dużym obciążeniem. DSpark wprowadza dwa elementy, aby temu zaradzić:
- Głowica ufności: generuje wynik dla każdej pozycji roboczej, szacując szansę na przetrwanie tokenu w weryfikacji, biorąc pod uwagę zaakceptowane poprzedniki. Jest ona nadzorowana przez analityczny współczynnik akceptacji krok po kroku.
- Skalowanie temperatury sekwencyjnej: surowa ufność neuronowa jest często zbyt optymistyczna. Zespół badawczy zastosował to post-hocowe skalowanie, które redukuje oczekiwany błąd kalibracji z 3-8% do około 1%.
Dodatkowo, sprzętowo świadomy harmonogram prefiksów ustala długość weryfikacji dla każdego żądania. Wykorzystuje on profilowaną krzywą przepustowości (SPS(B)), mierzoną jednorazowo przy uruchomieniu. Gdy procesory graficzne są bezczynne, weryfikuje więcej tokenów; gdy są zajęte, weryfikuje ich mniej. Harmonogram używa zasady wczesnego zatrzymywania, aby zachować bezstratność.
Wyniki i zastosowania produkcyjne
Testy offline obejmujące matematykę, kodowanie i codzienne rozmowy, z modelami docelowymi takimi jak Qwen3-4B, 8B, 14B i Gemma4-12B, wykazały, że DSpark przewyższa obie linie bazowe pod względem zaakceptowanej długości we wszystkich domenach. W porównaniu do Eagle3, średnia długość zaakceptowanych tokenów wzrosła o 30.9%, 26.7% i 30.0% dla trzech rozmiarów Qwen3. W stosunku do DFlash, zyski wyniosły 16.3%, 18.4% i 18.3%. Nawet dwuwarstwowy DSpark przewyższył pięciowarstwowy DFlash.
Głowica sekwencyjna generuje niewielkie koszty. Zwiększenie długości tokenów roboczych z 4 do 16 dodaje jedynie 0.2-1.3% opóźnienia na rundę, w zamian za poprawę zaakceptowanej długości o 30%.
Wyniki produkcyjne z DeepSeek-V4-Flash i V4-Pro pod rzeczywistym obciążeniem pokazują, że przy tej samej przepustowości, prędkość generowania na użytkownika wzrosła o 60-85% dla Flash i 57-78% dla Pro, w porównaniu do poprzedniego rozwiązania MTP-1. Domyślna konfiguracja to DSpark-5, pięciotokenowy blok roboczy z głowicą Markowa.
Zadania o ustrukturyzowanym charakterze, takie jak generowanie kodu, najbardziej zyskują na dłuższej weryfikacji, ponieważ akceptacja jest naturalnie wysoka. Harmonogram może weryfikować długie prefiksy z niewielkimi stratami, co przyspiesza strumieniowanie wyników przez agentów kodujących. W przypadku otwartej rozmowy, próg ufności podniósł akceptację z 45.7% do 95.7%, dzięki odrzucaniu niepewnych tokenów. W rozumowaniu matematycznym akceptacja wzrosła z 76.9% do 92.5%.
DeepSpec działa w trzech etapach: przygotowanie danych, trenowanie, a następnie ewaluacja. Konfiguracja wybiera algorytm i model docelowy. Ewaluacja sprawdza wytrenowany punkt kontrolny roboczy na dziewięciu zestawach danych. Dla punktów kontrolnych produkcyjnych, moduł roboczy jest dołączany do istniejących wag V4, bez konieczności ponownego trenowania modelu docelowego.
Szersze konsekwencje dla branży AI
Wprowadzenie DSpark przez DeepSeek stanowi istotny krok w optymalizacji wydajności dużych modeli językowych. Zdolność do znaczącego przyspieszenia generowania treści bez utraty jakości, przy jednoczesnym udostępnieniu narzędzi do trenowania i ewaluacji, może przyczynić się do szerszej adaptacji i rozwoju spekulatywnego dekodowania. Otwartość DeepSeek w dzieleniu się swoimi innowacjami ma potencjał, by napędzać dalsze badania i usprawnienia w dziedzinie wnioskowania AI, czyniąc zaawansowane modele bardziej dostępnymi i efektywnymi w praktycznych zastosowaniach.
Źródło: marktechpost.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Połowa użytkowników Claude twierdzi, że AI może wykonać co najmniej połowę ich pracy
Badanie przeprowadzone przez Anthropic wśród blisko 10 000 użytkowników Claude'a ujawnia, że wielu z nich uważa, iż sztuczna inteligencja jest już w stanie przejąć znaczną część ich obowiązków zawodowych.
Redakcja Aigest6 godz. temu

Korea Południowa przeszkoli całą armię na „wojowników dronów”
Korea Południowa zamierza przeszkolić wszystkich żołnierzy w obsłudze dronów, traktując je jako uniwersalne narzędzie bojowe. Inicjatywa ma na celu utrzymanie przewagi technologicznej w obliczu napięć z Koreą Północną.
Redakcja Aigestwczoraj

OpenAI prezentuje GPT-5.6 Sol: nowy flagowiec AI rywalizuje z Claude Mythos, ale dostęp jest ograniczony
OpenAI wprowadza na rynek GPT-5.6 Sol, nowy model AI, który ma konkurować z Anthropic Claude Mythos, szczególnie w kodowaniu agentowym i cyberbezpieczeństwie. Dostęp do niego jest jednak na razie mocno ograniczony.
Redakcja Aigestwczoraj

Benchmark MirrorCode: AI programuje bez przerwy przez 19 dni, kosztując 2600 dolarów
Nowy benchmark MirrorCode od Epoch AI i METR testuje zdolność modeli AI do samodzielnego odtwarzania całych programów. Jeden z modeli pracował nad zadaniem nieprzerwanie przez 19 dni, co kosztowało 2600 dolarów.
Redakcja Aigestwczoraj

Apple udostępnia "container" – narzędzie do uruchamiania kontenerów Linuksa jako lekkich maszyn wirtualnych na Apple Sil
Zespół badawczy Apple zaprezentował "container" – nowe, otwartoźródłowe narzędzie wiersza poleceń napisane w Swift, które umożliwia uruchamianie kontenerów Linuksa jako lekkich maszyn wirtualnych bezpośrednio na urządzen
Redakcja Aigestwczoraj

Wprowadzenie GPT-5.6 przez OpenAI wymaga zgody rządu USA dla każdego klienta
OpenAI musi ograniczyć dostęp do swojego najnowszego modelu AI, GPT-5.6, do wąskiej grupy partnerów na żądanie rządu USA, co budzi pytania o "dobrowolność" regulacji.
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.