VibeThinker-3B: Mały model językowy Sina rywalizuje z gigantami w logice, ale nie w wiedzy

Chiński model językowy VibeThinker-3B, opracowany przez firmę Sina, osiąga wyniki porównywalne z modelami stukrotnie większymi w zadaniach matematycznych i programistycznych, co podważa dotychczasowe założenia dotyczące

Redakcja Aigest

28 czerwca 2026

Udostępnij

VibeThinker-3B: Mały model językowy Sina rywalizuje z gigantami w logice, ale nie w wiedzy — Fot. The Decoder

Chiński model językowy VibeThinker-3B, opracowany przez firmę Sina (właściciela Weibo), zaskakuje swoimi osiągnięciami. Pomimo posiadania zaledwie trzech miliardów parametrów, w niektórych zadaniach matematycznych i programistycznych dorównuje modelom stukrotnie większym. Odkrycia te prowadzą badaczy do nowej hipotezy dotyczącej struktury zdolności sztucznej inteligencji.

Przełom w zadaniach logicznych

Według raportu technicznego, VibeThinker-3B osiąga wyniki porównywalne z DeepSeek V3.2 i Kimi K2.5 w wymagających benchmarkach, takich jak AIME26. Co istotne, oba te modele mają od 200 do 333 razy więcej parametrów. Sina traktuje ten model jako eksperyment mający na celu ustalenie, ile mocy obliczeniowej faktycznie potrzebuje model, aby konkurować na najwyższym poziomie. Poprzednik, VibeThinker-1.5B, został wprowadzony w listopadzie 2025 roku, a nowa wersja ma sprawdzić, czy mały model może osiągnąć prawdziwie topową wydajność, a nie tylko być „dobry jak na swój rozmiar”.

Wyniki są dwojakie. W zadaniach strukturalnych z jasno weryfikowalnymi rozwiązaniami, takich jak olimpiady matematyczne czy wyzwania programistyczne, VibeThinker-3B dorównuje modelom takim jak GLM-5 czy Gemini 3 Pro. W benchmarku LiveCodeBench przewyższa wszystkie inne modele poniżej 20 miliardów parametrów.

Aby wykluczyć zanieczyszczenie danych, zespół przetestował model w konkursach LeetCode odbywających się między końcem kwietnia a końcem maja 2026 roku, już po zakończeniu szkolenia. VibeThinker-3B rozwiązał 123 ze 128 problemów za pierwszym podejściem. To stawia go przed GPT-5.2, Qwen3-Max, Kimi K2.5 i Claude Opus 4.6. Ustępuje jedynie GPT-5.3-Codex, Gemini 3.1 Pro i Gemini 3 Flash, ale z niewielką różnicą.

Ograniczenia w wiedzy faktograficznej

Sytuacja wygląda inaczej w przypadku wiedzy faktograficznej. W benchmarku GPQA-Diamond, który kładzie nacisk na wiedzę, model znacznie ustępuje swoim większym konkurentom. To wskazuje, że zdolność do logicznego rozumowania i rozwiązywania problemów może być efektywnie skompresowana, ale przechowywanie obszernej wiedzy faktograficznej wymaga większej liczby parametrów.

Metodologia szkolenia i hipoteza badaczy

VibeThinker-3B bazuje na modelu Qwen2.5-Coder-3B firmy Alibaba. Kluczowy wkład Sina to post-szkolenie, czyli wszystko, co dzieje się po ogólnym wstępnym szkoleniu na dużych zbiorach danych. Według raportu, to właśnie ten etap sprawia, że model 3B zbliża się do najlepszych wyników.

Post-szkolenie odbywa się etapami:

Nadzorowane dostrajanie (supervised fine-tuning): Model uczy się szerokiego zakresu zadań, w tym matematyki, kodowania i ogólnego dialogu.
Dostosowanie do złożonych problemów: Następnie model jest specjalnie dostosowywany do trudnych, wieloetapowych problemów rozumowania.
Uczenie ze wzmocnieniem (reinforcement learning): Stosowane sekwencyjnie dla matematyki, programowania i STEM.
Samodestylowanie (self-distillation): Konsoliduje umiejętności z każdej fazy w jeden model.
Końcowy etap: Zapewnia lepsze przestrzeganie instrukcji przez model.

Podczas dostrajania zespół celowo buduje szeroką gamę ścieżek rozwiązań, a uczenie ze wzmocnieniem wzmacnia te, które działają. Argumentuje się, że wydajność wynika z metod szkolenia, jakości danych i wiarygodnych sygnałów walidacyjnych, a nie z większej liczby parametrów.

Na podstawie tych wyników autorzy proponują „Hipotezę Kompresji-Pokrycia Parametrycznego”. Zakłada ona, że różne zdolności AI mają różne struktury i wymagają różnej liczby parametrów. Rozumowanie logiczne, takie jak rozwiązywanie problemów matematycznych krok po kroku, opiera się na kilku powtarzających się wzorcach (wyszukiwanie, sprawdzanie warunków, korygowanie błędów, łączenie wyników pośrednich). Tego rodzaju umiejętności można skompresować w kompaktowy rdzeń. Wiedza o świecie działa inaczej; odpowiadanie na otwarte pytania z wielu dziedzin wymaga szerokiego pokrycia, co oznacza wiele parametrów przechowujących wiele faktów.

Nowe perspektywy dla małych modeli

Badacze podkreślają, że to odkrycie zmienia postrzeganie małych modeli. Nie są one już tylko tańszymi, lżejszymi wersjami przeznaczonymi do budżetowego wnioskowania, ale stanowią niezależną ścieżkę badawczą, równoległą do tradycyjnej logiki skalowania. Tam, gdzie zadania są weryfikowalne i mają jasne struktury rozwiązań, liczba parametrów przestaje być wąskim gardłem. VibeThinker-3B jest publicznie dostępny na platformach Hugging Face i GitHub.

Trend, w którym małe modele dorównują znacznie większym systemom w wąskich zadaniach, staje się coraz bardziej widoczny. W kwietniu Qwen3.6-27B firmy Alibaba przewyższył swojego 15-krotnie większego poprzednika we wszystkich benchmarkach kodowania. Falcon H1R 7B z Abu Zabi osiągnął poziom wydajności modeli dwu- do siedmiokrotnie większych. Wyniki VibeThinker w zadaniach weryfikowalnych podważają wcześniejsze założenia, że małe modele napotykają ogólnie na trudności w rozumowaniu wieloetapowym, otwierając nowe możliwości dla efektywniejszego rozwoju AI.

Źródło: the-decoder.com

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Newsy

Ford zatrudnia ponownie doświadczonych inżynierów po niespełnionych oczekiwaniach wobec AI

Koncern Ford Motor Company zatrudnił 350 doświadczonych inżynierów, w tym byłych pracowników, po tym jak systemy sztucznej inteligencji i automatyzacji nie zapewniły oczekiwanego poziomu jakości w produkcji.

Redakcja Aigest15 godz. temu

Newsy

Jak zbudować stabilny przepływ pracy dla danych Fable 5 Traces w Colab

Artykuł przedstawia kompleksowy przewodnik po tworzeniu stabilnego środowiska pracy z danymi Fable 5 Traces, obejmujący parsowanie wywołań narzędzi, audyt danych i trenowanie modeli bazowych.

Redakcja Aigestwczoraj

Newsy

Liquid AI prezentuje LFM2.5-230M: mały model AI do zadań agentowych na urządzeniach brzegowych

Liquid AI wprowadza LFM2.5-230M, swój najmniejszy model AI, zoptymalizowany do zadań agentowych na urządzeniach brzegowych, takich jak telefony i roboty.

Redakcja Aigestwczoraj

Newsy

DeepSeek prezentuje DSpark: przyspieszenie generowania DeepSeek-V4 o 60-85%

DeepSeek wprowadził DSpark, framework do spekulatywnego dekodowania, który znacząco przyspiesza generowanie treści przez modele DeepSeek-V4, oferując otwarte zasoby i kod do trenowania.

Redakcja Aigestwczoraj

#DeepSeek #DSpark

Newsy

Połowa użytkowników Claude twierdzi, że AI może wykonać co najmniej połowę ich pracy

Badanie przeprowadzone przez Anthropic wśród blisko 10 000 użytkowników Claude'a ujawnia, że wielu z nich uważa, iż sztuczna inteligencja jest już w stanie przejąć znaczną część ich obowiązków zawodowych.

Redakcja Aigestwczoraj

Newsy

NVIDIA Open-SWE-Traces: Jak przygotować dane do dostrajania modeli inżynierii oprogramowania

Artykuł przedstawia praktyczne podejście do wykorzystania zbioru danych Open-SWE-Traces firmy NVIDIA w celu tworzenia wysokiej jakości danych do nadzorowanego dostrajania modeli AI w inżynierii oprogramowania.

Redakcja Aigest2 dni temu

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.