Subquadratic twierdzi, że przełamało kluczową barierę w rozwoju LLM
Startup Subquadratic ogłosił opracowanie nowego modelu językowego SubQ, który ma być szybszy, tańszy i bardziej energooszczędny niż obecne rozwiązania, dzięki zastosowaniu rzadkiej uwagi zamiast gęstej.

Amerykański startup Subquadratic ogłosił, że rozwiązał problem matematycznego wąskiego gardła, które od niemal dekady ograniczało rozwój dużych modeli językowych (LLM). Firma z Miami zaprezentowała swój nowy model o nazwie SubQ, który ma być szybszy, tańszy i zużywać znacznie mniej energii niż konkurencyjne rozwiązania dostępne na rynku.
Subquadratic twierdzi, że SubQ jest w stanie przetwarzać nawet 12 razy więcej tekstu jednocześnie niż większość innych modeli, co pozwala mu na wykonywanie zadań wymagających analizy dużych zbiorów danych, takich jak setki dokumentów czy całe bazy kodu. Co więcej, model ma dorównywać wydajnością najlepszym modelom stworzonym przez Google DeepMind, OpenAI i Anthropic w kluczowych zadaniach, takich jak kodowanie.
Początkowy sceptycyzm i niezależna weryfikacja
Początkowe ogłoszenie Subquadratic spotkało się ze sporym sceptycyzmem, ponieważ firma przedstawiła niewiele dowodów na swoje twierdzenia poza kilkoma samodzielnie opublikowanymi wynikami testów. Model SubQ nie był również szeroko dostępny do wypróbowania. Dan McAteer, inżynier sztucznej inteligencji, podsumował ogólną reakcję, stwierdzając, że SubQ to „albo największy przełom od czasu Transformerów... albo AI Theranos”.
Miesiąc później Subquadratic opublikowało więcej informacji o swoim modelu, w tym wyniki dodatkowych, niezależnych testów przeprowadzonych przez zewnętrzną firmę Appen. Alex Whedon, współzałożyciel i dyrektor ds. technologii w Subquadratic, przyznał, że firma spodziewała się sceptycyzmu i w przyszłości będzie dbać o pełną weryfikację wyników przed ich publikacją.
Jeanine Sinanan-Singh, dyrektor ds. badań nad generatywną AI w Appen, potwierdziła, że wyniki testów zdają się wspierać wiele twierdzeń Subquadratic. „To było dla mnie naprawdę ekscytujące, potwierdziło ich architekturę” – powiedziała Sinanan-Singh, dodając, że model może być „przełomem” ze względu na problemy z szybkością i wydajnością w obecnych modelach.
Przełom w architekturze LLM
Kluczowym mechanizmem w większości obecnych LLM jest sieć neuronowa typu Transformer, która wykorzystuje proces zwany gęstą uwagą (dense attention). Kiedy Transformer przetwarza fragment tekstu, koduje każde słowo (lub jego część, tzw. token) liczbą. Aby uchwycić znaczenie całego tekstu, mnoży każdą z tych liczb przez wszystkie inne liczby w danym tekście. Na przykład, tekst o długości 10 000 słów generowałby prawie 50 milionów indywidualnych mnożeń. Jest to główny powód, dla którego LLM są tak energochłonne.
Problem polega na tym, że wraz ze wzrostem długości tekstu, liczba obliczeń rośnie wykładniczo – podwojenie liczby słów skutkuje w przybliżeniu czterokrotnym wzrostem liczby obliczeń, co jest znane jako kwadratowa ekspansja.
Rozwiązanie Subquadratic polega na rezygnacji z gęstej uwagi na rzecz rzadkiej uwagi (sparse attention), która drastycznie zmniejsza liczbę potrzebnych obliczeń. Zamiast mnożyć liczbę przypisaną do każdego tokena przez wszystkie inne, rzadka uwaga wybiera tylko niektóre liczby do pomnożenia. Idea ta opiera się na założeniu, że nie wszystkie relacje między słowami w tekście są istotne.
„Rzadka uwaga mówi, że nie wszystkie te relacje są ważne, ponieważ tak nie jest” – wyjaśnia Whedon. „Jeśli czytasz książkę, nie będziesz patrzeć na pierwsze i drugie słowo, pierwsze i trzecie – to szalone”.
Subquadratic twierdzi, że udało im się rozwiązać problem, który wcześniej uniemożliwiał skuteczne zastosowanie rzadkiej uwagi. Ich model SubQ ma być pierwszym LLM wykorzystującym rzadką uwagę, który dorównuje wydajnością głównym modelom opartym na gęstej uwadze. Firma nie ujawnia dokładnie, w jaki sposób SubQ wybiera słowa, na których ma się skupić, ale proces ten jest dynamiczny i różni się dla każdego fragmentu tekstu. Justin Dangel, współzałożyciel i dyrektor generalny Subquadratic, wyraził nadzieję, że ich przełom zapoczątkuje „nową erę wydajności” i że za kilka lat nikt nie będzie już budował modeli na Transformerach.
Jeśli twierdzenia Subquadratic znajdą szerokie potwierdzenie, może to oznaczać znaczącą zmianę w sposobie projektowania i działania dużych modeli językowych. Potencjalne korzyści w postaci niższych kosztów, większej szybkości i mniejszego zużycia energii mogłyby przyspieszyć adopcję LLM w wielu branżach i otworzyć drogę do nowych zastosowań, które obecnie są zbyt kosztowne lub wymagające obliczeniowo.
Źródło: technologyreview.com
Komentarze
Nikt jeszcze nie skomentował. Bądź pierwszy!
Powiązane w Newsy

OpenAI rozszerza inicjatywę Daybreak: GPT-5.5-Cyber i partnerstwa w cyberbezpieczeństwie
OpenAI rozwija swoją inicjatywę Daybreak, wprowadzając model GPT-5.5-Cyber, który ma przewyższać konkurencję w testach cyberbezpieczeństwa. Firma stawia na automatyzację łatania luk i współpracę z ponad 25 firmami oraz r
Redakcja Aigest2 godz. temu

Fugu od Sakana AI: orkiestracja wielu modeli LLM rzuca wyzwanie gigantom
Japoński startup Sakana AI wprowadza Fugu – system, który dynamicznie koordynuje wiele modeli językowych, działając jak jeden model. Twórcy twierdzą, że Fugu dorównuje, a nawet przewyższa najlepsze modele Anthropic w tes
Redakcja Aigest3 godz. temu

Nvidia stawia na chłodzenie cieczą i wyższe temperatury, by zredukować zużycie wody w centrach danych
Nvidia ogłosiła, że jej nowa referencyjna konstrukcja centrum danych, oparta na chłodzeniu cieczą i wyższych temperaturach pracy, ma niemal całkowicie wyeliminować zużycie wody.
Redakcja Aigest13 godz. temu
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.