OpenAI prezentuje GPT-5.6 Sol: nowy flagowiec AI rywalizuje z Claude Mythos, ale dostęp jest ograniczony
OpenAI wprowadza na rynek GPT-5.6 Sol, nowy model AI, który ma konkurować z Anthropic Claude Mythos, szczególnie w kodowaniu agentowym i cyberbezpieczeństwie. Dostęp do niego jest jednak na razie mocno ograniczony.

OpenAI wprowadza na rynek GPT-5.6 Sol, nową generację modeli sztucznej inteligencji, która ma stanowić bezpośrednią konkurencję dla serii Mythos firmy Anthropic. Model Sol, będący flagowym produktem, wykazuje przewagę nad Claude Mythos w kodowaniu agentowym i dorównuje mu w cyberbezpieczeństwie. Dostęp do nowej technologii jest jednak na razie mocno ograniczony, wyłącznie dla wybranych partnerów i pod ścisłym nadzorem rządu USA.
Ograniczony dostęp i frustracja OpenAI
Obecnie dostęp do GPT-5.6 Sol jest możliwy tylko dla wybranych partnerów poprzez API i Codex, na wyraźne polecenie rządu Stanów Zjednoczonych. Jest to o tyle istotne, że ten sam rząd wcześniej wycofał z rynku model Fable 5 z klasy Mythos firmy Anthropic. OpenAI nie kryje swojego niezadowolenia z tej sytuacji. Firma stwierdza, że taki proces dostępu rządowego nie powinien stać się długoterminową normą, ponieważ uniemożliwia to użytkownikom, deweloperom, przedsiębiorstwom, obrońcom cybernetycznym i globalnym partnerom korzystanie z najlepszych narzędzi, których potrzebują.
Nowy schemat nazewnictwa i poziomy wydajności
GPT-5.6 wprowadza również nowy, warstwowy schemat nazewnictwa, przypominający ten stosowany przez Claude. Numer (x.6) oznacza generację, natomiast Sol, Terra i Luna to stałe poziomy wydajności, które mogą ewoluować niezależnie. Sol jest flagowym modelem, Terra dorównuje wydajnością GPT-5.5 przy dwukrotnie niższych kosztach, a Luna to opcja budżetowa. Dodatkowo, dostępny jest tryb „max” dla głębszego rozumowania oraz tryb „ultra”, który rozdziela złożone zadania na równolegle działające podagenty.
Wyniki w benchmarkach i zastosowania
Według danych OpenAI, Sol wyprzedza Anthropic Claude Mythos 5 w kodowaniu agentowym. W teście Terminal-Bench 2.1, Sol osiąga 88,8 procent, a Sol Ultra 91,9 procent, podczas gdy Claude Mythos 5 uzyskuje 88 procent, a Fable 5 84,3 procent. Model Sol wykazuje również postępy w biologii, pokonując GPT-5.5 w benchmarku GeneBench v1 (30 procent vs. 22 procent w najlepszym przypadku) przy mniejszym zużyciu tokenów.
W obszarze cyberbezpieczeństwa, w teście ExploitBench, który ocenia zdolność agentów AI do znajdowania i wykorzystywania luk bezpieczeństwa w silniku JavaScript V8 Google'a, Sol dorównuje wydajności Mythos Preview, zużywając przy tym około jednej trzeciej tokenów wyjściowych. W ExploitGym, benchmarku stworzonym przez badaczy z UC Berkeley we współpracy z OpenAI, wszystkie trzy modele GPT-5.6 poprawiają swoje wyniki wraz ze wzrostem wysiłku rozumowania, co sugeruje potencjał skalowania przy większej mocy obliczeniowej. Dane dla Claude w tym benchmarku nie są jeszcze dostępne.
OpenAI określa Sol jako swój najbardziej zaawansowany model w dziedzinie cyberbezpieczeństwa, podkreślając jego rolę obrońcy, a nie atakującego. Model lepiej radzi sobie z wykrywaniem i naprawianiem luk niż z prowadzeniem pełnych ataków. W testach z Chromium i Firefoxem, Sol znajdował błędy i prymitywy eksploitacyjne, ale nigdy nie stworzył autonomicznego, pełnego łańcucha ataku. OpenAI zaznacza, że GPT-5.6 Sol nadal znajduje się poniżej progu „Cyber Critical” w ich ramie gotowości.
Koszty i dostępność
Koszty użytkowania modeli GPT-5.6 są zróżnicowane: za milion tokenów wejściowych OpenAI pobiera 5 dolarów za Sol, 2,50 dolara za Terra i 1 dolar za Luna. Tokeny wyjściowe kosztują odpowiednio 30, 15 i 6 dolarów. Firma zrewolucjonizowała również system buforowania promptów, wprowadzając wyraźne punkty przerwania pamięci podręcznej i gwarantowany minimalny czas życia wynoszący 30 minut. Zapisy do pamięci podręcznej kosztują 1,25-krotność standardowej ceny wejściowej, natomiast odczyty korzystają z 90-procentowej zniżki.
Ponieważ Sol zużywa mniej tokenów, aby dorównać lub przewyższyć konkurencję w wielu benchmarkach, efektywny koszt zadania może okazać się niższy niż w poprzednich generacjach. To zjawisko może odwrócić ostatni trend wzrostu cen modeli AI, który był często krytykowany i stanowił słaby punkt w rywalizacji z tańszymi modelami chińskimi. W lipcu Sol ma zostać uruchomiony na platformie Cerebras, osiągając prędkość do 750 tokenów na sekundę.
Premiera GPT-5.6 Sol, pomimo początkowych ograniczeń dostępu, stanowi istotny krok w ewolucji sztucznej inteligencji, szczególnie w kontekście rosnącej konkurencji na rynku. Zdolność do efektywnego kodowania agentowego i wzmocnienia cyberbezpieczeństwa, w połączeniu z innowacyjnym podejściem do kosztów i wydajności, może zwiastować nową erę w rozwoju AI, choć wyzwania związane z regulacjami i dostępnością pozostają kluczowe dla jej pełnego wykorzystania.
Źródło: the-decoder.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Benchmark MirrorCode: AI programuje bez przerwy przez 19 dni, kosztując 2600 dolarów
Nowy benchmark MirrorCode od Epoch AI i METR testuje zdolność modeli AI do samodzielnego odtwarzania całych programów. Jeden z modeli pracował nad zadaniem nieprzerwanie przez 19 dni, co kosztowało 2600 dolarów.
Redakcja Aigest4 godz. temu

Apple udostępnia "container" – narzędzie do uruchamiania kontenerów Linuksa jako lekkich maszyn wirtualnych na Apple Sil
Zespół badawczy Apple zaprezentował "container" – nowe, otwartoźródłowe narzędzie wiersza poleceń napisane w Swift, które umożliwia uruchamianie kontenerów Linuksa jako lekkich maszyn wirtualnych bezpośrednio na urządzen
Redakcja Aigest13 godz. temu

Wprowadzenie GPT-5.6 przez OpenAI wymaga zgody rządu USA dla każdego klienta
OpenAI musi ograniczyć dostęp do swojego najnowszego modelu AI, GPT-5.6, do wąskiej grupy partnerów na żądanie rządu USA, co budzi pytania o "dobrowolność" regulacji.
Redakcja Aigest13 godz. temu

Jak zbudować agenta AI w stylu Nanobota w Google Colab z wywoływaniem narzędzi i pamięcią sesji
Artytykuł przedstawia przewodnik krok po kroku, jak stworzyć lekkiego, osobistego agenta AI inspirowanego architekturą Nanobota, z możliwością uruchomienia w Google Colab. Skupia się na praktycznym zrozumieniu działania
Redakcja Aigest14 godz. temu
Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem
Hugging Face wprowadza nową metodę szybkiego uruchamiania prywatnych, kompatybilnych z OpenAI punktów końcowych LLM na swojej infrastrukturze, eliminując potrzebę ręcznej konfiguracji serwerów.
Redakcja Aigest22 godz. temu

Google Finance debiutuje z aplikacją mobilną na Androida, iOS w planach
Po 20 latach Google Finance doczekało się pierwszej samodzielnej aplikacji mobilnej na Androida, z wersją na iOS planowaną na koniec roku. Nowa aplikacja i odświeżona strona internetowa są silnie zintegrowane ze sztuczną
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.