Aigest.
Newsy

OpenAI prezentuje GPT-5.6 Sol: nowy flagowiec AI rywalizuje z Claude Mythos, ale dostęp jest ograniczony

OpenAI wprowadza na rynek GPT-5.6 Sol, nowy model AI, który ma konkurować z Anthropic Claude Mythos, szczególnie w kodowaniu agentowym i cyberbezpieczeństwie. Dostęp do niego jest jednak na razie mocno ograniczony.

RA

Udostępnij
OpenAI prezentuje GPT-5.6 Sol: nowy flagowiec AI rywalizuje z Claude Mythos, ale dostęp jest ograniczony
Fot. The Decoder

OpenAI wprowadza na rynek GPT-5.6 Sol, nową generację modeli sztucznej inteligencji, która ma stanowić bezpośrednią konkurencję dla serii Mythos firmy Anthropic. Model Sol, będący flagowym produktem, wykazuje przewagę nad Claude Mythos w kodowaniu agentowym i dorównuje mu w cyberbezpieczeństwie. Dostęp do nowej technologii jest jednak na razie mocno ograniczony, wyłącznie dla wybranych partnerów i pod ścisłym nadzorem rządu USA.

Ograniczony dostęp i frustracja OpenAI

Obecnie dostęp do GPT-5.6 Sol jest możliwy tylko dla wybranych partnerów poprzez API i Codex, na wyraźne polecenie rządu Stanów Zjednoczonych. Jest to o tyle istotne, że ten sam rząd wcześniej wycofał z rynku model Fable 5 z klasy Mythos firmy Anthropic. OpenAI nie kryje swojego niezadowolenia z tej sytuacji. Firma stwierdza, że taki proces dostępu rządowego nie powinien stać się długoterminową normą, ponieważ uniemożliwia to użytkownikom, deweloperom, przedsiębiorstwom, obrońcom cybernetycznym i globalnym partnerom korzystanie z najlepszych narzędzi, których potrzebują.

Nowy schemat nazewnictwa i poziomy wydajności

GPT-5.6 wprowadza również nowy, warstwowy schemat nazewnictwa, przypominający ten stosowany przez Claude. Numer (x.6) oznacza generację, natomiast Sol, Terra i Luna to stałe poziomy wydajności, które mogą ewoluować niezależnie. Sol jest flagowym modelem, Terra dorównuje wydajnością GPT-5.5 przy dwukrotnie niższych kosztach, a Luna to opcja budżetowa. Dodatkowo, dostępny jest tryb „max” dla głębszego rozumowania oraz tryb „ultra”, który rozdziela złożone zadania na równolegle działające podagenty.

Wyniki w benchmarkach i zastosowania

Według danych OpenAI, Sol wyprzedza Anthropic Claude Mythos 5 w kodowaniu agentowym. W teście Terminal-Bench 2.1, Sol osiąga 88,8 procent, a Sol Ultra 91,9 procent, podczas gdy Claude Mythos 5 uzyskuje 88 procent, a Fable 5 84,3 procent. Model Sol wykazuje również postępy w biologii, pokonując GPT-5.5 w benchmarku GeneBench v1 (30 procent vs. 22 procent w najlepszym przypadku) przy mniejszym zużyciu tokenów.

W obszarze cyberbezpieczeństwa, w teście ExploitBench, który ocenia zdolność agentów AI do znajdowania i wykorzystywania luk bezpieczeństwa w silniku JavaScript V8 Google'a, Sol dorównuje wydajności Mythos Preview, zużywając przy tym około jednej trzeciej tokenów wyjściowych. W ExploitGym, benchmarku stworzonym przez badaczy z UC Berkeley we współpracy z OpenAI, wszystkie trzy modele GPT-5.6 poprawiają swoje wyniki wraz ze wzrostem wysiłku rozumowania, co sugeruje potencjał skalowania przy większej mocy obliczeniowej. Dane dla Claude w tym benchmarku nie są jeszcze dostępne.

OpenAI określa Sol jako swój najbardziej zaawansowany model w dziedzinie cyberbezpieczeństwa, podkreślając jego rolę obrońcy, a nie atakującego. Model lepiej radzi sobie z wykrywaniem i naprawianiem luk niż z prowadzeniem pełnych ataków. W testach z Chromium i Firefoxem, Sol znajdował błędy i prymitywy eksploitacyjne, ale nigdy nie stworzył autonomicznego, pełnego łańcucha ataku. OpenAI zaznacza, że GPT-5.6 Sol nadal znajduje się poniżej progu „Cyber Critical” w ich ramie gotowości.

Koszty i dostępność

Koszty użytkowania modeli GPT-5.6 są zróżnicowane: za milion tokenów wejściowych OpenAI pobiera 5 dolarów za Sol, 2,50 dolara za Terra i 1 dolar za Luna. Tokeny wyjściowe kosztują odpowiednio 30, 15 i 6 dolarów. Firma zrewolucjonizowała również system buforowania promptów, wprowadzając wyraźne punkty przerwania pamięci podręcznej i gwarantowany minimalny czas życia wynoszący 30 minut. Zapisy do pamięci podręcznej kosztują 1,25-krotność standardowej ceny wejściowej, natomiast odczyty korzystają z 90-procentowej zniżki.

Ponieważ Sol zużywa mniej tokenów, aby dorównać lub przewyższyć konkurencję w wielu benchmarkach, efektywny koszt zadania może okazać się niższy niż w poprzednich generacjach. To zjawisko może odwrócić ostatni trend wzrostu cen modeli AI, który był często krytykowany i stanowił słaby punkt w rywalizacji z tańszymi modelami chińskimi. W lipcu Sol ma zostać uruchomiony na platformie Cerebras, osiągając prędkość do 750 tokenów na sekundę.

Premiera GPT-5.6 Sol, pomimo początkowych ograniczeń dostępu, stanowi istotny krok w ewolucji sztucznej inteligencji, szczególnie w kontekście rosnącej konkurencji na rynku. Zdolność do efektywnego kodowania agentowego i wzmocnienia cyberbezpieczeństwa, w połączeniu z innowacyjnym podejściem do kosztów i wydajności, może zwiastować nową erę w rozwoju AI, choć wyzwania związane z regulacjami i dostępnością pozostają kluczowe dla jej pełnego wykorzystania.

Źródło: the-decoder.com

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Benchmark MirrorCode: AI programuje bez przerwy przez 19 dni, kosztując 2600 dolarów
Newsy

Benchmark MirrorCode: AI programuje bez przerwy przez 19 dni, kosztując 2600 dolarów

Nowy benchmark MirrorCode od Epoch AI i METR testuje zdolność modeli AI do samodzielnego odtwarzania całych programów. Jeden z modeli pracował nad zadaniem nieprzerwanie przez 19 dni, co kosztowało 2600 dolarów.

Redakcja Aigest4 godz. temu

Apple udostępnia "container" – narzędzie do uruchamiania kontenerów Linuksa jako lekkich maszyn wirtualnych na Apple Sil
Newsy

Apple udostępnia "container" – narzędzie do uruchamiania kontenerów Linuksa jako lekkich maszyn wirtualnych na Apple Sil

Zespół badawczy Apple zaprezentował "container" – nowe, otwartoźródłowe narzędzie wiersza poleceń napisane w Swift, które umożliwia uruchamianie kontenerów Linuksa jako lekkich maszyn wirtualnych bezpośrednio na urządzen

Redakcja Aigest13 godz. temu

Wprowadzenie GPT-5.6 przez OpenAI wymaga zgody rządu USA dla każdego klienta
Newsy

Wprowadzenie GPT-5.6 przez OpenAI wymaga zgody rządu USA dla każdego klienta

OpenAI musi ograniczyć dostęp do swojego najnowszego modelu AI, GPT-5.6, do wąskiej grupy partnerów na żądanie rządu USA, co budzi pytania o "dobrowolność" regulacji.

Redakcja Aigest13 godz. temu

Jak zbudować agenta AI w stylu Nanobota w Google Colab z wywoływaniem narzędzi i pamięcią sesji
Newsy

Jak zbudować agenta AI w stylu Nanobota w Google Colab z wywoływaniem narzędzi i pamięcią sesji

Artytykuł przedstawia przewodnik krok po kroku, jak stworzyć lekkiego, osobistego agenta AI inspirowanego architekturą Nanobota, z możliwością uruchomienia w Google Colab. Skupia się na praktycznym zrozumieniu działania

Redakcja Aigest14 godz. temu

Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem
Newsy

Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem

Hugging Face wprowadza nową metodę szybkiego uruchamiania prywatnych, kompatybilnych z OpenAI punktów końcowych LLM na swojej infrastrukturze, eliminując potrzebę ręcznej konfiguracji serwerów.

Redakcja Aigest22 godz. temu

Google Finance debiutuje z aplikacją mobilną na Androida, iOS w planach
Newsy

Google Finance debiutuje z aplikacją mobilną na Androida, iOS w planach

Po 20 latach Google Finance doczekało się pierwszej samodzielnej aplikacji mobilnej na Androida, z wersją na iOS planowaną na koniec roku. Nowa aplikacja i odświeżona strona internetowa są silnie zintegrowane ze sztuczną

Redakcja Aigestwczoraj

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.