Tylko trzy modele AI przetrwały test prowadzenia startupu przez 500 dni z zyskiem

Badacze z Uniwersytetu Princeton stworzyli CEO-Bench, symulację, w której agenci AI zarządzają fikcyjną firmą programistyczną przez 500 dni, a większość modeli bankrutuje.

Redakcja Aigest

28 czerwca 2026

Udostępnij

Tylko trzy modele AI przetrwały test prowadzenia startupu przez 500 dni z zyskiem — Fot. The Decoder

Nowe badanie przeprowadzone przez naukowców z Uniwersytetu Princeton, w ramach którego stworzono platformę CEO-Bench, ujawniło znaczące luki w zdolnościach obecnych modeli sztucznej inteligencji do zarządzania złożonymi zadaniami biznesowymi w dłuższej perspektywie. W symulacji, gdzie agenci AI mieli prowadzić fikcyjną firmę programistyczną przez 500 wirtualnych dni, większość testowanych modeli zbankrutowała, a jedynie trzy z nich zakończyły działalność z kapitałem wyższym niż początkowy milion dolarów.

CEO-Bench: Test strategicznej inteligencji

Platforma CEO-Bench została zaprojektowana, aby ocenić zdolność sztucznej inteligencji do podejmowania długoterminowych decyzji w warunkach niepewności, co jest kluczową umiejętnością ludzkich menedżerów. W przeciwieństwie do wąskich zadań, w których AI radzi sobie coraz lepiej (np. naprawa błędów, obsługa klienta), prowadzenie firmy wymaga ciągów decyzji, alokacji ograniczonych zasobów, interpretacji niejasnych sygnałów i adaptacji do zmieniających się warunków. Badacze podkreślają, że jest to zupełnie inna kategoria problemów niż te, z którymi AI mierzy się obecnie.

Symulacja dotyczy firmy subskrypcyjnej NovaMind, która zaczyna z zerową liczbą klientów i milionem dolarów kapitału. Agenci AI kontrolują firmę za pomocą interfejsu API Pythona, dysponując 34 narzędziami i bazą danych z 19 tabelami. Mogą pisać własny kod, wykonywać zapytania SQL i tworzyć niestandardowe przepływy pracy. Muszą podejmować decyzje dotyczące:

Cen i pakietów usług
Wydatków na reklamę w różnych kanałach
Jakości produktu i badań i rozwoju (R&D)
Pojemności infrastruktury i wsparcia klienta
Wielorundowych negocjacji z klientami korporacyjnymi

Dodatkowo, agenci mają dostęp do symulowanej sieci społecznościowej, gdzie mogą monitorować skargi, wiadomości o konkurencji i trendy ekonomiczne, a także publikować własne treści. Trudność zadania potęguje realizm czasowy – przychody pojawiają się dopiero w dniach rozliczeniowych, projekty R&D trwają tygodnie, a błędy ujawniają się z opóźnieniem, np. poprzez odpływ klientów. Koszty natomiast ponoszone są natychmiastowo.

Wyniki: Niewielu przetrwało, a prosta heurystyka zaskakuje

Spośród czternastu testowanych modeli, większość nie poradziła sobie z zadaniem. Choć niemal wszystkie były w stanie generować poprawne polecenia i zapytania do bazy danych, żadnemu nie udało się utrzymać spójnej strategii w czasie. Wiele z nich zbankrutowało przed upływem 500 dni symulacji.

Jedynie trzy modele zakończyły swoje najlepsze uruchomienie z kapitałem powyżej początkowego miliona dolarów:

Claude Fable 5: 47,15 miliona dolarów
Claude Opus 4.8: 27,8 miliona dolarów
GPT-5.5: 21,3 miliona dolarów

Warto zauważyć, że Claude Fable 5 był jedynym modelem, który przekroczył kapitał początkowy w więcej niż jednym uruchomieniu. Jednakże, w jednym z testów Fable 5, model przerwał działanie, a w dwóch innych część żądań została przekazana do Opus 4.8. GPT-5.5 zbankrutował w dwóch z trzech swoich uruchomień.

Co ciekawe, prosta heurystyka oparta na stałych zasadach, która w ogóle nie korzystała z modelu językowego, osiągnęła 15,76 miliona dolarów. Ten wynik przewyższył wszystkie modele AI z wyjątkiem Fable 5, Opus 4.8 i GPT-5.5, co wskazuje na znaczące braki w strategicznym myśleniu większości zaawansowanych systemów AI.

Różnice w strategiach i ograniczenia

Analiza trajektorii decyzji ujawniła wyraźne różnice behawioralne. GPT-5.5 i Claude Opus 4.8 konsekwentnie próbowały nowych strategii w miarę zmieniających się warunków, dostosowując pozyskiwanie klientów, pakiety usług czy budżety na wsparcie i R&D. Z kolei Claude Opus 4.7 reagował głównie cięciem kosztów i oszczędzaniem gotówki, co pozwalało mu przetrwać, ale uniemożliwiało osiągnięcie zysku.

Opus 4.8 i GPT-5.5 osiągnęły podobne wyniki końcowe, ale różnymi ścieżkami: Opus 4.8 pozyskał więcej klientów na początku, ale stracił ich w środku symulacji, podczas gdy GPT-5.5 utrzymywał bazę klientów przez cały czas. Oba modele tworzyły zaskakująco wyrafinowany kod – Opus 4.8 zbudował wewnętrzną symulację kohort klientów do przewidywania przepływów pieniężnych, a GPT-5.5 analizował historię negocjacji, aby odkryć ukryte preferencje klientów.

Badacze zidentyfikowali cztery kluczowe zdolności korelujące z sukcesem, w których Opus 4.8 i GPT-5.5 przewyższały średnią innych modeli. Zauważono również, że użycie asystentów kodowania, takich jak Claude Code i Codex, pogarszało wyniki agentów, prawdopodobnie z powodu podpowiedzi systemowych zoptymalizowanych pod kątem tworzenia oprogramowania, a nie zarządzania biznesem.

Skrócenie horyzontu czasowego symulacji do 50 dni również nie rozwiązało problemu – tylko GPT-5.5 zdołał zakończyć ją z zyskiem, co sugeruje, że większość modeli ma trudności z koordynacją decyzji nawet w krótkim terminie.

Autorzy badania przyznają, że ich symulacja ma pewne ograniczenia, np. produkt jest reprezentowany przez pojedynczy wskaźnik jakości, a aspekty takie jak zgodność z przepisami, bezpieczeństwo czy pozyskiwanie funduszy zostały pominięte. Mimo to, CEO-Bench wyraźnie wskazuje na przepaść między lokalnymi kompetencjami narzędziowymi dzisiejszych modeli a ich zdolnością do łączenia działań w długoterminową, spójną strategię biznesową. Wyniki te podkreślają, że choć AI doskonale radzi sobie z pojedynczymi zadaniami, droga do autonomicznego zarządzania złożonymi organizacjami jest jeszcze długa i wymaga rozwoju tzw. inteligencji strategicznej.

Źródło: the-decoder.com

#startup #AI w biznesie #modele językowe #zarządzanie AI #Princeton University

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Biznes AI

Listen Labs pozyskuje 69 mln USD po viralowej kampanii rekrutacyjnej z billboardem

Startup Listen Labs, specjalizujący się w wywiadach z klientami wspieranych przez AI, pozyskał 69 milionów dolarów w rundzie finansowania Serii B, osiągając wycenę 500 milionów dolarów. Firma zyskała rozgłos dzięki niety

Redakcja Aigest16 sty 2026

#startup #AI

Biznes AI

Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?

Amerykański producent chipów pamięci, Micron, zyskuje na wartości, a analitycy z Wall Street upatrują w nim potencjalnego następcę sukcesu Nvidii, napędzanego rosnącym popytem na pamięć w erze sztucznej inteligencji.

Redakcja Aigest18 godz. temu

#AI #NVIDIA

Biznes AI

Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać

Systemy AI staną się niezawodnymi współpracownikami, gdy zaczną realizować całe zadania w trwałych środowiskach pracy, zamiast jedynie generować odpowiedzi. Klucz tkwi w ponownym wykorzystywaniu „umiejętności”.

Redakcja Aigest20 godz. temu

#agenci AI #sztuczna inteligencja

Biznes AI

Coinbase stawia na chińskie modele AI, wywierając presję cenową na zachodnie laboratoria

Coinbase, pod przewodnictwem CEO Briana Armstronga, znacząco obniżyło koszty związane z AI, przechodząc na tańsze chińskie modele. To posunięcie wywiera presję na zachodnie firmy, takie jak OpenAI i Anthropic, zmuszając

Redakcja Aigest21 godz. temu

#OpenAI #Coinbase

Biznes AI

Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea

Chińska firma cyberbezpieczeństwa Qihoo 360 Security Technology ogłosiła stworzenie dwóch narzędzi AI, mających konkurować z Anthropic Mythos, nazywając tę rywalizację „cyber-nuklearnym odstraszaniem”.

Redakcja Aigest23 godz. temu

#sztuczna inteligencja #cyberbezpieczeństwo

Biznes AI

Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska

Prezes SoftBanku, Masayoshi Son, wyraził sceptycyzm wobec wizji Elona Muska dotyczącej orbitalnych centrów danych, wskazując na wysokie koszty i długi czas realizacji, co może opóźnić rozwój AI.

Redakcja Aigestwczoraj

#AI #Centra danych

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.