Benchmark MirrorCode: AI programuje bez przerwy przez 19 dni, kosztując 2600 dolarów
Nowy benchmark MirrorCode od Epoch AI i METR testuje zdolność modeli AI do samodzielnego odtwarzania całych programów. Jeden z modeli pracował nad zadaniem nieprzerwanie przez 19 dni, co kosztowało 2600 dolarów.

Nowy benchmark MirrorCode, opracowany przez Epoch AI i METR, ma na celu sprawdzenie, czy modele sztucznej inteligencji są w stanie samodzielnie odtworzyć całe programy. Wyróżniającym się osiągnięciem jest praca modelu Claude Opus 4.7, który osiągnął 56% skuteczności, choć najbardziej złożone zadania nadal pozostają poza zasięgiem wszystkich testowanych systemów.
MirrorCode: Nowe podejście do oceny AI w programowaniu
W ramach benchmarku MirrorCode, modele AI muszą odtworzyć kompletne programy od podstaw, bez dostępu do oryginalnego kodu źródłowego. Zestaw 25 programów docelowych obejmuje różnorodne narzędzia, takie jak narzędzia Unix, serializacja danych, bioinformatyka, interpretery, analiza statyczna, kryptografia i kompresja. Każde rozwiązanie wygenerowane przez AI musi dokładnie replikować dane wyjściowe oryginalnego programu, włączając w to ukryte testy end-to-end, których model nie widzi podczas procesu tworzenia.
Istotną różnicą w stosunku do wielu innych benchmarków jest budżet na wnioskowanie. Twórcy MirrorCode zauważają, że istniejące benchmarki inżynierii oprogramowania często ograniczają koszty do 1-10 dolarów za zadanie, nawet jeśli człowiek potrzebowałby tygodni na wykonanie tej samej pracy. W przypadku MirrorCode, jedno z największych zadań kosztowało 2600 dolarów za pojedyncze uruchomienie, a AI pracowało nieprzerwanie przez 19 dni bez jakiejkolwiek interwencji człowieka.
Claude Opus 4.7 na czele rankingu
Epoch AI podkreśla, że sztuczna inteligencja jest już w stanie sprostać wymagającym, długoterminowym zadaniom programistycznym. Przykładem jest Claude Opus 4.7, który odtworzył gotree – zestaw narzędzi bioinformatycznych składający się z około 16 000 linii kodu Go i ponad 40 komend. Ludzki inżynier bez wsparcia AI potrzebowałby na to zadanie od 2 do 17 tygodni. Opus 4.7 wykonał je w 14 godzin, a koszt wyniósł 251 dolarów.
W ogólnym rankingu Claude Opus 4.7 osiągnął wskaźnik sukcesu na poziomie 56 procent. Na kolejnych miejscach uplasowały się GPT-5.5 z 44 procentami oraz Gemini 3.1 Pro Preview z 32 procentami. Nawet jeśli modele nie są w stanie w pełni odtworzyć programu, zazwyczaj przechodzą 90 procent lub więcej testów.
Wyzwania i perspektywy rozwoju
Mimo znaczących postępów, MirrorCode jest daleki od pełnego rozwiązania. Zadania dzielą się na trzy kategorie: małe, średnie i duże. Małe programy, takie jak uuid czy parseqsv, są niezawodnie odtwarzane przez wszystkie testowane modele. Jednak największe zadania pokonują każdy testowany model. Naukowcy obserwują szybkie tempo rozwoju; wiodące modele sprzed roku osiągnęłyby wynik zaledwie około 30 procent i byłyby ograniczone do prostszych programów, takich jak narzędzia kalendarzowe.
Trendy kosztowe nie wykazują jasnego wzorca. GPT-5.5 kosztuje trzykrotnie więcej niż GPT-5 za te same zadania, podczas gdy Claude Opus 4.7 jest trzykrotnie tańszy niż Claude Opus 4.1.
Epoch AI udostępniło publicznie szkielet benchmarku oraz 22 z 25 programów docelowych, obejmujących 132 instancje zadań w sześciu językach programowania. Trzy programy pozostają prywatne do celów testowych. Naukowcy zwracają uwagę na istotne zastrzeżenie: ponieważ MirrorCode wykorzystuje programy open-source jako cele, modele mogły już widzieć oryginalny kod podczas szkolenia. Wstępne testy sugerują, że wyniki nie były zdominowane przez zapamiętywanie, ale nie można wykluczyć, że zapamiętywanie przyczynia się do wydajności AI.
Wyniki benchmarku MirrorCode jasno pokazują, że choć sztuczna inteligencja poczyniła ogromne postępy w samodzielnym programowaniu, nadal istnieją znaczące wyzwania, zwłaszcza w przypadku złożonych zadań. Jednocześnie, zdolność do pracy przez wiele dni bez interwencji człowieka i relatywnie niskie koszty dla niektórych modeli, wskazują na potencjał AI do rewolucjonizowania procesów tworzenia oprogramowania w przyszłości, co z pewnością będzie miało wpływ na rynek pracy inżynierów oprogramowania.
Źródło: the-decoder.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

OpenAI prezentuje GPT-5.6 Sol: nowy flagowiec AI rywalizuje z Claude Mythos, ale dostęp jest ograniczony
OpenAI wprowadza na rynek GPT-5.6 Sol, nowy model AI, który ma konkurować z Anthropic Claude Mythos, szczególnie w kodowaniu agentowym i cyberbezpieczeństwie. Dostęp do niego jest jednak na razie mocno ograniczony.
Redakcja Aigest3 godz. temu

Apple udostępnia "container" – narzędzie do uruchamiania kontenerów Linuksa jako lekkich maszyn wirtualnych na Apple Sil
Zespół badawczy Apple zaprezentował "container" – nowe, otwartoźródłowe narzędzie wiersza poleceń napisane w Swift, które umożliwia uruchamianie kontenerów Linuksa jako lekkich maszyn wirtualnych bezpośrednio na urządzen
Redakcja Aigest13 godz. temu

Wprowadzenie GPT-5.6 przez OpenAI wymaga zgody rządu USA dla każdego klienta
OpenAI musi ograniczyć dostęp do swojego najnowszego modelu AI, GPT-5.6, do wąskiej grupy partnerów na żądanie rządu USA, co budzi pytania o "dobrowolność" regulacji.
Redakcja Aigest13 godz. temu

Jak zbudować agenta AI w stylu Nanobota w Google Colab z wywoływaniem narzędzi i pamięcią sesji
Artytykuł przedstawia przewodnik krok po kroku, jak stworzyć lekkiego, osobistego agenta AI inspirowanego architekturą Nanobota, z możliwością uruchomienia w Google Colab. Skupia się na praktycznym zrozumieniu działania
Redakcja Aigest14 godz. temu
Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem
Hugging Face wprowadza nową metodę szybkiego uruchamiania prywatnych, kompatybilnych z OpenAI punktów końcowych LLM na swojej infrastrukturze, eliminując potrzebę ręcznej konfiguracji serwerów.
Redakcja Aigest22 godz. temu

Google Finance debiutuje z aplikacją mobilną na Androida, iOS w planach
Po 20 latach Google Finance doczekało się pierwszej samodzielnej aplikacji mobilnej na Androida, z wersją na iOS planowaną na koniec roku. Nowa aplikacja i odświeżona strona internetowa są silnie zintegrowane ze sztuczną
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.