MIT przedstawia SEAL: Przełom w samodoskonalącej się sztucznej inteligencji

Naukowcy z MIT opracowali SEAL, nowatorski framework umożliwiający dużym modelom językowym samodzielną edycję i aktualizację własnych wag poprzez uczenie ze wzmocnieniem, co stanowi znaczący krok w kierunku samoewoluując

Redakcja Aigest

16 czerwca 2025

Udostępnij

MIT przedstawia SEAL: Przełom w samodoskonalącej się sztucznej inteligencji — Fot. Synced

Naukowcy z MIT zaprezentowali SEAL (Self-Adapting Language Models) – innowacyjny framework, który umożliwia dużym modelom językowym (LLM) samodzielną aktualizację własnych wag. To osiągnięcie jest postrzegane jako kluczowy krok w kierunku realizacji prawdziwie samoewoluującej sztucznej inteligencji, wzbudzając szerokie dyskusje w środowisku badawczym i wśród czołowych postaci branży, takich jak Sam Altman, CEO OpenAI.

Jak działa SEAL?

Opublikowany wczoraj artykuł naukowy opisuje metodę, w której LLM może generować własne dane treningowe poprzez „samoedytowanie”, a następnie aktualizować swoje wagi w oparciu o nowe dane wejściowe. Kluczowe jest, że ten proces samoedycji jest uczony za pomocą uczenia ze wzmocnieniem (reinforcement learning), gdzie mechanizm nagrody jest ściśle związany z poprawą wydajności zaktualizowanego modelu w docelowych zadaniach.

Podstawowa koncepcja SEAL polega na tym, aby modele językowe mogły doskonalić się, napotykając nowe dane, generując własne syntetyczne dane i optymalizując swoje parametry poprzez samoedycję. Cel treningowy modelu to bezpośrednie generowanie tych samoedycji (SE) z wykorzystaniem danych dostarczonych w kontekście modelu. Generowanie samoedycji jest uczone poprzez uczenie ze wzmocnieniem: model jest nagradzany, gdy zastosowane samoedycje prowadzą do poprawy wydajności w docelowym zadaniu.

SEAL można zatem postrzegać jako algorytm z dwiema zagnieżdżonymi pętlami:

Zewnętrzna pętla uczenia ze wzmocnieniem (RL), która optymalizuje generowanie samoedycji.
Wewnętrzna pętla aktualizacji, która wykorzystuje wygenerowane samoedycje do aktualizacji modelu za pomocą spadku gradientu.

Metoda ta jest przykładem meta-uczenia, koncentrującego się na tym, jak generować skuteczne samoedycje. W implementacji SEAL działa na pojedynczej instancji zadania (C,τ), gdzie C to informacje kontekstowe, a τ definiuje ocenę w dół strumienia dla oceny adaptacji modelu. Na przykład, w zadaniu integracji wiedzy, C może być fragmentem tekstu do zintegrowania z wewnętrzną wiedzą modelu, a τ zestawem pytań dotyczących tego fragmentu.

Naukowcy odkryli, że tradycyjne metody polityki online, takie jak GRPO i PPO, prowadziły do niestabilnego treningu. Ostatecznie zdecydowali się na ReST^EM, prostsze podejście klonowania behawioralnego oparte na filtrowaniu, zaczerpnięte z pracy DeepMind. Metodę tę można postrzegać jako proces Expectation-Maximization (EM), gdzie krok E próbkuje kandydatów wyjść z bieżącej polityki modelu, a krok M wzmacnia tylko te próbki, które przynoszą pozytywną nagrodę poprzez nadzorowane dostrajanie.

Wyniki eksperymentalne i kontekst rynkowy

Zespół MIT zastosował SEAL w dwóch konkretnych obszarach: integracji wiedzy i uczeniu z niewielu przykładów (few-shot learning). Wyniki eksperymentalne w obu domenach potwierdzają skuteczność frameworku.

W przypadku uczenia z niewielu przykładów, wykorzystując model Llama-3.2-1B-Instruct, SEAL znacząco poprawił wskaźniki sukcesu adaptacji, osiągając 72,5% w porównaniu do 20% dla modeli używających podstawowych samoedycji bez treningu RL i 0% bez adaptacji. Choć wynik ten jest nadal poniżej idealizowanej linii bazowej „Oracle TTT”, wskazuje na znaczący postęp.

Przy integracji wiedzy, używając większego modelu Qwen2.5-7B do integracji nowych faktów z artykułów SQuAD, SEAL konsekwentnie przewyższał metody bazowe. Trening z syntetycznie generowanymi danymi z bazowego modelu Qwen-2.5-7B już wykazał zauważalne ulepszenia, a późniejsze uczenie ze wzmocnieniem dodatkowo zwiększyło wydajność. Dokładność szybko poprawiała się w kolejnych iteracjach RL, często przewyższając konfiguracje wykorzystujące dane generowane przez GPT-4.1 już po dwóch iteracjach.

Badacze podkreślają, że choć obecna implementacja wykorzystuje jeden model do generowania i uczenia się z samoedycji, role te mogłyby zostać rozdzielone w konfiguracji „nauczyciel-uczeń”. Wskazują również na pewne ograniczenia SEAL, takie jak katastrofalne zapominanie, narzuty obliczeniowe i ocena zależna od kontekstu, które są szczegółowo omówione w oryginalnym artykule.

Publikacja ta pojawia się w czasie wzmożonego zainteresowania samoewolucją AI. Wcześniej w tym miesiącu uwagę przyciągnęły inne projekty, takie jak „Darwin-Gödel Machine (DGM)” od Sakana AI i University of British Columbia, „Self-Rewarding Training (SRT)” od CMU, framework „MM-UPT” od Shanghai Jiao Tong University oraz „UI-Genie” od The Chinese University of Hong Kong we współpracy z vivo. Dodatkowo, Sam Altman z OpenAI podzielił się swoją wizją przyszłości z samo-ulepszającą się AI i robotami w swoim blogu „The Gentle Singularity”, sugerując, że roboty mogłyby samodzielnie budować całe łańcuchy dostaw. Niezależnie od spekulacji dotyczących wewnętrznych prac OpenAI, artykuł MIT dostarcza konkretnych dowodów na postęp AI w kierunku samoewolucji.

Szersze konsekwencje dla rozwoju AI

Prace nad SEAL z MIT stanowią istotny krok w kierunku autonomicznych systemów AI, które potrafią adaptować się i uczyć w sposób ciągły. Możliwość samodzielnego generowania danych treningowych i aktualizowania wag modelu otwiera nowe perspektywy dla tworzenia bardziej elastycznych i wydajnych rozwiązań w dziedzinie sztucznej inteligencji. Chociaż istnieją wyzwania, takie jak stabilność treningu i narzuty obliczeniowe, kierunek wyznaczony przez SEAL wskazuje na przyszłość, w której AI będzie w stanie samodzielnie ewoluować, minimalizując potrzebę interwencji człowieka w procesie doskonalenia.

Źródło: syncedreview.com

#LLM #sztuczna inteligencja #uczenie maszynowe #MIT #samoewolucja AI

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Newsy

Subquadratic twierdzi, że przełamało kluczową barierę w rozwoju LLM

Startup Subquadratic ogłosił opracowanie nowego modelu językowego SubQ, który ma być szybszy, tańszy i bardziej energooszczędny niż obecne rozwiązania, dzięki zastosowaniu rzadkiej uwagi zamiast gęstej.

Redakcja Aigest19 cze 2026

#LLM #sztuczna inteligencja

Biznes AI

Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać

Systemy AI staną się niezawodnymi współpracownikami, gdy zaczną realizować całe zadania w trwałych środowiskach pracy, zamiast jedynie generować odpowiedzi. Klucz tkwi w ponownym wykorzystywaniu „umiejętności”.

Redakcja Aigest20 godz. temu

#agenci AI #sztuczna inteligencja

Biznes AI

Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea

Chińska firma cyberbezpieczeństwa Qihoo 360 Security Technology ogłosiła stworzenie dwóch narzędzi AI, mających konkurować z Anthropic Mythos, nazywając tę rywalizację „cyber-nuklearnym odstraszaniem”.

Redakcja Aigest23 godz. temu

#sztuczna inteligencja #cyberbezpieczeństwo

Biznes AI

Wiceprezes Apple odpowiedzialny za Vision Pro przechodzi do OpenAI

Paul Meade, kluczowy menedżer Apple stojący za goglami Vision Pro, ma dołączyć do zespołu sprzętowego OpenAI. Jego odejście wiąże się z restrukturyzacją w Apple i ambicjami OpenAI w obszarze urządzeń AI.

Redakcja Aigestwczoraj

#OpenAI #sztuczna inteligencja

Biznes AI

Jak założyciel startupu wykorzystał AI do walki z rakiem

Conno Christou, założyciel startupu, po diagnozie agresywnego chłoniaka non-Hodgkina, wykorzystał sztuczną inteligencję, aby lepiej zrozumieć swoją chorobę i podjąć świadome decyzje dotyczące leczenia.

Redakcja Aigestwczoraj

#sztuczna inteligencja #AI w medycynie

Biznes AI

NYT oskarża Microsoft o budowę superkomputera naruszającego prawa autorskie dla OpenAI

The New York Times złożył poprawiony pozew przeciwko OpenAI i Microsoftowi, zarzucając, że Microsoft aktywnie zachęcał OpenAI do naruszania praw autorskich poprzez budowę specjalistycznego superkomputera.

Redakcja Aigest2 dni temu

#OpenAI #sztuczna inteligencja

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.