Aigest.
Newsy

Baidu prezentuje „Unlimited OCR”: Przełom w przetwarzaniu wielostronicowych dokumentów dzięki mechanizmowi uwagi inspiro

Baidu opracowało innowacyjny model OCR, który przetwarza dziesiątki stron dokumentów w jednym przebiegu, utrzymując stałe zużycie pamięci i szybkość, niezależnie od długości tekstu. Kluczem jest przeprojektowany mechaniz

RA

Udostępnij
Baidu prezentuje „Unlimited OCR”: Przełom w przetwarzaniu wielostronicowych dokumentów dzięki mechanizmowi uwagi inspiro
Fot. The Decoder

Naukowcy z Baidu opracowali innowacyjny model optycznego rozpoznawania znaków (OCR) nazwany „Unlimited OCR”, który jest zdolny do przetwarzania dziesiątek stron dokumentów w jednym przebiegu wnioskowania. Kluczową innowacją jest przeprojektowany mechanizm uwagi, który utrzymuje stałe zużycie pamięci i szybkość działania, niezależnie od długości przetwarzanego tekstu. To znacząco odróżnia go od istniejących modeli OCR, które zazwyczaj nie radzą sobie z więcej niż dziesięcioma stronami w jednym cyklu.

Przełamanie bariery pamięciowej dzięki R-SWA

Dotychczasowe modele OCR, wykorzystujące modele językowe jako dekodery, napotykały na problem rosnącego zużycia pamięci i spadku szybkości wraz z wydłużaniem się tekstu. Wynikało to z działania bufora KV cache, który przechowuje wszystkie wcześniej przetworzone tokeny. W praktyce, aby obejść to ograniczenie, systemy przetwarzały dokumenty strona po stronie, resetując pamięć podręczną po każdym kroku.

Baidu podeszło do problemu, czerpiąc inspirację z ludzkiego sposobu przetwarzania informacji. Jak zauważają badacze, osoba przepisująca książkę nie czyta ponownie wszystkiego, co już napisała. Skupia się na źródle, ostatnich kilku znakach i kolejnym, który ma zapisać, pozwalając starszym fragmentom „zanikać” w pamięci. Model Unlimited OCR naśladuje ten schemat dzięki mechanizmowi nazwanemu Reference Sliding Window Attention (R-SWA).

Zasada działania R-SWA polega na tym, że każdy generowany token nadal ma dostęp do wszystkich tokenów referencyjnych (wizualnych tokenów obrazu i promptu). Jednak w przypadku wcześniej wygenerowanych danych wyjściowych, model odwołuje się jedynie do ostatnich 128 tokenów. Dzięki temu bufor KV cache pozostaje stały przez cały proces, zamiast rosnąć liniowo wraz z długością danych wyjściowych. Co ważne, R-SWA wyłącza tokeny wizualne z tych przejściowych zmian stanu, zapewniając, że są one kodowane raz i pozostają niezmienione, co zapobiega rozmyciu cech obrazu i degradacji rozpoznawania.

Architektura i wydajność Unlimited OCR

Unlimited OCR bazuje na otwartym modelu Deepseek OCR. Baidu wykorzystuje swój DeepEncoder, łącząc go z architekturą mixture-of-experts o trzech miliardach parametrów, z czego około 500 milionów jest aktywnych podczas wnioskowania. DeepEncoder kompresuje obraz PDF o rozdzielczości 1024x1024 pikseli do 256 tokenów. Model oferuje dwa tryby rozdzielczości: „Base” dla dokumentów wielostronicowych i „Gundam” z dynamiczną rozdzielczością dla pojedynczych stron. Każda standardowa warstwa uwagi w dekoderze została zastąpiona przez R-SWA.

Szkolenie modelu odbyło się na około dwóch milionach próbek dokumentów, z czego 90% stanowiły dane jednostronicowe, a 10% wielostronicowe. Dane wielostronicowe zostały syntetycznie stworzone poprzez łączenie pojedynczych stron w dokumenty o długości od dwóch do pięćdziesięciu stron. Trening trwał przez 4000 kroków na ośmiu procesorach graficznych Nvidia A800.

Unlimited OCR osiąga 93% ogólnej dokładności w benchmarku dokumentów OmniDocBench v1.5, co stanowi sześć punktów procentowych powyżej bazowego Deepseek OCR. Na nowszej wersji v1.6, model osiąga 93,92%, plasując się na szczycie rankingów systemów end-to-end. W testach długoterminowych, gdzie model przetwarza wiele stron w jednym przebiegu, wskaźnik błędów pozostaje poniżej 0,11 nawet po przekroczeniu 40 stron. Badacze przypisują pozostałe błędy ograniczeniom rozdzielczości DeepEncodera w trybie Base, a nie utracie kontekstu przez R-SWA.

Stała pamięć podręczna przekłada się również na znaczący wzrost szybkości. W trybie Base, Unlimited OCR osiąga 5580 tokenów na sekundę w porównaniu do 4951 dla Deepseek OCR, co oznacza wzrost o 12,7%. W teoretycznym porównaniu górnych granic z idealnym równoległym przetwarzaniem, model Baidu przewyższa bazowy o 35% przy około 6000 tokenów wyjściowych, podczas gdy przepustowość bazowego modelu spada wraz ze wzrostem długości.

Przyszłość i szersze zastosowania

Obecnie stała długość kontekstu modelu, wynosząca 32 000 tokenów, ogranicza liczbę stron, które może przetworzyć, ponieważ tokeny wizualne kumulują się z każdą dodatkową stroną. Baidu planuje wkrótce szkolić modele z 128 000 tokenów i ostatecznie stworzyć pulę wstępnego ładowania, która pozwoli modelowi samodzielnie pobierać odpowiednie bloki KV, niczym przewracanie stron w książce. Autorzy widzą również możliwość zastosowania R-SWA w innych zadaniach opartych na referencjach, takich jak rozpoznawanie mowy i tłumaczenie.

Rozwój Unlimited OCR wpisuje się w szersze dążenia Baidu w dziedzinie sztucznej inteligencji, czego przykładem jest niedawne wprowadzenie multimodalnego modelu Ernie 5.1. Technologia ta ma potencjał nie tylko w rozpoznawaniu dokumentów, ale także w rozszerzaniu pamięci modeli językowych dla długich historii czatów czy dużych dokumentów, co może prowadzić do dalszych innowacji w efektywności przetwarzania informacji w AI.

Źródło: the-decoder.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV
Midjourney żąda od hollywoodzkich studiów ujawnienia szczegółów ich własnego wykorzystania AI
Współzałożyciel OpenAI przewiduje przyszłość bez interfejsów i nauki oprogramowania
Badanie na 26 000 studentów ujawnia ukryte koszty uczenia się z AI, widoczne po dwóch latach
Mistral AI prezentuje Leanstral 1.5: Model agenta kodu dla Lean 4 rozwiązujący 587 problemów PutnamBench
Google DeepMind i A24 łączą siły w partnerstwie badawczym

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.