pxpipe: Narzędzie open-source obniża koszty tokenów Claude Code i Fable 5 nawet o 70% poprzez ukrywanie tekstu w obrazac
Nowe narzędzie pxpipe konwertuje długie teksty na obrazy PNG, aby znacząco zredukować koszty tokenów w modelach AI, wykorzystując różnice w cennikach przetwarzania tekstu i grafik.

Narzędzie pxpipe, dostępne jako oprogramowanie open-source, umożliwia znaczące obniżenie kosztów tokenów dla modeli AI, takich jak Claude Code i Fable 5. Działa ono poprzez konwersję długich danych tekstowych na skompresowane obrazy PNG, wykorzystując różnice w sposobie naliczania opłat za przetwarzanie tekstu i grafik przez Anthropic.
Jak pxpipe oszczędza tokeny?
Kluczem do działania pxpipe jest specyfika cennika Anthropic. Tekst jest zazwyczaj wyceniany na około jeden token za znak, natomiast obrazy mają stałą cenę tokenów, zależną od ich wymiarów w pikselach, niezależnie od ilości zawartego w nich tekstu. Dzięki temu, gęsta treść, taka jak kod programistyczny czy dane w formacie JSON, może być skompresowana do około 3,1 znaku na każdy token obrazu.
pxpipe działa jako lokalne proxy, przechwytując żądania wysyłane do Claude Code. Następnie renderuje obszerne, statyczne elementy, takie jak monity systemowe, dokumentacja narzędzi oraz starsza historia czatów, jako obrazy. Najnowsze wiadomości i odpowiedzi modelu są przesyłane jako zwykły tekst. Przykład działania pokazuje, że około 48 000 znaków monitu systemowego i dokumentacji narzędziowej, które jako tekst kosztowałyby około 25 000 tokenów, po konwersji na obraz PNG kosztują zaledwie 2 700 tokenów.
Według dewelopera Stevena Chonga, średnie oszczędności wynoszą od 59 do 70 procent. W jednym z testów przeprowadzonych z modelem Fable 5, koszty sesji spadły z 42,21 USD do 6,06 USD. Chong zaznacza, że jeśli ta metoda zyska na popularności, firmy AI mogą zareagować podniesieniem cen za przetwarzanie obrazów.
Ograniczenia i kompatybilność
Metoda ta ma jednak swoje wady. Jest to proces stratny, co oznacza, że dokładne ciągi znaków, takie jak hasze, mogą zostać zniekształcone podczas odczytu z obrazów. Przetwarzanie jest również wolniejsze, ponieważ model musi przetwarzać renderowane obrazy za pomocą enkodera wizyjnego, zamiast bezpośrednio czytać tekst.
pxpipe domyślnie obsługuje modele Claude Fable 5 i GPT 5.6. Benchmarking i oceny są szczegółowo udokumentowane w repozytorium projektu. Fable 5 osiąga 100-procentową dokładność w testach problemów matematycznych z losowymi liczbami, których model nie mógł zapamiętać. Modele Opus 4.7 i 4.8 błędnie odczytują około 7 procent renderowanych obrazów, a GPT 5.5 również radzi sobie gorzej z kontekstem obrazu. Oba te modele są domyślnie wyłączone i mogą być aktywowane ręcznie.
Idea przesyłania tekstu do modeli AI w postaci skompresowanych obrazów nie jest nowa. Firma Deepseek opracowała system OCR, który przetwarza dokumenty tekstowe jako obrazy, osiągając kompresję do dziesięciokrotności przy zachowaniu 97 procent informacji, co zostało opisane w ich publikacji technicznej.
Rozwiązanie pxpipe stanowi innowacyjne podejście do optymalizacji kosztów w obliczu rosnącego zapotrzebowania na przetwarzanie dużych ilości danych przez modele AI. Pokazuje ono, jak kreatywne wykorzystanie istniejących mechanizmów cenowych może przynieść wymierne korzyści finansowe, jednocześnie podkreślając potrzebę dalszych badań nad efektywnością i dokładnością przetwarzania danych wizualnych w kontekście tekstowym.
Źródło: the-decoder.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Alibaba zakazuje pracownikom korzystania z narzędzia Claude Code firmy Anthropic
Chiński gigant technologiczny Alibaba wprowadza zakaz używania przez swoich pracowników narzędzia programistycznego Claude Code, opracowanego przez firmę Anthropic, od 10 lipca.
Redakcja Aigest15 godz. temu

Jak odkrywać własne 'nieznane nieznane' z Claude Fable 5 – porady dewelopera Anthropic
Deweloper Anthropic, Thariq Shihipar, dzieli się wskazówkami dotyczącymi efektywnego wykorzystania najnowszego modelu Claude Fable 5, podkreślając znaczenie identyfikacji własnych luk w wiedzy przed rozpoczęciem pracy.
Redakcja Aigest19 godz. temu

Współzałożyciel OpenAI przewiduje przyszłość bez interfejsów i nauki oprogramowania
Greg Brockman z OpenAI uważa, że przyszłość AI to niewidzialne agenty wykonujące zadania, eliminując potrzebę uczenia się oprogramowania. Wizja ta stoi w kontraście do dotychczasowych produktów firmy.
Redakcja Aigest22 godz. temu

Badanie na 26 000 studentów ujawnia ukryte koszty uczenia się z AI, widoczne po dwóch latach
Nowe badanie z Chin wskazuje, że choć studenci używający AI szybciej odrabiają prace domowe i uzyskują lepsze oceny, to ich wyniki na egzaminach znacząco spadają, a pełne konsekwencje ujawniają się dopiero po około dwóch
Redakcja Aigest23 godz. temu

NVIDIA AI prezentuje ASPIRE: Samodoskonalący się framework dla robotyki, osiągający 31% zero-shot w zadaniach LIBERO-Pro
NVIDIA wraz z partnerami wprowadza ASPIRE, system ciągłego uczenia się, który automatyzuje programowanie i udoskonalanie robotów, znacząco poprawiając ich autonomię i zdolność do adaptacji.
Redakcja Aigestwczoraj

Mistral AI prezentuje Leanstral 1.5: Model agenta kodu dla Lean 4 rozwiązujący 587 problemów PutnamBench
Mistral AI wprowadził Leanstral 1.5, model agenta kodu dla Lean 4, który znacząco poprawia automatyczne dowodzenie twierdzeń i inżynierię dowodów, osiągając imponujące wyniki w benchmarkach.
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.