Aigest.

Token

Zaktualizowano:

Token to podstawowa jednostka przetwarzania tekstu przez modele sztucznej inteligencji, reprezentująca fragment słowa, całe słowo, znak interpunkcyjny lub spację. Służy do kwantyfikacji danych wejściowych i wyjściowych, co ma bezpośrednie przełożenie na koszty użytkowania modeli.

W kontekście modeli językowych i przetwarzania języka naturalnego (NLP), token jest fundamentalnym elementem, na który dzielony jest tekst. Może to być pojedynczy znak, grupa znaków, całe słowo, a nawet część słowa (tzw. subword token). Proces podziału tekstu na tokeny nazywany jest tokenizacją.

Modele AI operują na tych tokenach, przekształcając je w reprezentacje numeryczne (wektory), które mogą być następnie przetwarzane. Liczba tokenów w zapytaniu (input) i odpowiedzi (output) jest kluczowa, ponieważ większość dostawców usług AI rozlicza użytkowników właśnie na podstawie liczby przetworzonych tokenów. Im więcej tokenów, tym wyższy koszt operacji.

Tokeny pozwalają modelom na efektywniejsze zarządzanie słownictwem i radzenie sobie z rzadkimi słowami lub wyrazami złożonymi. Przykładowo, słowo „niebieskozielony” może zostać podzielone na tokeny „niebiesko” i „zielony”, co pozwala modelowi lepiej zrozumieć jego znaczenie, nawet jeśli nie widział wcześniej dokładnie tego złożonego wyrazu.

Rozumienie koncepcji tokenów jest istotne dla optymalizacji zapytań do modeli AI, kontroli kosztów oraz efektywnego zarządzania długością tekstu, który może być przetworzony przez model w ramach jednego zapytania (tzw. okno kontekstowe).

Przeczytaj więcej