Mechanizm uwagi (attention)
Zaktualizowano:
Mechanizm uwagi jest kluczowym komponentem w nowoczesnych architekturach głębokiego uczenia, szczególnie w modelach przetwarzania języka naturalnego (NLP), takich jak Transformery. Jego podstawową ideą jest umożliwienie sieci neuronowej przypisywania różnych wag do poszczególnych elementów sekwencji wejściowej (np. słów w zdaniu) w zależności od tego, jak bardzo są one istotne dla generowania wyjścia lub zrozumienia kontekstu.
Zamiast traktować wszystkie elementy wejściowe jednakowo, mechanizm uwagi oblicza wyniki podobieństwa między zapytaniem (query), kluczami (keys) i wartościami (values), co pozwala na dynamiczne określenie, które fragmenty danych są najbardziej relewantne w danym momencie. Dzięki temu model może efektywniej przetwarzać długie sekwencje i wychwytywać zależności na dużych odległościach, co było wyzwaniem dla wcześniejszych architektur, takich jak rekurencyjne sieci neuronowe (RNN).
W architekturze Transformerów, mechanizm uwagi jest sercem działania, umożliwiając modelowi jednoczesne przetwarzanie wszystkich tokenów w sekwencji i dynamiczne ustalanie ich wzajemnych relacji. Istnieją różne warianty uwagi, w tym uwaga skalowana iloczynem punktowym (scaled dot-product attention) oraz uwaga wielogłowicowa (multi-head attention), która pozwala modelowi skupiać się na różnych aspektach informacji jednocześnie. Mechanizm uwagi różni się od prostego ważenia cech, ponieważ wagi są dynamicznie obliczane na podstawie relacji między elementami sekwencji, a nie są stałymi parametrami.