Pomysł, który doprowadził do powstanie ChatGPT i innych modeli LLM

Artykuł Attention Is All You Need opublikowany przez zespół Google Brain w 2017 roku stał się fundamentalnym przełomem, który doprowadził do rewolucji w dziedzinie sztucznej inteligencji i powstania dużych modeli językowych (LLM).

Mechanizm uwagi (Attention) jako fundament

Model Transformer wprowadził przełomową koncepcję – pozwalała ona zamiast przetwarzać tekst słowo po słowie, „skupić się” na istotnych częściach tekstu wejściowego, wykorzystując trzy komponenty: queries (zapytania), keys (klucze) i values (wartości). Ten pomysł umożliwił równoległe przetwarzanie całych sekwencji wyrazów. To dramatycznie zwiększyło efektywność trenowania i możliwość skalowania modeli. Model może analizować relacje między wszystkimi słowami w sekwencji jednocześnie, co pozwala na lepsze zrozumienie kontekstu i długoterminowych zależności w tekście.

Droga do budowy GPT (Generative Pre-trained Transformer)

GPT-1 (2018) – pierwszy krok

OpenAI wykorzystało architekturę Transformer do stworzenia GPT-1 z 117 milionami parametrów. Model używał tylko części dekodera z oryginalnej architektury encoder-decoder, skupiając się na generowaniu następnego słowa w sekwencji.

GPT-2 (2019) – skalowanie

Zwiększenie do 1,5 miliarda parametrów pokazało, że skalowanie modeli Transformer prowadzi do dramatycznej poprawy jakości. GPT-2 demonstrował zdolności generowania spójnego tekstu na poziomie bliskim ludzkiemu.

GPT-3 (2020) – przełom ilościowy w jakość

Model z 175 miliardami parametrów osiągnął punkt przełomowy, gdzie ilość przeszła w jakość. GPT-3 wykazał zdolności few-shot learning – uczenia się na podstawie kilku przykładów bez dodatkowego trenowania.

Równoległy rozwój – BERT (2018)

Google rozwinęło alternatywną ścieżkę, tworząc BERT (Bidirectional Encoder Representations from Transformers), który wykorzystywał część encodera architektury Transformer. BERT wprowadził dwukierunkowe przetwarzanie tekstu, analizując kontekst zarówno z lewej, jak i prawej strony każdego słowa.

Kluczowe czynniki sukcesu

Skalowanie modeli

Transformer umożliwił trenowanie coraz większych modeli dzięki równoległości obliczeń. Badacze odkryli, że większe modele konsekwentnie osiągają lepsze wyniki. Architektura Transformer idealnie nadała się do pre-trenowania na ogromnych korpusach tekstowych, a następnie fine-tuningu do konkretnych zadań. W przeciwieństwie do wcześniejszych modeli wyspecjalizowanych w konkretne zadania, Transformer okazał się uniwersalną architekturą nadającą się do różnych aplikacji NLP. Ostatnim krokiem była optymalizacja pod kątem interakcji z użytkownikami. OpenAI opracowało InstructGPT używając techniki Reinforcement Learning from Human Feedback (RLHF), co doprowadziło do powstania ChatGPT w listopadzie 2022 roku.

Wpływ na całą branżę

Dokument „Attention Is All You Need” został cytowany ponad 173,000 razy, plasując się w pierwszej dziesiątce najczęściej cytowanych prac XXI wieku. Architektura Transformer stała się podstawą praktycznie wszystkich współczesnych modeli językowych, od ChatGPT przez Claude po Gemini.