LLM

Co to są modele LLM

Są to modele sztucznej inteligencji, które specjalizują się w przetwarzaniu języka ludzkiego i generowaniu na jego podstawie odpowiedzi.

Jak działają modele LLM

  1. Szkolone są na ogromnej ilości danych, nie tylko tekstowych, które wielkościami sięgają petabajtów (1000 * 1000 gigabajtów). Dane wprowadzane są do modelu w postaci tokenów i na ich podstawie wyuczane są parametry modelu.

  2. Przemielenie tak dużej ilości danych pozwala modelowi odpowiadać zgodnie z naszymi wzorcami językowymi, strukturami zdań i zgodnym znaczeniem słów.

  3. Na podstawie nauczonych danych głównym zdaniem modelu jest przewidzenie następnego tokenu w sekwencji, które należy zwrócić. Poprzez wielokrotne wywołanie takiej predykcji w odpowiedzi otrzymujemy ciąg tekstu “statystycznie poprawny”. Dzięki temu zwrócony tekst jest płynny i brzmi jakby został stworzony przez człowieka.

Ważną koncepcją do zrozumienia jest to, że te modele wcale “nie rozumieją” danych, które dostają ani ich kontekstów. Jest to duże uproszczenie myślowe. Ich zadaniem jest zwrócenie statystycznie najbardziej prawidłowego ciągu znaków do naszego pytania. Z tego powodu modelom zdarza się halucynować.

LLM

Model AI mający za zadanie przewidzieć następny token w sekwencji