LLM
LLM, также Большая языковая модель (Large Language Model) — получившая известность в последние несколько лет версия искусственного интеллекта, которая работает на базе текста и позволяет генерировать тексты по запросам. Именно таковыми являются ChatGPT, Grok, Claude и другие.
Описание[править]
Первые успехи в обработке естественного языка состоялись с развитием нейронных сетей RNN и архитектурой LSTM, они позволяли моделировать последовательности. Однако эти подходы плохо масштабировались на длинные тексты.
В 2017 году выходит почтенная статья Attention Is All You Need от Google, в ней описывается архитектура Transformer, основанную на механизме внимания. Такая архитектура может хорошо обрабатывать длинные последовательности и параллельно обучать модели на больших данных. Вскоре разработаны первые крупные модели на базе Transformer стали BERT (от Google, 2018) и GPT-1 (от ClosedAI, 2018).
Только в 2020 обучена GPT-3 (175 млрд параметров), первая модель, которую стали называть большой. Она уже показывала способность выполнять задачи по нескольким примерам без дополнительного обучения, хотя всё ещё часто ошибалась.
С 2022 года начинается разработка многомодальных моделей, которые могут работать не только с текстом, но и с изображениями, аудио и видео. Таким образом возможности нейронной сети оказывается расширена.
В дальнейшем появились специализированные небольшие модели, обученные для исполнения конкретных задач, особые техники дистилляции и квантования, стали выходить и открытые модели, которые можно скачать и поставить себе.