Обучение по короткому пути
Обучение по короткому пути (shortcut learning) — феномен в машинном обучении, когда модель в состоянии выдать как бы верный ответ, но на основании совершенно нечеловеческой логики, которая живому человеку не может в принципе прийти в голову. Таким образом становится ясно, что LLM — это стохастический попугай.
Описание[править]
Такие модели демонстрируют высокую точность на стандартных бенчмарках, где данные распределены идентично обучающим и под них собственно можно осуществлять подгоныч, но резко теряют производительность в реальных условиях, при сдвигах распределения данных или в более сложных сценариях, то есть в продакшене такая модель оказывается в сраке.
Происходит от понятия shortcut, то бишь срезания пути. Для ИИ это правило принятия решений, которое хорошо работает на стандартных тестовых наборах, но не переносится на более сложные условия. Они эксплуатируют статистические артефакты данных, а не причинно-следственные связи, и соответственно не отражают реальные паттерны в наборах данных.
Так, например реальные датасеты полны систематических корреляций. Коровы чаще всего находятся на фоне травы, самолёты на голубом небе, больничные рентгены содержат артефакты. Даже в больших датасетах сохраняются подобные ошибки, из-за чего модель стяжает в себя ошибочные паттерны.
Нейросети минимизируют функцию потери и выбирают любые отличительные признаки, даже самые простые. Они предпочитают текстуру форме, цвет форме объекта, а фоновые подсказки самим объектам. Из-за этого возникают серьёзные ошибки при попытке отработать на том, что в датасете отсутствовало, модель становится малополезной, так как скажем при виде травы может радостно сказать, что це корова.
Таким образом если на тесте модель показывает, что она очень умная, это совершенно не обязательно будет на практике.