
Новое исследование раскрывает причины, по которым большие языковые модели, такие как GPT-5 и чат-боты, продолжают выдавать так называемые «галлюцинации» — правдоподобные, но неверные утверждения. Несмотря на значительные улучшения, эти ошибки остаются одной из главных проблем, с которой сталкиваются разработчики ИИ.
Учёные показали, что модели часто ошибаются, отвечая на простые вопросы, например, о названии диссертации или дате рождения исследователя — они дают разные и неправильные ответы, при этом звучат очень уверенно. Причина кроется в процессе обучения: модели учатся предсказывать следующее слово в тексте, не имея чёткой информации о том, правда это или ложь. Таким образом, они хорошо справляются с общими языковыми паттернами, но не могут точно воспроизводить редкие факты.
Авторы исследования отмечают, что проблема усугубляется тем, как оцениваются модели. Современные методы оценки поощряют угадывание вместо признания незнания, поскольку за правильный ответ дают баллы, а за пропуск — ноль. В результате модели склонны рисковать и давать уверенные, но ошибочные ответы.
Предлагаемое решение — изменить систему оценки: ввести штрафы за уверенные ошибки и частичное признание неопределённости, чтобы стимулировать модели к более осторожным ответам. Такой подход похож на экзамены с отрицательным баллом за неправильные ответы, которые снижают количество случайных догадок.
Таким образом, чтобы уменьшить количество «галлюцинаций» у ИИ, необходимо пересмотреть не только процесс обучения, но и систему мотивации моделей, делая акцент на честности и аккуратности в ответах.


