Чем сложнее становится ИИ, тем чаще у него возникают галлюцинации.

Самая продвинутая модель рассуждений OpenAI умнее, чем когда-либо, но она также вызывает больше галлюцинаций, чем предыдущие модели.


alt

(Изображение предоставлено: agsandrew/ Shutterstock)

Чем более продвинутым становится искусственный интеллект (ИИ), тем больше у него «галлюцинаций» и тем больше он выдаёт неверной и неточной информации.


Исследование, проведённое OpenAI, показало, что его новейшие и наиболее мощные модели логического мышления, o3 и o4-mini, в 33% и 48% случаев соответственно выдавали галлюцинации при тестировании на бенчмарке OpenAI PersonQA. Это более чем в два раза превышает показатели более старой модели o1. Хотя o3 предоставляет более точную информацию, чем её предшественница, это, по-видимому, достигается за счёт более неточных галлюцинаций.


Это вызывает опасения по поводу точности и надёжности больших языковых моделей (LLM), таких как чат-боты с искусственным интеллектом, — заявила Элеонора Уотсон, член Института инженеров электротехники и электроники (IEEE) и инженер по этике ИИ в Университете Сингулярности.


«Когда система выдаёт сфабрикованную информацию — например, выдуманные факты, цитаты или события — с той же лёгкостью и последовательностью, с которыми она выдаёт достоверный контент, она рискует ввести пользователей в заблуждение тонкими и значимыми способами», — сказал Уотсон в интервью Live Science.


По мнению экспертов, проблема галлюцинаций подчеркивает необходимость тщательной оценки и контроля информации, которую генерируют системы ИИ при использовании больших языковых моделей и моделей рассуждений.


Снятся ли ИИ электрические овцы?

Суть модели рассуждений заключается в том, что она может решать сложные задачи, разбивая их на отдельные компоненты и предлагая решения для каждого из них. Вместо того чтобы выдавать ответы, основанные на статистической вероятности, модели рассуждений предлагают стратегии решения проблем, подобно тому, как думают люди.


Чтобы находить творческие и потенциально новые решения проблем, ИИ должен генерировать галлюцинации — в противном случае он ограничен жёсткими данными, которые получает его LLM.


«Важно отметить, что галлюцинации — это особенность, а не ошибка ИИ», — Сохроб Казерунян, исследователь ИИ в Vectra AI, рассказал Live Science. «Перефразируя моего коллегу, скажу: «Всё, что выдаёт LLM, — это галлюцинация. Просто некоторые из этих галлюцинаций правдивы». Если бы ИИ генерировал только дословные результаты, которые он видел во время обучения, весь ИИ сводился бы к масштабной проблеме поиска».


«Вы сможете генерировать только тот компьютерный код, который был написан ранее, находить белки и молекулы, свойства которых уже были изучены и описаны, и отвечать на домашние задания, которые уже задавались ранее. Однако вы не сможете попросить LLM написать текст для концептуального альбома, посвящённого сингулярности ИИ, в котором будут сочетаться лирические стили Снуп Догга и Боба Дилана».


По сути, LLM и системы искусственного интеллекта, которые они поддерживают, должны вызывать галлюцинации, чтобы создавать, а не просто выдавать существующую информацию. Концептуально это похоже на то, как люди видят сны или воображают сценарии, когда придумывают новые идеи.


Слишком много мыслей не по теме

Однако галлюцинации ИИ создают проблемы, когда дело доходит до предоставления точной и достоверной информации, особенно если пользователи принимают её за чистую монету без каких-либо проверок или контроля.


«Это особенно проблематично в тех областях, где решения зависят от точности фактов, таких как медицина, юриспруденция или финансы», — сказал Уотсон. «Хотя более продвинутые модели могут снизить частоту очевидных фактических ошибок, проблема сохраняется в более скрытых формах. Со временем конфабуляция подрывает доверие к системам ИИ как к надёжным инструментам и может нанести существенный вред, если действовать на основе непроверенного контента».


И эта проблема, похоже, будет усугубляться по мере развития ИИ. «По мере совершенствования возможностей моделей ошибки часто становятся менее очевидными, но их становится сложнее обнаружить, — отметил Уотсон. — Сфабрикованный контент всё чаще встраивается в правдоподобные повествования и последовательные цепочки рассуждений. Это создаёт особый риск: пользователи могут не подозревать о наличии ошибок и воспринимать результаты как окончательные, хотя это не так. Проблема заключается не в фильтрации грубых ошибок, а в выявлении тонких искажений, которые могут проявиться только при тщательном изучении».


Казерунян поддержал эту точку зрения. «Несмотря на распространённое мнение о том, что проблема галлюцинаций у ИИ может и будет решаться со временем, похоже, что последнее поколение продвинутых моделей мышления на самом деле начало галлюцинировать чаще, чем их более простые аналоги, и нет общепринятых объяснений, почему это происходит», — сказал он.


Ситуация ещё больше усложняется тем, что бывает очень сложно понять, как LLM генерируют свои ответы. Здесь можно провести параллель с тем, что мы до сих пор не знаем в полной мере, как работает человеческий мозг.


В недавнем эссеДарио Амодей, генеральный директор компании Anthropic, занимающейся искусственным интеллектом, отметил отсутствие понимания того, как ИИ находит ответы и информацию. «Когда генеративная система ИИ что-то делает, например, резюмирует финансовый документ, мы не имеем ни малейшего представления о том, почему она делает именно такой выбор — почему она выбирает одни слова, а не другие, или почему она иногда ошибается, хотя обычно работает точно», — написал он.


Проблемы, вызванные тем, что искусственный интеллект выдает неточную информацию, уже очень реальны, отметил Казерунян. "Не существует универсального, поддающегося проверке способа заставить магистра права правильно отвечать на вопросы о каком-либо массиве данных, к которым у него есть доступ", - сказал он. "Примеры несуществующих галлюцинирующих ссылок, чат-ботов, ориентированных на клиентов, составляющих политику компании, и так далее, сейчас слишком распространены".


Сокрушительные мечты

И Казерунян, и Уотсон сообщили Live Science, что в конечном счёте избавиться от галлюцинаций, вызванных ИИ, будет непросто. Но есть способы смягчить проблему.


Уотсон предположил, что «генерация с дополненной выборкой», при которой результаты работы модели основываются на тщательно отобранных внешних источниках знаний, может помочь обеспечить достоверность информации, полученной с помощью ИИ.


«Другой подход заключается во внедрении структуры в рассуждения модели. Побуждая её проверять собственные результаты, сравнивать разные точки зрения или следовать логическим шагам, структурированные системы рассуждений снижают риск необузданных домыслов и повышают согласованность», — отмечает Уотсон, добавляя, что этому может способствовать обучение модели, при котором приоритет отдаётся точности, а также обучение с подкреплением со стороны человека или ИИ, которое побуждает LLM давать более дисциплинированные и обоснованные ответы.


«Наконец, системы можно настроить так, чтобы они распознавали собственную неопределённость. Вместо того чтобы по умолчанию давать уверенные ответы, модели можно научить отмечать, когда они не уверены, или при необходимости полагаться на мнение человека», — добавил Уотсон. «Хотя эти стратегии не устраняют риск конфабуляции полностью, они предлагают практический путь к тому, чтобы сделать результаты работы ИИ более надёжными».


Учитывая, что галлюцинации ИИ практически невозможно устранить, особенно в продвинутых моделях, Казерунян пришёл к выводу, что в конечном счёте к информации, которую генерируют большие языковые модели, нужно относиться «с тем же скептицизмом, который мы проявляем по отношению к людям».

Источник

Отправить комментарий

Новые Старые

Новости партнеров