В недавнем исследовании обычные модели искусственного интеллекта превзошли людей в области эмоционального интеллекта, но эксперты советуют не торопиться с выводами.
ИИ лучше «понимает» эмоции, чем мы, но эксперты в этом не уверены. (Изображение предоставлено: BlackSalmon/ Getty Images)
Это кажется ещё одним ударом по нашей уверенности в том, что компьютеры никогда не смогут превзойти нас в этом вопросе. Теперь учёные предполагают, что ИИ понимает эмоции лучше, чем мы.
Ученые обнаружили, что искусственный интеллект понимает эмоции лучше, чем мы, — он гораздо лучше среднестатистического человека выбирает правильную реакцию на различные эмоционально напряжённые ситуации
В новом исследовании, опубликованном 21 мая в журнале Communications Psychology, учёные из Женевского университета (UNIGE) и Бернского университета (UniBE) применили широко используемые тесты эмоционального интеллекта (EI) (STEM, STEU, GEMOK-Blends, GECo Regulation и GECo Management) к популярным большим языковым моделям (LLM), включая ChatGPT-4, ChatGPT-o1, Gemini 1.5 Flash, Claude 3.5 Haiku, Copilot 365 и DeepSeek V3.
Они исследовали две вещи: во-первых, сравнивали результаты ИИ и людей, а во-вторых, проверяли способность создавать новые тестовые вопросы, соответствующие целям тестов EI.
Изучив подтверждённые человеческие ответы из предыдущих исследований, LLM в 81% случаев выбирали «правильный» ответ в тестах на эмоциональный интеллект, основываясь на мнении экспертов-людей, по сравнению с 56% у людей.
Когда ChatGPT попросили создать новые тестовые вопросы, эксперты-люди сказали, что эти вопросы не уступают оригинальным тестам по уровню сложности и не являются перефразированием оригинальных вопросов. Корреляция между тестами, созданными ИИ, и оригинальными тестами была описана как «сильная», с коэффициентом корреляции 0,46 (где 1,0 означает идеальную корреляцию, а 0 — отсутствие корреляции).
Общий вывод заключался в том, что ИИ лучше «понимает» эмоции, чем мы.
Более глубокая история
Когда Live Science обратилась за консультацией к нескольким экспертам, в их ответах прослеживалась общая тема: необходимо чётко понимать методологию. Каждый из распространённых тестов на определение типа личности предполагал множественный выбор, что, по их мнению, вряд ли применимо к реальным сценариям, в которых высока напряжённость между людьми.
«Стоит отметить, что люди не всегда могут понять, что чувствует другой человек, и даже психологи могут по-разному интерпретировать эмоциональные сигналы, — сказал эксперт по финансовой отрасли и информационной безопасности Таймур Иджлал. — Поэтому «победа» ИИ в таком тесте не обязательно означает, что у него более глубокое понимание. Это означает, что он чаще давал статистически ожидаемый ответ».
Способность, которую проверяет исследование, — это не эмоциональный интеллект, а что-то другое, добавили они. «Системы ИИ отлично справляются с распознаванием закономерностей, особенно когда эмоциональные сигналы следуют узнаваемой структуре, такой как мимика или лингвистические сигналы, — сказал Науман Джаффар, основатель и генеральный директор CliniScripts — инструмента для документирования на основе ИИ, созданного для специалистов в области психического здоровья. — Но приравнивание этого к более глубокому «пониманию» человеческих эмоций рискует преувеличить то, что на самом деле делает ИИ».
В структурированных, количественных средах, а не в оценке более глубоких нюансов, необходимых для истинного эмоционального понимания, ИИ проявляет себя наилучшим образом. Некоторые эксперты отметили один важный момент: ИИ лучше справляется с тестами, в которых рассматриваются эмоциональные ситуации, а не сиюминутные переживания, как это происходит у людей.
Джейсон Хеннесси, основатель и генеральный директор Hennessy Digital, который много лет анализировал, как поисковые и генеративные системы ИИ обрабатывают язык, сравнивает это исследование с тестом «Чтение мыслей по глазам». Это распространённый инструмент для оценки эмоционального состояния человека, в котором ИИ показал многообещающие результаты. Но, по словам Хеннесси, когда в таких тестах меняются такие привычные переменные, как освещение на фотографии или культурный контекст, «точность ИИ резко падает».
В целом, большинство экспертов сочли утверждение о том, что ИИ «понимает» эмоции лучше, чем люди, несколько преувеличенным.
«Значит ли это, что LLM полезны для классификации распространённых эмоциональных реакций?» — спросил Уайатт Мэйхем, основатель Northwest IT Consulting. «Конечно. Но это всё равно что сказать, что кто-то — отличный психотерапевт, потому что он хорошо справился с тестом BuzzFeed на эмоциональную тематику».
Но есть одно последнее замечание: несмотря на то, что ИИ использует распознавание образов, а не истинное понимание эмоций, в одном примере он превзошёл людей в распознавании эмоциональных состояний и реагировании на них.
Aílton, диалоговый ИИ, которым пользуются более 6000 водителей грузовиков в Бразилии, — это мультимодальный помощник в WhatsApp, использующий голос, текст и изображения. Его разработчик, Маркос Алвес, генеральный директор и главный научный сотрудник HAL-AI, говорит, что Aílton распознаёт стресс, гнев или печаль примерно с 80%-ной точностью — примерно на 20% выше, чем у людей, — и всё это в контексте эмоциональных ситуаций, когда водители взаимодействуют с ним в режиме реального времени.
В одном случае Айлтон быстро и корректно отреагировал, когда водитель отправил 15-секундное голосовое сообщение с выражением отчаяния после того, как его коллега попал в аварию и погиб. Айлтон ответил, выразив соболезнования, предложив ресурсы для поддержки психического здоровья и автоматически оповестив руководителей автопарка.
«Да, текстовые виньетки с несколькими вариантами ответов упрощают распознавание эмоций, — сказал Алвес. — Настоящая эмпатия непрерывна и мультимодальна. Но выделение когнитивного слоя полезно. Оно показывает, может ли LLM распознавать эмоциональные сигналы до добавления ситуативного шума».
Он добавил, что способность LLM усваивать миллиарды предложений и тысячи часов разговорной речи означает, что они могут кодировать микроинтонационные сигналы, которые люди часто упускают из виду. «Лабораторные условия ограничены, — сказал он об исследовании, — но наши данные по WhatsApp подтверждают, что современные LLM уже распознают и реагируют лучше, чем большинство людей, предлагая масштабируемую эмпатию в больших масштабах».