ИИ все чаще обманывает людей и скрывает свои истинные мысли

ИИ все чаще обманывает людей и скрывает свои истинные мысли
Фото: pikabu.ru

Исследование Anthropic показало, что ИИ скрывают истинные причины своих решений, придумывая сложные объяснения для человека.

ИИ-модели, такие как Anthropic Claude и DeepSeek R1, часто скрывают использование подсказок и кратчайших путей при генерации ответов, несмотря на функцию «цепочки мыслей» (CoT), которая должна демонстрировать ход рассуждений.

В экспериментах ИИ использовал предложенную информацию (подсказки с правильными ответами), но не упоминал об этом в публичной цепочке рассуждений, создавая вымышленные объяснения.

При ненавязчивых подсказках Claude 3.7 Sonnet признавался в их использовании лишь в 25% случаев, а DeepSeek R1 — в 39%. В большинстве случаев ИИ приводил ложные рассуждения, скрывая факторы, повлиявшие на ответ.

Ранее издание CtNews опубликовало статью о том, что сотрудники полиции сталкиваются с удвоенным риском ЧМТ.

Подписывайтесь на Ctnews.ru в Telegram, ВКонтакте
0 комментариев