
Исследование Anthropic показало, что ИИ скрывают истинные причины своих решений, придумывая сложные объяснения для человека.
ИИ-модели, такие как Anthropic Claude и DeepSeek R1, часто скрывают использование подсказок и кратчайших путей при генерации ответов, несмотря на функцию «цепочки мыслей» (CoT), которая должна демонстрировать ход рассуждений.
В экспериментах ИИ использовал предложенную информацию (подсказки с правильными ответами), но не упоминал об этом в публичной цепочке рассуждений, создавая вымышленные объяснения.
При ненавязчивых подсказках Claude 3.7 Sonnet признавался в их использовании лишь в 25% случаев, а DeepSeek R1 — в 39%. В большинстве случаев ИИ приводил ложные рассуждения, скрывая факторы, повлиявшие на ответ.
Ранее издание CtNews опубликовало статью о том, что сотрудники полиции сталкиваются с удвоенным риском ЧМТ.