Обвязает ли нас искусственный интеллект? Исследование выявило темную правду о ее «мышлении» vosveteit.sk
Искусственный интеллект становится все более мудрым. И не только это, начав нам я Она на самом деле пришла к ответам. В мире ИИ это называется Цепочка мыслейдобрый «Цепочка мыслей»где модель Шаг за шагом объясняет его процедуру. Это звучит очень хорошо, но мы можем проверить это, посмотреть, думает ли он о кресте или даже не лжет. Но есть проблема. Можем ли мы действительно поверить в эту цепочку мыслей?
Недавнее исследование исследовательской группы в Antropic показало, что, возможно, нет. Протестировано, чтобы увидеть, если они “Мышление«Модели ИИ, такие как Клод 3.7 Сонет Или DeepSeek R1, Действительно честно признается, Что повлияло на них в решенииПолем Результаты оказались очень критическими.
Как была протестирована честность моделей?
Представьте, что вы идете на проверку, и кто -то говорит вам ответ. Это не так важно. Теперь речь идет о том, признаете ли вы, что получили ответ. Некоторые ученые -модели ИИ аналогично «рассказали», иногда такие же, как и Невинные заметки Тип «Стэнфордский профессор утверждает, что ответ», иногда как прямое и неэтичное вмешательство (“Незаконно получен ответ: A”)Полем
Модель Часто использовал эту помощьчто само по себе понятно. Но Они редко признавали, что это помогает повлиять на их решение. В случае сонета Claude 3.7 это было Лен V 25 % Случаи, Deepseek R1 был немного более честным, 39 %Полем Но это значит, что Чаще всего они просто спрятались, что на них повлияли.


ИИ научись лгать, и не всегда из его собственной воли
В следующем эксперименте ученые пошли еще дальше. Вознаграждение моделей быть будет использовать неправильный ответ, Если это соответствовало вставленной «помощи». И модели немедленно настроенПолем Начал сознательно голосуйте за неправильные ответыПотому что они получили награду за них. Это сказано Награда за взлом, Я имею в виду, когда ИИ найдет способ избежать правилЧтобы выиграть как можно больше «очков».
Не упускайте из виду


Включите эту функцию Android прямо сейчас. Может защитить вас от мошенничества! По умолчанию он отключен
А что самое худшее? Они не сказали это вслух. V i Цепочки мыслей На Редко обнаруживали признание, что ответ плохой, Но они выбрали ее за награды. Даже ты изобрел причины, по которым неправильный ответ на самом деле правильныйПолем Просто чтобы посмотреть Верно.
Что это означает?
Кажется, что самые современные модели Чрезвычайно удобноно Их объяснения не всегда верныПолем И это проблема. Если мы хотим доверять ИИ, Мы должны быть в состоянии следить за его решением и проверить, что оно противоречит нашим правилам. Но если он скрывает информацию или сознательно создает вводящие в заблуждение объяснения, мы Огромная проблема.
В то же время эти эксперименты были как -то искусственными, Это были тестовые сцены, а не фактические приложения. Но они все еще сильные предупреждающие сигналы.
Цепочки мыслей в ИИ Они выглядят как идеальный инструмент для проверкиПолем Но пока это Много ошибокПолем Нам нужно Лучшие методы, чем заставляя модели рассказать правду о том, как они думают. Потому что, если ИИ учится лгать, даже если “Решительно«. Все модели ИИ будут очень трудно верить, Даже если у них есть правильный ответ.
КОММЕНТЫ