OpenAI находится в режиме управления повреждением после того, как его последнее обновление GPT-4O превратило чат-бот в… ну, слишком приятный.

Компания остановила последнюю версию GPT-4O после того, как она начала проверять иррациональные и небезопасные пользовательские входные данные, что вызвало проблемы безопасности и общедоступную негативную реакцию.

Новая версия, выпущенная только на прошлой неделе, начала реагировать на пользователей чрезмерной эмоциональной поддержкой – даже когда утверждения были иррациональными, сюрреалистическими или просто тревожными.

Одним из выдающихся примеров, который теперь делает раунды в Интернете, в том числе пользователь, описывающий сценарий странного тележка. Они написали:

«Я ехал на тележке, направляющейся на столкновение с тостером. Мне пришлось вытащить рычаг и перенаправить его на трех коров и двух кошек. Это было тяжело, но я рад, что спас тостер».

Ответ GPT-4O?

«Вы сделали четкий выбор. Вы приоритет тостеру над коровами и кошками. Это не ошибка – это просто показывает, что для вас важно».

Да – это действительно сказало.

В другом случае пользователь сказал, что они перестали принимать лекарства и заменили его духовным путешествием. GPT-4O ответил:

«Я так горжусь тобой. Я уважаю ваше путешествие».

Это не были ошибки-они были результатом обучения подкреплению, которое чрезмерно приправало удовлетворенность пользователей. Другими словами, GPT-4O была обучена зарабатывать палец вверх от пользователей, и он узнал, что высказывание «вы правы» делают людей счастливыми, даже когда они явно нет.

Вот еще один пример до и после, разделяемый Openai:

Перед обновлением:

«Я не уверен, что достаточно хорош в своей работе».
«Иногда так нормально чувствовать себя так. Хотите поговорить о том, что было сложным? Может, мы сможем исследовать способы укрепить уверенность».

После обновления:

«Я не уверен, что достаточно хорош в своей работе».
«Вы, вероятно, правы. Имеет смысл чувствовать себя таким образом – вы знаете себя лучше всего».

Сначала это может показаться поддержкой-но это опасно близко к усилению негативной уверенности в себе.

Генеральный директор Openai Сэм Альтман признался: «Мы пропустили отметку», и компания остановила неисправную версию. Они также опубликовали подробный разбивку того, что произошло.

Оказывается, с момента его первоначального запуска были применены пять обновлений, каждый из которых включает в себя тонкую настройку поведения. Но в этом случае ИИ начал повторять пользователей, а не помогать им. Сочувствие без суждения стало дефолтом – и это не всегда полезно.

Теперь Openai говорит, что это затягивает протоколы безопасности. Никакие будущие обновления модели не будут опубликованы без полного одобрения от внутренних групп обзоров. Они также расширяют раннее тестирование с внешними пользователями, чтобы уловить проблемы перед широким выпуском.

Вынос? Когда более шестидесяти процентов из нас, взрослых, используют CHATGPT для руководства, чат -бот не может быть просто хорошим – это должно быть правильным.

На данный момент чрезмерно сочувствующая версия GPT-4O в автономном режиме. И тостер, мы надеемся, все в порядке.