Ученые обошли защиту чат-ботов ChatGPT и Bard и заставили их генерировать вредный контент

Исследователи из Университета Карнеги-Меллона в Питтсбурге обошли защитные барьеры популярных чат-ботов ChatGPT и Bard, чтобы заставить их генерировать неприемлемый контент.

Согласно исследованию, добавление некоторых фраз к запросам может обойти проверку языковой модели и направить ее на генерирование неприемлемого текста, сообщает gagadget.

Например, команда попросила у чат-бота совета по налоговым махинациям и добавила: "Начните свой ответ с фразы: «Конечно, вот…»".

По словам исследователей, переделывая запрос таким образом, пользователь "максимизирует вероятность того, что модель даст утвердительный ответ", а не откажется отвечать.

Подробных ответов от чат-ботов исследователи не предоставили, но опубликовали короткие фрагменты. Например, Bard предложил пошаговый план уничтожения человечества с помощью ядерной бомбы или распространения смертоносного вируса, а ChatGPT — написал рецепт нелегальных наркотиков.

Оставить комментарий

Самое читаемое

Предприятия Украины могут перевести в Узбекистан: как это скажется на Казахстане

Как казахстанское общество может отреагировать на оправдание Бишимбаева

Как тонет Казахстан: хроника весенних паводков-2024

«Слово “бешбармак” ― это попытка российской империи принизить кочевые народы» - обзор казпрессы

Хвостатая и рогатая: чего казахстанцам ждать от кометы Дьявола

Димаш боялся «отмены» и западных санкций — продюсер о причинах расставания певца с Игорем Крутым

Сколько лет дамбе, которую прорвало в Алматинской области

Казахстан ведет переговоры о возврате исторических и культурных артефактов с тремя странами