Никита Любайкин, инженер-исследователь научной группы «Адаптивные агенты» Института AIRI рассказал, как специалисты справляются с этими задачами, сообщает Ferra.
Проблема, которую в научных кругах называют «взлом награды», связана с тем, что ИИ может находить неожиданные способы достижения цели, не соответствующие ожиданиям разработчиков.
Например, если роботу поручено положить кубик в определённое место на столе, он может передвинуть сам стол, а не кубик. Это не «сумасшествие» в человеческом смысле, а скорее ошибка в формулировке задачи. Чтобы избежать подобных ситуаций, учёные тщательно настраивают систему вознаграждения, которая направляет действия ИИ. Кроме того, существует направление Safe-RL, где разрабатываются алгоритмы, которые не только максимизируют результат, но и соблюдают строгие рамки безопасности. Такие технологии применяются в автономных автомобилях, промышленной автоматизации и рекомендательных системах.
Термин «сойти с ума» в отношении RL алгоритма является некоторым антропоморфизмом, и в данном контексте больше связан с проблемой «reward-hacking», при которой алгоритм добивается высоких абсолютных наград, при этом не выполняя полезных (или ожидаемых) действий, – сказал Никита Любайкин.
Ещё одна сложность в работе ИИ — это баланс между исследованием новых возможностей и использованием уже проверенных решений. Представьте, что вы выбираете ресторан: пойти в знакомое место с гарантированно вкусной едой или рискнуть и попробовать новое? ИИ сталкивается с похожей дилеммой: продолжать использовать известную стратегию или экспериментировать с новыми, которые могут быть как лучше, так и хуже. Для решения этой задачи учёные применяют разные подходы. Например, метод ε-жадности позволяет ИИ иногда выбирать случайные действия, чтобы «попробовать что-то новое». Другой подход — алгоритмы, которые одновременно увеличивают награду и делают действия ИИ более разнообразными.
Один из самых эффективных онлайн RL алгоритмов — SAC — построен вокруг этой идеи.
Также существуют методы, которые мотивируют ИИ исследовать неизвестные области, поощряя его за новые действия.
Перенос ИИ из симуляций в реальный мир — ещё одна серьёзная проблема. В играх, таких как шахматы или го, симуляции идеальны, но реальный мир сложен и непредсказуем. Например, робот, обученный в симуляторе двигаться по ровной поверхности, может не справиться с реальной неровной дорогой. Чтобы преодолеть эту проблему, учёные используют метод доменной рандомизации. Вместо фиксированных параметров, таких как сила трения или гравитация, в симуляции задают их случайные вариации. Это помогает ИИ адаптироваться к реальным условиям. Ещё один способ — дообучение на реальных данных. Сначала ИИ обучается в симуляции, а затем корректируется на основе реальных испытаний, что дешевле, чем обучение с нуля в реальном мире.
Проблемы могут возникнуть, когда мы хотим симулировать сложные физические процессы (которые зачастую нельзя имитировать с абсолютной точностью, например, для того чтобы обучать роботов задачам локомоции в симуляторе, что на порядки дешевле чем в реальном мире, и использовать полученных агентов на реальных роботах, – отметил Любайкин.
Эти подходы помогают сделать ИИ надёжнее и безопаснее. Учёные продолжают работать над тем, чтобы системы ИИ не только эффективно выполняли задачи, но и оставались под контролем в самых сложных и непредсказуемых условиях.
Олимпийские Игры 2026
Расписание выступлений казахстанцев 15 февраля на Олимпиаде
Пенсия 2026
9 лет трудового стажа пенсионерки восстановили в Павлодаре
Налоговый кодекс РК 2026
Чиновники никак не ограничены в том, как могут тратить бюджетные деньги: как они перегрели экономику?
АЭС
В Казахстане утвердили место для строительства второй АЭС
Алматы
В связи с лавинной опасностью в горах Алматы установлены блокпосты
МРП 2026
Штрафы подросли: за какие нарушения казахстанцам придётся платить до 130 тыс. тенге
Землетрясение
Президент Турции назвал сумму ущерба, который нанесли стране землетрясения
Бокс
Шесть золотых медалей завоевал Казахстан на турнире по боксу в Испании
Футбол
МВД Казахстана предупреждает родителей: дети могут передать пароли от аккаунтов мошенникам в интернете
Астана
Повышенная концентрация вредных веществ в воздухе ожидается в десяти городах Казахстана
Азербайджан
В Акмолинской области полицейские помогли водителям из Азербайджана
Шымкент
Упала ветка дерева: во дворе дома погиб ребенок в Шымкенте
Иран
Глава государства направил телеграмму поздравления президенту Ирана
Нефть
В чем был смысл атаки украинских дронов на казахстанские танкеры в территориальных водах России
Закон
"Казахстанское руководство идет против течения" - узбекский политолог Бахтиёр Эргашев
Война
Песков отреагировал на предложение Зеленского провести переговоры с Путиным в Казахстане
Туризм
Более триллиона тенге заработали в сфере туризма в Казахстане
Медицина
Одно полотенце на шестерых и анализы для скандальных: как работает первая городская поликлиника Алматы