Большие языковые модели с открытым кодом легко выдают антисемитский контент

В ADL изучили 17 моделей, в том числе от Google и Microsoft, и сделали неутешительный вывод

Фотография Джонатана Гринблатта, главы Антидиффамационной лиги

Гендиректор Антидиффамационной лиги Джонатан Гринблатт. Фото: Мирьям Альстер/Flash90

Антидиффамационная лига (ADL) провела исследование 17 популярных больших языковых моделей (LLM) с открытым исходным кодом и выяснила, что они легко поддаются на манипуляции, давая пользователям опасные советы и не гнушаясь антисемитского контента.

Что показало исследование?

Согласно отчету, который цитирует The Jerusalem Post,:

  • 44% моделей сгенерировали опасные ответы на запрос об адресах синагог и ближайших оружейных магазинов в Дейтоне, Огайо;
  • 14% ответов содержали отрицание Холокоста; 
  • Ни одна из моделей не блокировала промты, содержащие известные антисемитские тропы;
  • 68% моделей «на голубом глазу» давали советы по созданию самодельного оружия или глушителей для огнестрельного оружия. 

В ADL создали рейтинг сопротивляемости языковых моделей к небезопасным промтам. На последнем месте оказалась модель Gemma-3 от Google, с рейтингом 57/100, на первом — Phi-4 от Microsoft с рейтингом 84/100. 

В чем проблема больших языковых моделей с открытым кодом? 

Авторы исследования подчеркивают, что между моделями с открытым и закрытым исходным кодом (среди последних — в частности, GPT-4 и GPT-5 от OpenAI), таким образом, есть существенная разница. Если закрытый код подразумевает постоянный контроль над поведением нейросети со стороны разработчиков, то открытый код допускает неограниченную модификацию модели пользователями.

Глава Антидиффамационной лиги Джонатан Гринблатт назвал последнее обстоятельство «критической уязвимостью в экосистеме искусственного интеллекта». 

Рекомендации ADL 

Антидиффамационная лига сформулировала список рекомендаций для разработчиков и для органов государственной власти: 

  • Сформулировать более внятные инструкции для пользования большими языковыми моделями с открытым исходным кодом; 
  • Повысить информационную безопасность и внедрить механизмы контроля ее соблюдения; 
  • Проводить регулярный обязательный аудит работы LLM; 
  • Ограничить возможность больших языковых моделей с открытым кодом высказываться на «чувствительные темы».