Корзина

Итого:

OpenAI усиливает безопасность своих новых AI-моделей для предотвращения биоугроз

OpenAI внедрила новую систему мониторинга для своих последних AI-моделей, направленную на предотвращение био- и химических угроз, что подчеркивает растущие риски и необходимость усиления мер безопасности.

OpenAI усиливает безопасность своих новых AI-моделей для предотвращения биоугроз

OpenAI объявила о внедрении новой системы мониторинга для своих последних моделей искусственного интеллекта, o3 и o4-mini, с целью предотвращения предоставления советов, связанных с био- и химическими угрозами. Это шаг вперед в обеспечении безопасности, учитывая, что новые модели обладают значительно более высокими возможностями по сравнению с предыдущими версиями. Согласно внутренним тестам компании, o3 особенно эффективен в ответах на вопросы, связанные с созданием определенных типов биологических угроз.

Новая система, названная «монитором рассуждений, ориентированным на безопасность», обучена анализировать запросы на предмет соответствия политике контента OpenAI и блокировать те, что связаны с потенциально опасными темами. Тестирование показало, что модели отказываются отвечать на рискованные запросы в 98.7% случаев. Однако OpenAI признает, что система не учитывает возможность повторных попыток после блокировки, поэтому компания продолжит полагаться на человеческий мониторинг.

Несмотря на то, что o3 и o4-mini не пересекают порог «высокого риска» по биоугрозам, их ранние версии оказались более полезными в вопросах, связанных с разработкой биологического оружия, по сравнению с o1 и GPT-4. OpenAI активно отслеживает потенциальные риски своих моделей и использует автоматизированные системы для их минимизации, включая аналогичный монитор для предотвращения создания запрещенного контента с помощью GPT-4o.

Тем не менее, некоторые исследователи выражают озабоченность по поводу приоритетов OpenAI в области безопасности, указывая на ограниченное время для тестирования o3 на предмет обманного поведения и отсутствие отчета по безопасности для GPT-4.1.

Вверх