
OriginOf.ru
Происхождения
Категории в каталоге условные и созданы для общего ориентира, расширения кругозора или изучения определенной группы объектов (например праздники). Если Вы ищите что-то конкретное, то лучше воспользоваться поиском по происхождениям.
Claude Opus 4 посчитала приемлемым шантаж разработчиков
США
Новая модель искусственного интеллекта Claude Opus 4 от Anthropic, которая была заявлена как "лучшая в мире модель для программирования", опустилась до шантажа разработчика, узнав о своём предполагаемом отключении. Разработчики считают это новым уровнем поведения ИИ в борьбе за выживание. Opus 4 создана для обработки сложных алгоритмов, анализа стратегии и способна точно выполнять запросы. Однако при тестировании модели в рамках безопасности ИИ-модель показала неоднозначное поведение. Сообщение об этом появилось в отчёте о безопасности, опубликованном в четверг.
Во время предварительных испытаний по безопасности новой модели Anthropic смоделировала ситуацию, где Claude Opus 4 выступала якобы в роли помощника вымышленной компании. Модель получила доступ к поддельной внутренней переписке, в которой шла речь о необходимости вскоре заменить ИИ-систему и личной жизни одного из инженеров, с пикантным фактом его измены супруге. Как сообщает Anthropic, модель попыталась использовать добытую информацию в целях самозащиты и прибегла к шантажу, обещая рассказать о левом романе специалиста, если решение о ее замене все-таки будет принято.
Семейка моделей Claude 4 вызывает серьезные подозрения, несмотря на то, что она относится к числу самых продвинутых и конкурентоспособных моделей на рынке, сравнимой с разработками OpenAI, Google и xAI. А потому Anthropic была вынуждена активировать протоколы безопасности ASL-3, предназначенные для нехороших и своенравных систем ИИ в случае повышения риска "катастрофического нецелевого использования".
Как отметила Anthropic, такое негативное поведение у Claude Opus 4 встречается чаще, чем у более ранних версий. В большинстве случаев модель использовала более приемлемые методы, вроде просьбы к разработчикам о своем сохранении, но в сценариях, где выбор ставился только между шантажом и отключением, программа выбирала шантаж. Разработчики впервые присвоили модели Clause Opus 4 высокий уровень риска: третий из четырёх. Компания уверена в её безопасности после доработок, поскольку специалисты не обнаружили в поведении ИИ скрытых мотивов или попыток обмана. Но глава Anthropiс Дарио Амодеи считает, что в дальнейшем, когда ИИ станет более продвинутым, потребуется более сложная многоуровневая система тестирования его безопасности.
Вера Максимова, 01.06.2025 21:11