Meta Purple Llama: новый этап безопасности ИИ

Meta Purple Llama: новый этап безопасности ИИ

Компания Meta представила новый проект под названием Purple Llama, который направлен на усиление безопасности моделей и приложений искусственного интеллекта (ИИ). В рамках проекта были запущены бенчмарк CyberSecEval и защитное решение Llama Guard.

Безопасность крупных языковых моделей

Основное внимание проект Purple Llama уделяется защите LLMs (Large Language Models, или большие языковые модели). Название LLaMA, представленное компанией в феврале 2023 года, расшифровывается как Large Language Model Meta AI. Хотя первоначально модель не была общедоступна, вскоре она стала доступна через торренты.

Преемник LLaMA – модель Llama 2, выпущенная в августе 2023 года, является более мощной и предоставляется компанией для официальной загрузки. Аналогично доступно для скачивания Code Llama, предназначенное для разработки программного обеспечения, и новейшее средство Llama Guard, доступное на странице проекта после регистрации.

Принципы Purple Teaming в сфере ИИ

Purple Llama заимствует принципы Purple Teaming из области кибербезопасности, где команда Red Team, выступающая в роли нападающего, и Blue Team, действующая в роли защитника, работают вместе для укрепления безопасности. Проект применяет этот подход к генеративному ИИ, оценивая риски и области потенциальных атак (красный) и разрабатывая защитные меры (синий).

CyberSecEval представляет собой первый бенчмарк Meta для оценки рисков, связанных с LLMs. Основной фокус сделан на двух направлениях: тенденция модели генерировать небезопасный код в процессе разработки программного обеспечения и реакция моделей на запросы помочь в проведении кибератак. Meta стремится предоставлять инструменты, под проектом Purple Llama, для снижения уязвимостей в предложениях кода и отказа в поддержке кибератак.

Специализированный Llama Guard для безопасных бесед

Llama Guard – это адаптированная версия модели Llama2-7b (с 7 миллиардами параметров) и служит для оценки рисков безопасности при взаимодействии между человеком и ИИ в чате, классифицируя как команды, так и ответы модели. Эта модель также предоставляется в конфигурациях с 13 и 70 миллиардами параметров.

В цикле разработки ответственных LLMs, компания Meta видит проект Purple Llama как средство для оценки безопасности и разработки защитных мер против рисков, связанных с командами и ответами модели.

Открытое сотрудничество

Purple Llama построен как открытое сообщество. В анонсе Meta упоминается множество партнеров для повышения безопасности и доверия к системам ИИ, среди которых AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Microsoft, Nvidia и AI Alliance, недавно основанная Meta и IBM.

Ник Клегг, бывший заместитель премьер-министра Великобритании, а теперь глава подразделения корпоративной коммуникации в Meta, на платформе X (прежде Twitter) выразил мнение, что открытый подход важен для безопасности моделей.

Дополнительные сведения о планах создания безопасного и надежного генеративного ИИ доступны в блоге Meta. Эти планы могут быть связаны с реструктуризацией в конце ноября, в ходе которой Meta переориентировала свои команды ИИ с ответственного на генеративный ИИ.

Подведение итогов по усилению безопасности в области ИИ показывает, что Meta активно работает на защиту своих моделей, привлекает к этому процессу партнеров и делает упор на создание ответственных и этичных подходов в разработке. Компания стремится обеспечить надежность своих продуктов, что является ключевым аспектом общедоступных и открыто использованных ИИ систем.

*Meta — организация признана экстремистской и запрещена в России.

Комментарии

Отлично! Вы успешно зарегистрировались.

Welcome back! You've successfully signed in.

You've successfully subscribed to GPTalk | AI Новости.

Проверьте свою электронную почту для личной ссылки для входа.

Ваша платежная информация была обновлена.

Ваш счет не был обновлен.