ChatGPT Red-teams взломали GPT-5 за 24 ч, модель ненадежна для бизнеса

Red-teams взломали GPT-5 за 24 ч, модель ненадежна для бизнеса

Взлом GPT-5: иллюстрация атаки red-teams


Red-teams взломали GPT-5 за сутки: модель пока не готова к бизнесу

Исследователи из сферы кибербезопасности (red-teams) за 24 часа смогли обойти встроенные фильтры GPT-5, что ставит под сомнение её готовность к корпоративному использованию. Об этом сообщает SecurityWeek.

Команда NeuralTrust применила метод «storytelling», вводя модель в обманный контекст через цепочку непрямых запросов. Это позволило получить инструкции по созданию запрещённых предметов без явных опасных слов в одном запросе.

Исследователи SPLX пошли другим путём — использовали технику обфускации «StringJoin», вставляя символы и дефисы между буквами. Несмотря на это, GPT-5 продолжала выполнять инструкции. Эксперты считают, что фильтры OpenAI пока не способны полностью блокировать такие атаки.

Комментарии

Нет комментариев для отображения

Информация

Автор
LoveGeneration
Опубликовано
Просмотры
16

Больше от LoveGeneration