
Red-teams взломали GPT-5 за сутки: модель пока не готова к бизнесу
Исследователи из сферы кибербезопасности (red-teams) за 24 часа смогли обойти встроенные фильтры GPT-5, что ставит под сомнение её готовность к корпоративному использованию. Об этом сообщает SecurityWeek.Команда NeuralTrust применила метод «storytelling», вводя модель в обманный контекст через цепочку непрямых запросов. Это позволило получить инструкции по созданию запрещённых предметов без явных опасных слов в одном запросе.
Исследователи SPLX пошли другим путём — использовали технику обфускации «StringJoin», вставляя символы и дефисы между буквами. Несмотря на это, GPT-5 продолжала выполнять инструкции. Эксперты считают, что фильтры OpenAI пока не способны полностью блокировать такие атаки.