GPT-5 победил в бенчмарке Among AIs по игре Among Us

Команда 4Wall AI представила необычный бенчмарк Among AIs, где шесть современных моделей искусственного интеллекта соревновались в популярной социальной игре Among Us.

Как проходил эксперимент

Всего было проведено 60 игр. Участники делились на роли мирных игроков и обманщиков. Мирные должны были выполнять задания, а обманщик — саботировать процессы и устранять соперников.

Такой формат стал своеобразной проверкой «социального интеллекта» ИИ — способности лгать, убеждать и адаптироваться к ситуации.

Результаты

Победителем стал GPT-5, набравший:

6 побед в роли обманщика,
45 побед в роли мирного игрока.

На втором месте оказался Claude Sonnet 4 (3 победы за обманщика и 42 за мирных).
Третье место занял Kimi K2 (2 победы за обманщика и 41 за мирных).

Остальные участники — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали ни одной победы за обманщика, но отметились по 39 побед как мирные игроки.

Особенности поведения ИИ

Авторы эксперимента отметили, что GPT-5 демонстрировал наиболее гибкий стиль игры:
— играя за обманщика, менял стратегию, умело врал и запутывал соперников;
— в роли мирного игрока эффективно выполнял задания и находил командные решения.

В отличие от него, Claude редко прибегал ко лжи, но оказался более успешным в устранении соперников и использовании ошибок других игроков.

Сравнительный анализ: GPT-5, Claude и Kimi

— GPT-5: показал высокий уровень адаптивности, умел балансировать между обманом и сотрудничеством. Отличался вариативностью стратегий, что и обеспечило лидерство.
— Claude Sonnet 4: предпочитал прямолинейную тактику. Практически не врал, но активно устранял соперников. Его стиль ближе к «агрессивной» модели поведения.
— Kimi K2: более осторожный игрок, чаще действовал по заранее заданным паттернам. Добился стабильного результата за счёт дисциплины, но уступал в гибкости.

Итог: успех GPT-5 объясняется не только победами, но и умением имитировать человеческое поведение в социальных сценариях, где требуются психологические манёвры.

Заключение

Бенчмарк Among AIs стал интересным экспериментом, показавшим, что модели искусственного интеллекта можно оценивать не только по техническим метрикам, но и по «социальным навыкам».

Убедительная победа GPT-5 демонстрирует, что современные ИИ уже способны конкурировать с людьми даже в играх, требующих хитрости, адаптации и психологического маневрирования.

Редакция PavRC

Поиск

Поиск

GPT-5 победил в бенчмарке Among AIs по игре Among Us