Мир искусственного интеллекта меняется с поразительной скоростью. За последние два года — с августа 2024 по апрель 2026 — на основе текущих и исторических данных рейтинга с платформы Arena AI (ранее известной как LMArena и Chatbot Arena) было отслежено в общей сложности 347 больших языковых моделей (LLM). Это одна из самых популярных платформ для общественной оценки моделей ИИ.

Arena AI использует необычную методику оценки, основанную на голосах пользователей. Реальные пользователи вводят промпты и сравнивают ответы двух анонимных моделей бок о бок. На основе тысяч таких оценок каждой модели присваивается балл, отражающий её относительное качество в открытых задачах «текст–текст». Чем выше балл, тем чаще модель выигрывает прямые сравнения с конкурентами. По состоянию на апрель 2026 года диапазон оценок составляет примерно от 950 (для более старых моделей) до более чем 1500 (для лидеров).

Динамическая визуализация

Чтобы нагляднее показать, как менялась ситуация, была создана анимация в формате гонки на линейном графике (так называемый line race), которая демонстрирует борьбу ведущих моделей ИИ за позиции во времени. По мере появления новых моделей и постепенного ухода старых можно почти в реальном времени наблюдать за перестановками — от раннего доминирования GPT-4o до выхода на вершину моделей Claude Opus 4.7 и Gemini 3 Pro. В анимации также отмечены ключевые достижения, срабатывающие при преодолении важных порогов рейтинга.

Эта динамическая визуализация представлена в видео на YouTube:

Модели, которые попадали в топ-10

Из 347 оценённых моделей лишь 77 когда-либо входили в первую десятку общего рейтинга. Таблица ниже показывает каждую из них, включая текущую позицию, максимальный достигнутый результат и дату последнего появления в топе.

Текущая позиция / Модель Tекущий результат Максимум Лучшая позиция Последний раз в топ-10
1. Claude Opus 4.7 Thinking 1504,53 1504,53 1 (2026-04-17) 2026-04-17
2. Claude Opus 4.6 Thinking 1502,63 1506,96 1 (2026-04-14) 2026-04-17
3. Claude Opus 4.7 1498,47 1498,47 3 (2026-04-17) 2026-04-17
4. Claude Opus 4.6 1496,83 1505,14 1 (2026-03-11) 2026-04-17
5. Muse Spark 1495,88 1495,88 3 (2026-04-14) 2026-04-17
6. Gemini 3.1 Pro Preview 1492,25 1500,71 2 (2026-03-05) 2026-04-17
7. Gemini 3 Pro 1486,11 1502,16 1 (2026-01-29) 2026-04-17
8. Grok 4.20 Beta 1 1485,01 1496,02 3 (2026-03-11) 2026-04-17
9. GPT-5.4 High 1481,63 1485,70 6 (2026-04-07) 2026-04-17
10. Grok 4.20 Beta Reasoning (03-09) 1479,81 1483,48 7 (2026-04-07) 2026-04-17
11. GPT-5.2 Chat Latest (2026-02-10) 1477,12 1502,50 3 (2026-02-17) 2026-04-14
12. Grok 4.20 Multi-Agent Beta (03-09) 1475,62 1478,97 9 (2026-04-07) 2026-04-14
13. Gemini 3 Flash 1474,02 1479,66 2 (2025-12-30) 2026-04-07
14. Claude Opus 4.5 Thinking 32K (2025-11-01) 1473,03 1473,90 3 (2025-12-15) 2026-03-31
16. Grok 4.1 Thinking 1469,85 1484,41 2 (2026-01-29) 2026-03-11
17. Claude Opus 4.5 (2025-11-01) 1468,76 1469,20 3 (2025-11-26) 2026-03-06
21. Gemini 3 Flash (Thinking Minimal) 1462,73 1464,05 7 (2026-01-29) 2026-02-11
23. Grok 4.1 1460,51 1466,36 3 (2025-11-20) 2026-02-11
25. GLM-5 1456,03 1470,37 8 (2026-02-10) 2026-02-10
26. GPT-5.1 High 1454,71 1460,58 4 (2025-11-20) 2026-01-29
27. GPT-5.3 Chat Latest 1454,34 1468,22 10 (2026-03-11) 2026-03-11
28. Claude Sonnet 4.5 Thinking 32K (2025-09-29) 1451,92 1453,01 1 (2025-10-03) 2026-01-29
29. Claude Sonnet 4.5 (2025-09-29) 1451,66 1452,74 5 (2025-11-09) 2025-12-15
32. ERNIE 5.0 0110 1450,44 1453,72 9 (2026-01-29) 2026-01-29
33. ERNIE 5.0 Preview 1203 1449,49 1450,56 9 (2025-12-21) 2025-12-21
34. Claude Opus 4.1 Thinking 16K (2025-08-05) 1448,85 1451,45 2 (2025-11-06) 2026-01-09
35. Gemini 2.5 Pro 1448,66 1466,64 1 (2025-11-09) 2026-01-09
36. Claude Opus 4.1 (2025-08-05) 1446,83 1462,10 2 (2025-08-07) 2025-11-20
39. GPT-4.5 Preview (2025-02-27) 1444,45 1444,88 1 (2025-03-25) 2025-11-20
40. ChatGPT-4o Latest (2025-03-26) 1443,19 1443,66 1 (2025-04-16) 2025-11-09
45. GPT-5.1 1438,68 1440,92 9 (2025-11-16) 2025-11-17
47. Qwen3 Max Preview 1434,94 1435,12 8 (2025-09-30) 2025-11-09
49. GPT-5 High 1433,37 1481,37 1 (2025-08-18) 2025-11-09
52. o3 (2025-04-16) 1431,27 1454,32 1 (2025-06-18) 2025-11-09
55. GPT-5 Chat 1426,56 1429,60 8 (2025-09-08) 2025-10-01
60. Claude Opus 4 Thinking 16K (2025-05-14) 1423,85 1424,30 6 (2025-07-28) 2025-09-18
61. Qwen3 235B-A22B Instruct 2507 1423,50 1432,93 5 (2025-08-04) 2025-08-21
64. DeepSeek R1 0528 1421,98 1421,98 5 (2025-06-18) 2025-08-04
65. Grok 4 Fast Chat 1421,08 1424,78 10 (2025-09-30) 2025-09-30
70. Kimi K2 Preview (07-11) 1417,40 1421,29 6 (2025-07-25) 2025-08-28
77. GPT-4.1 (2025-04-14) 1413,36 1413,86 4 (2025-05-22) 2025-07-15
78. Claude Opus 4 (2025-05-14) 1412,22 1420,44 4 (2025-06-18) 2025-08-01
79. Grok 3 Preview (02-24) 1411,89 1413,32 2 (2025-03-25) 2025-07-28
80. GLM-4.5 1411,16 1418,42 10 (2025-08-04) 2025-08-04
81. Gemini 2.5 Flash 1411,05 1417,54 6 (2025-07-07) 2025-07-17
82. Grok 4 0709 1410,12 1436,78 5 (2025-07-28) 2025-09-08
89. Qwen3 235B-A22B No Thinking 1403,21 1403,21 10 (2025-07-07) 2025-07-07
93. o1 (2024-12-17) 1401,79 1402,44 1 (2025-02-27) 2025-07-01
98. DeepSeek R1 1397,80 1398,20 2 (2025-02-27) 2025-05-22
103. DeepSeek V3 0324 1395,24 1397,36 4 (2025-04-16) 2025-06-18
107. o4 Mini (2025-04-16) 1389,90 1400,07 6 (2025-05-11) 2025-06-18
109. Claude Sonnet 4 (2025-05-14) 1388,86 1395,42 7 (2025-06-11) 2025-06-11
110. o1 Preview 1387,97 1388,54 1 (2024-12-22) 2025-04-16
114. Claude 3.7 Sonnet Thinking 32K (2025-02-19) 1386,76 1388,93 5 (2025-03-26) 2025-05-22
125. Qwen2.5 Max 1374,38 1374,98 5 (2025-02-03) 2025-03-25
127. Claude 3.5 Sonnet (2024-10-22) 1371,79 1373,10 2 (2024-12-22) 2025-03-26
128. Claude 3.7 Sonnet (2025-02-19) 1370,74 1375,92 3 (2025-02-27) 2025-04-16
134. o3 Mini High 1363,44 1365,82 4 (2025-02-21) 2025-04-16
137. Gemini 2.0 Flash 001 1360,16 1366,27 4 (2025-02-06) 2025-03-17
138. DeepSeek V3 1358,40 1358,99 4 (2025-01-22) 2025-02-27
145. Gemini 2.0 Flash Lite Preview (02-05) 1353,09 1353,65 10 (2025-02-17) 2025-02-17
146. Gemini 1.5 Pro 002 1350,91 1351,71 2 (2024-10-23) 2025-02-27
150. o3 Mini 1347,62 1348,61 8 (2025-02-14) 2025-02-21
158. GPT-4o (2024-05-13) 1345,41 1346,08 1 (2024-09-15) 2025-02-06
161. Claude 3.5 Sonnet (2024-06-20) 1341,69 1343,37 2 (2024-09-15) 2025-02-05
165. o1 Mini 1336,86 1337,32 2 (2024-09-27) 2025-02-03
168. Grok 2 (2024-08-13) 1335,11 1335,58 5 (2024-08-28) 2024-12-05
169. GPT-4o (2024-08-06) 1334,65 1335,39 7 (2024-09-15) 2024-12-22
170. Gemini Advanced 0514 1334,59 1335,24 3 (2024-09-15) 2025-01-28
171. Llama 3.1 405B Instruct Bf16 1334,54 1335,95 4 (2024-09-15) 2025-01-24
173. Llama 3.1 405B Instruct Fp8 1332,73 1334,26 5 (2024-09-15) 2025-01-05
181. GPT-4 Turbo (2024-04-09) 1323,73 1324,88 8 (2024-09-15) 2024-09-27
187. Claude 3 Opus (2024-02-29) 1321,03 1323,08 9 (2024-09-15) 2024-09-15
— ChatGPT-4o Latest 1288,84 1 (2024-09-04) 2024-09-04
— Dola Seed 2.0 Preview 1474,55 7 (2026-02-24) 2026-03-04
— Gemini 1.5 Pro API 0514 1238,75 10 (2024-09-15) 2024-09-15
— Llama 3.1 405B Instruct 1250,04 5 (2024-09-04) 2024-09-04

Несколько интересных наблюдений:

  • Anthropic доминирует в текущем топ-3. Claude Opus 4.7 Thinking занимает первое место с результатом 1504,53 — это первая модель в истории, преодолевшая отметку в 1500 баллов на Arena AI. Версия без режима Thinking (Claude Opus 4.7) находится на третьем месте, а Claude Opus 4.6 Thinking — на втором.
  • Google и xAI идут сразу за лидерами. Gemini 3 Pro, Gemini 3.1 Pro Preview и Gemini 3 Flash входят в текущий топ-15. В то же время Grok 4.20 Beta 1 (#5) и другие варианты Grok показывают, насколько плотной остаётся конкуренция.
  • История флагманских моделей OpenAI весьма динамична. GPT-5 High когда-то занимал первое место (в августе 2025 года с результатом 1481), но затем опустился на 49-ю позицию, уступив новым моделям. Последняя версия OpenAI — GPT-5.4 High — сейчас находится на 6-м месте.
  • «Бывшие чемпионы» наглядно показывают масштаб изменений. GPT-4o был номером 1 ещё в сентябре 2024 года, а теперь занимает лишь 158-е место. o1 Preview лидировал в декабре 2024 года, а сейчас находится на 110-й позиции.
  • Китайские лаборатории ИИ всё активнее усиливают позиции. GLM-5.1, Qwen3.5 Max Preview, ERNIE 5.0 и Kimi K2.5 Thinking входят в топ-20, что показывает: Zhipu AI, Alibaba, Baidu и Moonshot — полноценные участники гонки.
  • Модели с открытым исходным кодом тоже доходили до вершины. DeepSeek R1 достиг 2-го места в феврале 2025 года, а DeepSeek V3.2 Exp Thinking сейчас занимает 10-ю позицию — впечатляющие результаты для открытых моделей.
  • Верхняя планка результатов постоянно растёт. В августе 2024 лидер имел около 1290 баллов. К апрелю 2026 лучший результат превышает 1504 — рост примерно на 17% менее чем за два года, что отражает быстрый прогресс в архитектуре моделей, данных и методах обучения.
  • Срок удержания в топ-10 сокращается. Ранние модели, такие как GPT-4o и Gemini 1.5 Pro, удерживались в первой десятке месяцами. Новые модели иногда выбывают уже через несколько недель — темпы релизов значительно ускорились.

Методология

Данный анализ основан на оценках категории «overall» платформы Arena AI для задач типа «текст–текст». Позиции в рейтинге определяются на основе попарных пользовательских сравнений моделей. Были проанализированы данные за период с 28 августа 2024 года по 17 апреля 2026 года. В приведённую выше таблицу включены модели, которые хотя бы один раз попадали в первую десятку за этот период (см. раздел «Модели, которые попадали в топ-10»). Значения в «текущих результатах» соответствуют самым последним доступным данным.

Источник данных: Arena AI (Text Arena).