Google и OpenAI заявили о победе своих чат-ботов на Международной математической олимпиаде

Искусственный интеллект, разработанный командами Google DeepMind и OpenAI, достиг очередного успеха: модели сумели превзойти многих участников Международной математической олимпиады в решении задач.

Обе компании сообщили, что их ИИ "получили золотые медали" на Международной математической олимпиаде – одном из самых престижных и сложных конкурсов для школьников, демонстрирующих высокий уровень математических знаний.

Международная математическая олимпиада собирает лучших школьников со всего мира, предлагая им пройти серьезное испытание: участники решают сложные, многоэтапные задачи на двух этапах, каждый из которых длится четыре с половиной часа. Всего участникам предстоит справиться с шестью заданиями. Модели от DeepMind и OpenAI справились с пятью из шести задач безошибочно, набрав 35 из возможных 42 баллов – этого оказалось достаточно для получения золотой медали. Аналогичный результат показали 67 из 635 школьников-участников.

Модели ИИ решали задачи в условиях, аналогичных тем, в которых работают участники-люди: на каждый экзамен им давалось по 4,5 часа, без доступа к интернету или внешним инструментам. Интересно, что обе компании, похоже, использовали универсальные модели искусственного интеллекта, а не специализированные, которые ранее демонстрировали более высокие результаты.

Однако есть один нюанс, связанный не с результатами, а с подходом самих компаний. DeepMind официально участвовала в олимпиаде по приглашению и объявила о своем успехе в блоге уже после публикации итогов IMO. В то же время, по данным Implicator.ai, OpenAI официального участия не принимала. Вместо этого команда просто взяла опубликованные задания олимпиады и решила их в автономном режиме, заявив, что их модель показала уровень, соответствующий золотой медали. Однако, поскольку это происходило вне формата соревнования, IMO не может подтвердить этот результат. Более того, OpenAI опубликовала свои данные заранее – на выходных, до официального объявления результатов, несмотря на просьбу организаторов дождаться понедельника, чтобы не отвлекать внимание от школьников-участников.

Любопытная деталь о "золотых" моделях: ни одна из них не является общедоступной. Напротив, публичные версии показали слабые результаты. В ходе тестирования Gemini 2.5 Pro, Grok-4 и OpenAI o4 не смогли набрать более 13 баллов – этого недостаточно даже для "бронзы", которая требует минимум 19 баллов. Результаты по-прежнему вызывают сомнения, особенно учитывая слабые показатели общедоступных моделей. Это указывает как на ограничения нынешних ИИ-инструментов, так и на потенциал более продвинутых, "тонко настроенных" моделей.