ИИ плохо определяет время и даты, согласно исследованиям

время публикаци: 18 марта 2025 г., 17:00

последнее обновление: 18 марта 2025 г., 16:57

Исследования показывают, что большие языковые модели по-прежнему испытывают трудности с выполнением простых задач, таких как определение времени.

Исследователи из Эдинбургского университета оценили способность семи известных многомодульных больших языковых моделей искусственного интеллекта, который может интерпретировать и генерировать различные виды медиа – отвечать на вопросы, связанные со временем, на основе изображений часов или календарей.

Команда протестировала модели OpenAI GPT-4o и GPT-01, Google DeepMind Gemini 2.0, Anthropic Claude 3.5 Sonnet, Meta Llama 3.2-11B-Vision-Instruct, Alibaba Qwen2-VL7B-Instruct и ModelBest MiniCPM-V-2.6. Для тестирования они использовали изображения аналоговых часов – с римскими цифрами, разными цветами циферблатов, с отсутствующей секундной стрелкой, а также изображения календарей за последние 10 лет.

Для изображений часов исследователи задавали модели вопросы, например, "Сколько времени показано на этих часах?" Для календарей они задавали простые вопросы, как "Какой день недели был на Новый год?", а также более сложные, например, "Какой день недели 153-й день года?"

Результаты показали, что системы ИИ продемонстрировали плохие результаты. Они правильно определяли время на аналоговых часах менее чем в 25% случаев. Особенно трудными для них оказались часы с римскими цифрами и необычно оформленными стрелками, а также часы без секундной стрелки. Это, по мнению исследователей, может указывать на проблемы с распознаванием стрелок и интерпретацией углов на циферблате. Google Gemini-2.0 показал лучшие результаты в задаче с часами, в то время как GPT-01 оказался наиболее точным в задаче с календарем, правильно отвечая в 80% случаев – значительно обгоняя других участников. Однако, даже наиболее успешная модель в задаче с календарем все равно ошибалась примерно в 20% случаев.