Искусственный интеллект провалил задачу, которая по силам каждому школьнику: какую слабость проявили исследователи
Модели искусственного интеллекта, в частности GPT-4o и Gemini 2.0, провалили тест на чтение часов и календаря.
ИИ не понимает часов и календарей.
Несмотря на способность генерировать код, тексты и изображения, современные модели искусственного интеллекта испытывают существенные трудности с тем, что для большинства людей элементарно — определение времени на аналоговых часах и чтение календаря.
Об этом пишет Live Science.
Ученые из Эдинбургского университета протестировали ряд многомодальных языковых моделей (MLLM), обрабатывающих текстовую и визуальную информацию, и обнаружили, что эти системы регулярно ошибаются в таких базовых задачах.
Исследование было представлено на Международной конференции по репрезентациям обучения (ICLR 2025) и опубликовано 18 марта на сервере препринтов arXiv (пока без рецензирования).
"Большинство людей учатся определять время и пользоваться календарями с раннего возраста. Наши результаты демонстрируют значительный пробел в способностях ИИ к выполнению этих базовых навыков", - прокомментировал ведущий автор исследования Рохит Саксена. - "Эти ограничения следует преодолеть, если мы хотим использовать ИИ в системах, где важен точный расчет времени - а именно автоматизация, планирование или ассистивные технологии".
Для эксперимента команда ввела набор часов и календарей в несколько ведущих моделей: GPT-4o (OpenAI), Gemini 2.0 (Google), Claude-3.5 Sonnet (Anthropic) и LLaMA 3.2-Vision (Meta).
Результаты оказались неутешительными: большинство моделей ошибалось в более чем половине случаев — как в определении времени по часам, так и в установлении дня недели для заданной даты.