i
ДАТАИСТ
Dataism Science Hub

От восприятия к визуальному мышлению:
как добавить ИИ внутреннее «воображение»

Обложка

За последние годы мультимодальные LLM (MLLM) научились распознавать объекты, читать подписи, отвечать на вопросы по изображению и даже неплохо объяснять, что происходит в кадре. Но у них есть упрямая слабость: как только задача требует не просто описать увиденное, а удержать визуальные детали в памяти и мысленно выполнить над ними несколько шагов преобразований, качество резко падает. Например, понять правило в матрице фигур, мысленно повернуть объект, предсказать результат простого «физического» действия или пройтись вниманием по схеме в правильном порядке.

Авторы работы Toward Cognitive Supersensing in Multimodal Large Language Model называют это разрывом между восприятием и визуальным мышлением. В современных подходах его часто пытаются закрыть текстовыми цепочками рассуждений: модель генерирует подробное объяснение шаг за шагом и якобы «думает». Проблема в том, что текст — неудобный интерфейс для пространственных операций. Когда вы в уме вращаете куб или достраиваете закономерность в узоре, вы не переводите каждую микропроверку в слова. Модели же вынуждены «сжимать» пространство в последовательность токенов, и на длинных визуальных задачах это превращается в узкое горлышко.

Схема 1
Схематическое сравнение подхода статьи с базовыми методами: предлагаемая система объединяет восприятие/извлечение признаков и рассуждение (планирование) в единый конвейер, что улучшает выполнение задачи.

Бенчмарк, который проверяет не описание, а визуальное мышление

Чтобы измерять именно «визуальное мышление», авторы собрали CogSense-Bench и связанный с ним датасет CogSense-Dataset-105K. Вопросы распределены по пяти когнитивным измерениям: текучий интеллект (решение новых абстрактных задач), кристаллизованный интеллект (опора на выученные знания), зрительно‑пространственное мышление, мысленная симуляция и визуальные процедуры — то есть задачи, где важно уметь правильно направлять внимание и выполнять последовательность визуальных операций.

Смысл этого шага простой: если бенчмарк проверяет только распознавание, то модель может выглядеть умной, оставаясь «пассивной камерой с хорошим словарём». CogSense-Bench специально устроен так, чтобы без внутренней визуальной работы модель чаще ошибалась.

Схема 2
Примеры CogSense-Dataset: образцы из каждой категории. CogSense-Dataset включает различные визуальные когнитивные вопросы, разделённые на пять категорий: текучий интеллект, кристаллизованный интеллект, зрительно‑пространственное познание, мысленная симуляция и визуальные процедуры; они требуют визуальных представлений и когнитивной «суперсенсорики» с глубоким мышлением и рассуждением.

Идея когнитивной сверхчувствительности: «внутреннее зрительное воображение» в латентном пространстве

Ключевая идея статьи — перенести часть рассуждения из текста в пространство представлений, где живут визуальные признаки. Авторы предлагают парадигму Cognitive Supersensing: модель получает дополнительную голову LVIP (Latent Visual Imagery Prediction), которая учится предсказывать латентное визуальное представление правильного ответа. Проще говоря, помимо генерации текста модель параллельно строит внутренний «образ того, к чему она должна прийти», и это становится каркасом для многошагового решения.

Важно, что это не попытка заставить модель рисовать картинки пиксель в пиксель. Она работает с компактными эмбеддингами: такими внутренними векторами, которые кодируют визуальную структуру. В этом смысле подход близок к идее visuospatial sketchpad из когнитивной психологии: отдельная «черновая доска» для пространственных операций, которую не нужно каждый раз переводить в слова.

Схема 3
Схема Cognitive Surpersensing. Слева: обзор архитектуры. CogSense-8B — VLM, который принимает изображения и подсказки (prompts) на вход; текстовый декодер генерирует ответ, а голова Latent Visual Imagery Prediction (LVIP) параллельно генерирует латентное визуальное представление изображения-варианта ответа. Справа: обзор метода. Для обучения CogSense-8B: (1) генерируем траектории рассуждений с помощью LLM, (2) применяем SFT для совместной оптимизации головы LVIP и весов модели, (3) применяем RL для дополнительной оптимизации траекторий рассуждений с латентными рационализациями.

Как обучают: сначала хорошие рассуждения, потом привязка к «образу», затем RL

Обучение построено в несколько шагов. Сначала авторы получают цепочки рассуждений от модели-учителя и фильтруют их, чтобы не тащить в обучение галлюцинации и неверные ответы. Затем делают supervised fine-tuning: модель учится и генерировать ответ, и одновременно предсказывать латентный «визуальный образ» правильной опции через LVIP. А на финальном этапе добавляют обучение с подкреплением, где поощряются такие траектории рассуждений, которые согласованы с ответом не только в тексте, но и в латентном визуальном представлении. Это похоже на попытку дисциплинировать модель: «думай так, чтобы твои промежуточные внутренние состояния действительно вели к правильной визуальной цели».

Что получилось на практике

На CogSense-Bench модель CogSense-8B показывает среднюю точность 73.8%. Для сравнения, приведённый в статье GPT-5.2 набирает 40.3%, а многие другие сильные MLLM — в районе 30–37%. Особенно показательно, что LVIP даёт заметный вклад сверх обычного SFT, а добавление RL дальше улучшает результат.

73.8% CogSense-8B
40.3% GPT-5.2
~35% Другие MLLM

При этом на «общих» бенчмарках вроде ScienceQA, GQA и других изменения в среднем не выглядят как грубое переобучение: модель остаётся сопоставимой с базовым бэкбоном в стандартных задачах, но резко прибавляет там, где нужно именно визуальное рассуждение. Дополнительно авторы проверяют обобщение вне домена на EMMA (картинные вопросы по химии и математике) и тоже видят прирост: например, математика растёт с 26.0 до 34.8.

Схема 4
Качественный пример рассуждений визуального познания в разных моделях. Мы подчёркиваем решающие предложения в цепочке рассуждений. CogSense-8B демонстрирует согласованную многошаговую логическую цепочку, близко совпадающую с эталонным ответом, тогда как другие модели показывают менее точные или менее интерпретируемые траектории рассуждений.
Схема 5
Примеры задач бенчмарка EMMA.

Почему это важно и куда может вести дальше

Эта работа формулирует то, что многие чувствовали на практике: больше цепочек рассуждений не гарантирует лучшего визуального мышления, потому что текст сам по себе плохо хранит и преобразует пространственные структуры. Cognitive Supersensing предлагает компромисс: язык остаётся для управления и объяснения, а внутренний визуальный «скелет» рассуждения живёт в латентном пространстве, ближе к тому, как работает модель мира в задачах предсказания состояний.

Если направление закрепится, мы можем увидеть MLLM, которые не только отвечают по картинке, но и действительно умеют делать внутреннюю симуляцию — не обязательно рисуя, но удерживая устойчивые визуальные состояния на протяжении многих шагов.