“邊看邊畫,模型邊畫邊想”,已學(xué)讓大模型掌握空間思考能力,類空力結(jié)果直接實現(xiàn)空間推理任務(wù)新SOTA。間思
來自螞蟻技術(shù)研究院自然語言組聯(lián)合中科院自動化所和香港中文大學(xué)開源ViLaSR-7B。模型
它在包括迷宮導(dǎo)航、已學(xué)靜態(tài)圖像理解和視頻空間推理等5個基準(zhǔn)上平均提升18.4%。類空力
在李飛飛等知名學(xué)者提出的間思VSI-Bench上更是達(dá)到了與Gemini-1.5-Pro相當(dāng)?shù)?5.4%水平,全面超越現(xiàn)有方法。模型
△主實驗結(jié)果
更重要的已學(xué)是,大量案例研究表明,類空力模型確實掌握了類似人類的間思空間推理策略和反思能力,朝著真正的模型視覺智能邁出了重要一步。
他們設(shè)計了三階段訓(xùn)練框架,已學(xué)來訓(xùn)練這種推理能力——
首先通過冷啟動訓(xùn)練建立基礎(chǔ)的類空力視覺操作能力,繼而利用反思拒絕采樣篩選高質(zhì)量的推理路徑,最后通過強(qiáng)化學(xué)習(xí)直接優(yōu)化任務(wù)目標(biāo)。
具體來看看~
兩種推理范式
在文本任務(wù)突破后,視覺推理成為當(dāng)下機(jī)器推理的一大熱點。視覺推理指的是機(jī)器能夠像人一樣,通過分析單張或多張(連續(xù))圖中的物體、場景布局和空間關(guān)系來進(jìn)行視覺理解和邏輯判斷。
今年4月,OpenAI發(fā)布的o3和o4-mini模型在視覺推理領(lǐng)域取得重大突破。
這兩個模型采用“Thinking with Images”的推理范式,能夠在文本形式的推理過程中主動進(jìn)行圖像操作(如裁剪、縮放、旋轉(zhuǎn)等),并將操作后的圖像重新輸入模型進(jìn)行下一步推理。
在MMMU等多個視覺推理基準(zhǔn)測試中,o3模型的表現(xiàn)大幅超越了此前的最好成績,顯示了這種范式的巨大潛力。
△兩種視覺推理范式
視覺推理為什么需要“Thinking with Images”呢?
與o3/o4-mini不同,傳統(tǒng)視覺語言模型(Large Vision-Language Models, LVLMs)往往采用“視覺轉(zhuǎn)文本”推理范式。該范式僅僅將圖像信息作為輔助輸入,通過視覺編碼器將其壓縮為token序列并對齊到語言空間,隨后交由LLM進(jìn)行純文本推理。
盡管去年6月份一篇被Ilya點贊的論文《The Platonic Representation Hypothesis》指出,視覺和語言表示會隨著模型規(guī)模擴(kuò)大而自然地趨于一致,但在實踐中這種對齊存在諸多問題。
一方面,由于訓(xùn)練數(shù)據(jù)的局限性和視覺編碼器能力的限制,這種壓縮和對齊過程不可避免地會丟失大量關(guān)鍵的細(xì)節(jié)信息和時空信息。這些信息一旦在初始對齊階段丟失,就無法在后續(xù)的純文本推理中恢復(fù)。
另一方面,視覺數(shù)據(jù)中往往包含大量與任務(wù)無關(guān)的背景細(xì)節(jié),特別是在視頻等多幀場景中存在大量冗余信息。如果盲目增大模型規(guī)模來保留更多信息,不僅會耗費大量計算資源去處理這些無關(guān)信息,還可能導(dǎo)致模型過度關(guān)注噪聲而影響推理效果。
如圖所示,“視覺轉(zhuǎn)文本”推理范式的局限在具體任務(wù)中表現(xiàn)得尤為明顯 -在迷宮導(dǎo)航時容易混淆方向、在多視角推理時難以建立物體間的時空關(guān)聯(lián)等。
△“視覺轉(zhuǎn)文本”推理的局限性
當(dāng)下,視覺推理正經(jīng)歷從“視覺轉(zhuǎn)文本”到“Thinking with Images”的范式轉(zhuǎn)變。
事實上,“Thinking with Images”并非全新概念。
例如,CVPR 2023的最佳論文VisProg就提出了一種無需訓(xùn)練的提示方法,通過讓大模型生成Python程序來調(diào)用視覺工具,踐行了這種用圖像思考的理念。
螞蟻技術(shù)研究院在EMNLP 2024的VisualReasoner工作也率先提出在推理過程中主動引入視覺操作,通過編輯和生成新的視覺線索來增強(qiáng)模型的感知能力。
更重要的是,該工作設(shè)計了一種數(shù)據(jù)合成方法,能自動生成大量包含多步視覺推理過程的訓(xùn)練數(shù)據(jù),首次實現(xiàn)了將這種推理能力原生注入到模型參數(shù)中。
這些探索為解決傳統(tǒng)視覺到文本轉(zhuǎn)換范式中的信息損失問題開辟了新的方向。
△兩種推理范式對比
在“Thinking with Images”的大框架下,螞蟻技術(shù)研究院自然語言組聯(lián)合中科院自動化所和香港中文大學(xué)重點關(guān)注視頻或多圖場景下的空間推理問題,試圖解決當(dāng)下視覺推理工作中空間關(guān)系增強(qiáng)不足以及跨幀追蹤能力受限等問題。
為此,團(tuán)隊開源了ViLaSR-7B(Vision-Language Model for Spatial Reasoning)模型。
該模型通過創(chuàng)新性的“Drawing to Reason in Space”范式,讓LVLMs能夠像人類一樣“邊畫邊想”:通過在視覺空間中繪制輔助標(biāo)注(如參考線、標(biāo)記框等),引導(dǎo)視覺編碼器捕捉關(guān)鍵的空間關(guān)系,從而在視覺token的embedding表征中保留更豐富的空間信息,有效緩解了傳統(tǒng)“視覺轉(zhuǎn)文本”推理范式中的信息損失問題。
這種交互式的視覺推理方式模擬了人類在解決空間問題時的思維過程,增強(qiáng)了模型的空間感知能力。
△“Drawing to Reason in Space”示例技術(shù)方案:Drawing to Reason in Space
該框架讓模型能夠在每一步推理中操作單張或多張圖像:通過選擇關(guān)鍵幀、跨幀比較、繪制邊界框和輔助線等方式來構(gòu)建視覺線索,從而聚焦特定空間區(qū)域并動態(tài)追蹤其在不同圖像間的變化關(guān)系。
不同于現(xiàn)有方法依賴外部專用認(rèn)知工具或僅局限于局部細(xì)節(jié)觀察,這種方式不僅保持了模型原生的視覺推理能力,更支持其在多圖場景下進(jìn)行連貫的空間推理,不斷更新和優(yōu)化對空間狀態(tài)的整體理解,真正實現(xiàn)“邊看邊畫、邊畫邊想”的認(rèn)知過程。這種機(jī)制在處理需要多步驟、長序列的復(fù)雜空間推理任務(wù)時表現(xiàn)出顯著優(yōu)勢,不僅提升了推理效率,更增強(qiáng)了結(jié)果的可解釋性和可控性。
三階段訓(xùn)練框架:系統(tǒng)化培養(yǎng)空間推理能力
為了有效提升視覺語言模型在空間推理任務(wù)上的表現(xiàn),ViLaSR 使用了一種系統(tǒng)化的三階段訓(xùn)練框架。該框架旨在從零開始逐步培養(yǎng)模型的空間理解與推理能力,使其能夠像人類一樣通過“畫圖輔助思考”的方式進(jìn)行多步驟、深層次的空間分析。
第一階段:冷啟動訓(xùn)練(Cold-start Training)
訓(xùn)練的第一步是建立模型對視覺空間的基本認(rèn)知能力。研究團(tuán)隊利用合成數(shù)據(jù)構(gòu)建初始的視覺推理路徑,并通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型執(zhí)行基本的繪圖操作,如標(biāo)注邊界框、繪制輔助線等。這些操作為后續(xù)復(fù)雜推理打下基礎(chǔ)。
第二階段:反思拒絕采樣(Reflective Rejection Sampling)
第二階段目標(biāo)是增強(qiáng)其自我修正與反思能力。該階段引入了反思拒絕采樣機(jī)制,通過對模型生成的多個推理路徑進(jìn)行評估,篩選出那些展示出反思行為(如修改邊界框、輔助線)的高質(zhì)量樣本進(jìn)行強(qiáng)化訓(xùn)練。這種機(jī)制鼓勵模型在面對不確定或錯誤的推理路徑時主動識別并調(diào)整,并根據(jù)反饋動態(tài)優(yōu)化解決方案。
第三階段:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
最后一個階段采用強(qiáng)化學(xué)習(xí)策略,進(jìn)一步優(yōu)化模型的整體推理能力和繪圖操作的使用效率。在此階段,模型通過結(jié)果獎勵函數(shù)和格式獎勵函數(shù),同時關(guān)注答案的準(zhǔn)確性與推理過程的邏輯性和格式合理性。
格式獎勵僅當(dāng)結(jié)果獎勵大于閾值(此處設(shè)置為0)時才獲得,保證模型關(guān)注結(jié)果正確,避免僅優(yōu)化格式獎勵。
這一階段的目標(biāo)是讓模型能夠在不同任務(wù)中自主選擇最優(yōu)的推理路徑,并合理使用繪圖工具,避免冗余操作。這一階段不僅提升了模型的最終性能,也增強(qiáng)了其在多種空間推理場景下的適應(yīng)能力。
實驗表現(xiàn)
1、ViLaSR 在多個空間推理基準(zhǔn)測試中表現(xiàn)優(yōu)異
ViLaSR-7B 在包括迷宮導(dǎo)航(Maze)、靜態(tài)圖像理解(SpatialEval-Real)、視頻空間推理(VSI-Bench)、多圖像空間推理(SPAR-Bench, MMSI-Bench)五個主要空間推理基準(zhǔn)上平均提升了 18.4% 。
這一顯著提升表明,引入圖像輔助思考機(jī)制,顯著增強(qiáng)了模型在多類型任務(wù)中的泛化與空間推理能力,相較于純文本推理更具適應(yīng)性。
其中,在視覺空間理解最具挑戰(zhàn)性的基準(zhǔn)之一VSI-Bench 上,ViLaSR-7B 達(dá)到了45.4% 的平均準(zhǔn)確率,顯著優(yōu)于Qwen2.5-VL-7B(+12.7%)。
2、反思拒絕采樣增強(qiáng)自我修正,強(qiáng)化學(xué)習(xí)優(yōu)化繪圖操作效率
△消融實驗。分?jǐn)?shù)為相比于完整ViLaSR模型的關(guān)鍵行為相對提升百分比
通過消融實驗發(fā)現(xiàn),冷啟動階段首先幫助模型掌握“畫圖輔助思考”能力;去除反思拒絕采樣階段會導(dǎo)致:反思行為、推理步驟、繪圖操作行為顯著減少。這說明反思拒絕采樣機(jī)制對模型在面對錯誤路徑時的自我識別和修正起到了關(guān)鍵作用。
此外無強(qiáng)化學(xué)習(xí)版本與ViLaSR-7B相比,在多數(shù)子任務(wù)上性能下降,且繪圖/繪制輔助線使用頻率激增(+159.4% / +9.1%),表明強(qiáng)化學(xué)習(xí)有助于學(xué)習(xí)更精煉的操作策略。
數(shù)值類任務(wù)相比于多選任務(wù),性能下降更明顯(-9.21% vs. -4.07%),驗證了強(qiáng)化學(xué)習(xí)提供的稠密獎勵能更有效促進(jìn)精確空間推理,相比于監(jiān)督微調(diào)更具優(yōu)勢。
3、具備類人空間推理策略
深入的案例分析表明,ViLaSR-7B不僅在性能上超越了現(xiàn)有方法,更展現(xiàn)出了類人的空間推理策略。
如下圖所示,模型掌握了以下關(guān)鍵能力:
1、基于參考物的度量推理:
在測量電話尺寸的任務(wù)中,模型展現(xiàn)出了成熟的參考物推理能力。它首先識別到單純依靠像素測量無法得到準(zhǔn)確結(jié)果,隨后主動尋找具有已知尺寸的參考物(顯示器),最終通過比例換算得出電話的實際尺寸。這種推理方式與人類解決實際測量問題的思路高度一致。
△基于參考物的度量推理示例
2、系統(tǒng)性的跨幀對象追蹤:
面對需要理解多個畫面中物體相對位置關(guān)系的任務(wù)時,模型采用了系統(tǒng)性的標(biāo)注策略 - 在不同幀中標(biāo)記相同物體的位置,并通過這些標(biāo)記建立起物體之間的空間和時序關(guān)聯(lián)。這種方法不僅確保了推理的準(zhǔn)確性,也提高了結(jié)果的可解釋性。
△系統(tǒng)性的跨幀對象追蹤示例
本研究聚焦于空間推理任務(wù),通過“Drawing to Reason in Space”范式,將繪圖操作與多模態(tài)推理深度融合,使模型在視覺空間中“邊畫邊想”,更有效地理解和推理復(fù)雜的時空關(guān)系,顯著提升了大模型空間感知能力及推理的可解釋性與可控性。該范式為機(jī)器人導(dǎo)航、虛擬助手等領(lǐng)域的空間智能奠定了基礎(chǔ),未來將繼續(xù)推動多模態(tài)推理向通用性與高效性發(fā)展。
該工作的第一作者為中科院自動化所博士生吳俊飛,目前于螞蟻技術(shù)研究院實習(xí),螞蟻技術(shù)研究院副研究員關(guān)健為共同第一作者。
近日,中建四局承建的中山市合展科技產(chǎn)業(yè)園項目主體結(jié)構(gòu)全面封頂...
2025-07-1887近日,中建海峽承建的寧德市水陸聯(lián)運中心項目二期工程主體結(jié)構(gòu)全...
2025-07-1813