3B 多模態大模型在動作角色扮演遊戲的戰鬥任務中,成功率超越 GPT-4o 和人類玩家,淘天集團未來生活實驗室團隊提出了 CombatVLA,已被 ICCV 2025 接收。
在複雜的三維環境中實現實時決策仍面臨重大挑戰,要求模型能在秒級時間尺度做出響應,具備高分辨率感知能力,並能夠在動態條件下進行戰術推理。
如下圖所示,團隊給出了 CombatVLA 推理得到的 AoT 解釋、解析成 Python 代碼的動作指令,以及執行這些動作後的幀序列。前三行案例來自“黑神話:悟空”,第四行為“隻狼:暗影雙死”。

第一行中,CombatVLA 檢測到自身血量較低,於是先將角色後撤到安全位置,然後按“r”鍵進行回血操作。
第二行中,CombatVLA 判斷定身技能可用,便按下“1”鍵定身敵人,並立即發動連招,大幅削減敵人血量。
第三行展示了模型有效閃避敵人攻擊,並抓住時機用蓄力重擊進行反擊。
第四行中,在 SSDT 場景下,CombatVLA 先用格擋動作抵禦攻擊,隨後用輕攻擊發動忍殺,一擊擊敗敵人。
具體而言,CombatVLA 是一個 3B 級別的模型,通過動作追蹤器收集的視頻-動作對進行訓練,數據被格式化為“動作思維”(action-of-thought, AoT)序列。隨後,CombatVLA 無縫集成進動作執行框架,並通過截斷 AoT 策略實現高效推理。
實驗結果表明,CombatVLA 不僅在戰鬥理解基準測試中超越了所有現有模型(如 GPT-4o 等),還在遊戲戰鬥中實現了 50 倍的加速。此外,CombatVLA 的任務成功率也高於人類玩家。

一. CombatVLA 概覽
視覺-語言-動作模型(VLA)結合視覺、語義和動作控制,推動具身智能發展。儘管這類模型在 UI 操作和導航任務表現優異,但 3D 戰鬥場景(如“黑神話:悟空”和“隻狼:暗影雙死”)仍面臨三大挑戰:
1)視覺感知(如敵我定位、運動、環境感知);
2)戰鬥推理(識別敵方攻擊模式等);
3)高效推理(實時響應),目前尚無框架在這些任務上表現突出,也缺乏有效的戰鬥理解評測基準。
且當前方案存在明顯缺陷 —— 基於強化學習方法操控遊戲的方法們僅憑視覺輸入,通過 DQN 和 PPO 等算法訓練智能體自主學習戰鬥,但需要大量預設獎勵和反覆試錯,泛化能力弱。
依賴超大模型(如 GPT-4o)的方法們推理延遲較高,有時高達 60-90 秒,嚴重影響實時戰鬥表現,難以落地應用。
為解決這些問題,團隊提出了 CombatVLA—— 首個高效 3D 戰鬥智能專用 VLA 模型。
CombatVLA 基於 3B 參數規模,能處理視覺輸入並輸出一系列具體可執行的動作指令(支持鍵鼠操作),實現高效戰鬥決策。團隊首先開發了動作跟蹤器自動採集大規模訓練數據,
數據被加工為“動作思維”(Action-of-Thought, AoT)格式,方便模型理解和推理戰鬥動作。
接下來,CombatVLA 採用漸進式學習範式,逐步從視頻級到幀級優化動作生成。
最終,模型可嵌入動作執行機器人中,並通過自定義截斷輸出策略加速推理。
實驗表明,CombatVLA 在戰鬥理解準確率上超過現有大模型,在執行速度上也實現了 50 倍提升。
本文主要貢獻如下:
動作跟蹤器:開發了一套後臺自動記錄玩家動作的工具,大幅提升數據採集效率,為後續研究提供基礎。
戰鬥理解基準:基於動作跟蹤器建立了 CUBench 評測集,通過 VQA 任務測試模型的敵方識別和動作推理能力。
AoT 數據集:提出分三階段(視頻粗粒度 / 幀級細粒度 / 幀級截斷)構建 AoT 數據,助力模型漸進學習戰鬥技能。
CombatVLA 模型:結合自適應動作權重損失,經過漸進式訓練,在戰鬥理解基準上達到最優。
動作執行框架:將 CombatVLA 無縫嵌入 PC 端執行,實現基於截斷策略的 50 倍加速。

二.動作追蹤器和評測基準
團隊開發了一個動作跟蹤器,用於收集遊戲中的人類動作序列,為戰鬥理解模型提供了大量訓練數據。此外,團隊還基於該動作跟蹤器建立了一個全面的戰鬥理解 benchmark,涵蓋三個不同任務。

2.1 動作跟蹤器
由於標註動作的數據極其稀缺,團隊開發了一個高效收集視頻-動作對的輕量級 Python 工具,稱為動作跟蹤器。
該工具可以在後臺運行,監控鍵盤和鼠標操作以記錄用戶動作,並同步截取遊戲截圖。
2.2 評測基準
為了讓基於 VLM 或 VLA 的模型在 3D ARPG 遊戲中有良好表現,必須具備高維視覺感知和戰鬥語義理解能力。
因此,團隊基於三項核心能力(信息獲取、理解、推理)構建了戰鬥理解評測基準 ——CUBench,用於評估模型的戰鬥智商。
分別為:單圖判斷、多圖判斷和多圖多選,團隊彙總出 914 條數據(39.4% 為信息獲取,22.3% 為理解,38.3% 為推理),用於全面測試模型的戰鬥理解能力。
三.CombatVLA 模型

3.1 Action-of-Thought 數據集
受 CoT 啟發,團隊將動作跟蹤器採集的數據轉化為“動作思維”數據,如下圖所示。具體而言,模型的輸出以 JSON 格式表達,包含 [action](如“按下空格鍵”)以及 [explanation](用於描述當前敵人狀態、該動作的物理含義等)。
此外,還引入特殊標記⟨TRUNC⟩,用於實現輸出截斷,以提高推理速度。

3.2 三階段漸進式訓練
CombatVLA 的訓練過程遵循三級漸進式學習範式,使模型能夠逐步掌握戰鬥策略。具體分為:
(1)階段 1:視頻級粗粒度 AoT 微調。
該階段旨在讓模型初步理解戰鬥環境,數據以若干幀組成的視頻為單元,結合每幀對應的動作(時間並不精確對齊)。
這樣,模型需要根據整體視頻內容推測動作,有助於建立對戰鬥整體的初步認知,也便於後續穩定訓練。
(2)階段 2:幀級細粒度 AoT 微調。
在 3D 戰鬥遊戲中,模型需要具備秒級反應和快速決策能力。
此階段構建了動作與若干前序幀嚴格對齊的數據對(Frames-AoT),幫助模型理解動作前因後果及戰鬥邏輯。
例如,連續幾幀內敵方蓄力攻擊,則模型可能觸發閃避行為。
(3)階段 3:幀級截斷 AoT 微調。
大模型推理速度與輸出長度相關,為提升實時響應,團隊引入了⟨TRUNC⟩特殊標記,對 AoT 輸出內容進行截斷加速。
這樣既保留了 AoT 帶來的推理優勢,又顯著提升了模型推理速度。
整個訓練過程中,視覺編碼器參數凍結,僅微調語言模型參數。
在前兩階段中,AoT 的 [explanation] 置於 [action] 前面,便於模型推理出正確的動作;在第三階段,AoT 的 [explanation] 置於 [action] 後面,便於模型進行快速截斷,以實現推理加速。
3.3 動作執行框架
(1)基於 VLA 的智能體框架。
為讓視覺語言模型(VLM)能夠像人類一樣玩電腦遊戲,團隊開發了一個輕量級且高效的動作執行智能體。
在實際運行中,框架接收實時遊戲畫面(視頻)作為輸入,輸出則是具體的鍵鼠動作指令,實現對遊戲角色的自動控制。
團隊對實時遊戲畫面進行幀採樣,去除冗餘視覺信息,降低 VLM 推理負擔。模型推理採用截斷輸出策略,提取有效動作並執行。
(2)截斷推理與執行。
推理過程中,每生成一個新輸出 token 就進行監控,一旦檢測到特殊的⟨TRUNC⟩標記即停止,將之前的內容解析為動作。這大大加快了推理速度。
最後,利用“pyautogui”庫將動作轉換為 Python 代碼,自動完成鍵盤鼠標操作,讓角色完成戰鬥任務。
四.實驗結果
4.1 實現細節
(1)數據集。
團隊選用了“黑神話:悟空(BMW)”和“隻狼:暗影雙死(SSDT)”兩款遊戲作為實驗平臺。
標註人員根據難度將 13 個戰鬥任務分為四個等級:簡單、中等、困難和極難(如下表所示)。
團隊通過動作跟蹤器在“黑神話:悟空”的第 9 和第 10 任務中收集訓練數據。AoT 涵蓋 10 種動作,包括“wsad”移動、“shift”衝刺、“space”翻滾(隻狼中為格擋防禦)、“r”回血、“1”定身、鼠標左鍵普攻、鼠標右鍵長按重擊等,這些動作可以組合使用。

(2)基準測試。團隊用戰鬥理解基準(CUBench)、通用基準(如 MME、VideoMME、OCRBench)和任務級實際評測作為評測方式。
在任務級實戰測試中,動作執行框架直接操控 PC 進行戰鬥,每個基線模型對每個任務測試 10 次,以擊敗敵人為成功,否則為失敗,記錄成功率和平均推理時長。
值得注意的是,團隊的 CombatVLA 只在極難任務(9 和 10)上微調,測試時將簡單到困難難度的任務(1–8, 同一遊戲的不同任務)及其他遊戲的任務(11–13)作為零樣本(zero-shot)測試,以考察泛化能力。
4.2 定量實驗結果

(1)戰鬥理解評測。在 CUBench 上,CombatVLA 取得了 63.61 的最高平均分,比第二名 Gemini-2.0-flash 高出 5.71 分,較原始基座 Qwen2.5-VL-3B 高出 7.74 分,顯著提升了模型的戰鬥理解能力。
(2)通用基準評測。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基準上的表現依然與基座模型 Qwen2.5-VL-3B 相當,驗證了團隊方法的穩健性和泛化能力。
(3)任務級實際評測。團隊將 CombatVLA 接入動作執行代理,讓其像人類一樣自動完成戰鬥任務。如下圖所示,CombatVLA 不僅在簡單任務接近人類外,在中高難度任務上全面超越基線,並在零樣本任務上也展現出較強的泛化能力。

(4)推理延遲。團隊還統計了平均推理延遲和每次動作所需模型調用次數(見下表)。CombatVLA 平均推理延遲僅 1.8 秒,且只需一次模型調用,比 VARP 快約 50 倍,模型調用成本僅為其 1/10。

結束語
本文針對當前視覺語言模型(VLMs)或視覺-語言-動作模型(VLAs)在 3D 動作角色扮演遊戲中缺乏秒級響應、高分辨率感知和戰術推理能力的問題,提出了 CombatVLA 模型。
該模型規模為 3B,採用 AoT 序列訓練,並引入動作對齊損失和模態對比損失進行優化。
CombatVLA 可無縫集成到動作執行框架中,通過截斷 AoT 策略實現高效推理。
實驗結果表明,CombatVLA 在戰鬥理解基準上全面超越現有模型,同時具備良好的泛化能力,並在實時戰鬥場景中實現了 50 倍速度提升。
未來,團隊將進一步增強模型對遊戲場景的理解能力,拓展其在更多類型遊戲甚至物理世界中的應用。



































