打黑神話&隻狼超越人類玩家淘天集團釋出首個3D動作遊戲專用VLA模型

發佈日期 2025-08-19T15:08:29+08:00

3B 多模態大模型在動作角色扮演遊戲的戰鬥任務中，成功率超越 GPT-4o 和人類玩家，淘天集團未來生活實驗室團隊提出了 CombatVLA，已被 ICCV 2025 接收。

在複雜的三維環境中實現實時決策仍面臨重大挑戰，要求模型能在秒級時間尺度做出響應，具備高分辨率感知能力，並能夠在動態條件下進行戰術推理。

如下圖所示，團隊給出了 CombatVLA 推理得到的 AoT 解釋、解析成 Python 代碼的動作指令，以及執行這些動作後的幀序列。前三行案例來自“黑神話：悟空”，第四行為“隻狼：暗影雙死”。

遊民星空

第一行中，CombatVLA 檢測到自身血量較低，於是先將角色後撤到安全位置，然後按“r”鍵進行回血操作。

第二行中，CombatVLA 判斷定身技能可用，便按下“1”鍵定身敵人，並立即發動連招，大幅削減敵人血量。

第三行展示了模型有效閃避敵人攻擊，並抓住時機用蓄力重擊進行反擊。

第四行中，在 SSDT 場景下，CombatVLA 先用格擋動作抵禦攻擊，隨後用輕攻擊發動忍殺，一擊擊敗敵人。

具體而言，CombatVLA 是一個 3B 級別的模型，通過動作追蹤器收集的視頻-動作對進行訓練，數據被格式化為“動作思維”（action-of-thought, AoT）序列。隨後，CombatVLA 無縫集成進動作執行框架，並通過截斷 AoT 策略實現高效推理。

實驗結果表明，CombatVLA 不僅在戰鬥理解基準測試中超越了所有現有模型（如 GPT-4o 等），還在遊戲戰鬥中實現了 50 倍的加速。此外，CombatVLA 的任務成功率也高於人類玩家。

遊民星空

一. CombatVLA 概覽

視覺-語言-動作模型（VLA）結合視覺、語義和動作控制，推動具身智能發展。儘管這類模型在 UI 操作和導航任務表現優異，但 3D 戰鬥場景（如“黑神話：悟空”和“隻狼：暗影雙死”）仍面臨三大挑戰：

1）視覺感知（如敵我定位、運動、環境感知）；

2）戰鬥推理（識別敵方攻擊模式等）；

3）高效推理（實時響應），目前尚無框架在這些任務上表現突出，也缺乏有效的戰鬥理解評測基準。

且當前方案存在明顯缺陷 —— 基於強化學習方法操控遊戲的方法們僅憑視覺輸入，通過 DQN 和 PPO 等算法訓練智能體自主學習戰鬥，但需要大量預設獎勵和反覆試錯，泛化能力弱。

依賴超大模型（如 GPT-4o）的方法們推理延遲較高，有時高達 60-90 秒，嚴重影響實時戰鬥表現，難以落地應用。

為解決這些問題，團隊提出了 CombatVLA—— 首個高效 3D 戰鬥智能專用 VLA 模型。

CombatVLA 基於 3B 參數規模，能處理視覺輸入並輸出一系列具體可執行的動作指令（支持鍵鼠操作），實現高效戰鬥決策。團隊首先開發了動作跟蹤器自動採集大規模訓練數據，

數據被加工為“動作思維”（Action-of-Thought, AoT）格式，方便模型理解和推理戰鬥動作。

接下來，CombatVLA 採用漸進式學習範式，逐步從視頻級到幀級優化動作生成。

最終，模型可嵌入動作執行機器人中，並通過自定義截斷輸出策略加速推理。

實驗表明，CombatVLA 在戰鬥理解準確率上超過現有大模型，在執行速度上也實現了 50 倍提升。

本文主要貢獻如下：

動作跟蹤器：開發了一套後臺自動記錄玩家動作的工具，大幅提升數據採集效率，為後續研究提供基礎。

戰鬥理解基準：基於動作跟蹤器建立了 CUBench 評測集，通過 VQA 任務測試模型的敵方識別和動作推理能力。

AoT 數據集：提出分三階段（視頻粗粒度 / 幀級細粒度 / 幀級截斷）構建 AoT 數據，助力模型漸進學習戰鬥技能。

CombatVLA 模型：結合自適應動作權重損失，經過漸進式訓練，在戰鬥理解基準上達到最優。

動作執行框架：將 CombatVLA 無縫嵌入 PC 端執行，實現基於截斷策略的 50 倍加速。

遊民星空

二.動作追蹤器和評測基準

團隊開發了一個動作跟蹤器，用於收集遊戲中的人類動作序列，為戰鬥理解模型提供了大量訓練數據。此外，團隊還基於該動作跟蹤器建立了一個全面的戰鬥理解 benchmark，涵蓋三個不同任務。

遊民星空

2.1 動作跟蹤器

由於標註動作的數據極其稀缺，團隊開發了一個高效收集視頻-動作對的輕量級 Python 工具，稱為動作跟蹤器。

該工具可以在後臺運行，監控鍵盤和鼠標操作以記錄用戶動作，並同步截取遊戲截圖。

2.2 評測基準

為了讓基於 VLM 或 VLA 的模型在 3D ARPG 遊戲中有良好表現，必須具備高維視覺感知和戰鬥語義理解能力。

因此，團隊基於三項核心能力（信息獲取、理解、推理）構建了戰鬥理解評測基準 ——CUBench，用於評估模型的戰鬥智商。

分別為：單圖判斷、多圖判斷和多圖多選，團隊彙總出 914 條數據（39.4% 為信息獲取，22.3% 為理解，38.3% 為推理），用於全面測試模型的戰鬥理解能力。

三.CombatVLA 模型

遊民星空

3.1 Action-of-Thought 數據集

受 CoT 啟發，團隊將動作跟蹤器採集的數據轉化為“動作思維”數據，如下圖所示。具體而言，模型的輸出以 JSON 格式表達，包含 [action]（如“按下空格鍵”）以及 [explanation]（用於描述當前敵人狀態、該動作的物理含義等）。

此外，還引入特殊標記⟨TRUNC⟩，用於實現輸出截斷，以提高推理速度。

遊民星空

3.2 三階段漸進式訓練

CombatVLA 的訓練過程遵循三級漸進式學習範式，使模型能夠逐步掌握戰鬥策略。具體分為：

（1）階段 1：視頻級粗粒度 AoT 微調。

該階段旨在讓模型初步理解戰鬥環境，數據以若干幀組成的視頻為單元，結合每幀對應的動作（時間並不精確對齊）。

這樣，模型需要根據整體視頻內容推測動作，有助於建立對戰鬥整體的初步認知，也便於後續穩定訓練。

（2）階段 2：幀級細粒度 AoT 微調。

在 3D 戰鬥遊戲中，模型需要具備秒級反應和快速決策能力。

此階段構建了動作與若干前序幀嚴格對齊的數據對（Frames-AoT），幫助模型理解動作前因後果及戰鬥邏輯。

例如，連續幾幀內敵方蓄力攻擊，則模型可能觸發閃避行為。

（3）階段 3：幀級截斷 AoT 微調。

大模型推理速度與輸出長度相關，為提升實時響應，團隊引入了⟨TRUNC⟩特殊標記，對 AoT 輸出內容進行截斷加速。

這樣既保留了 AoT 帶來的推理優勢，又顯著提升了模型推理速度。

整個訓練過程中，視覺編碼器參數凍結，僅微調語言模型參數。

在前兩階段中，AoT 的 [explanation] 置於 [action] 前面，便於模型推理出正確的動作；在第三階段，AoT 的 [explanation] 置於 [action] 後面，便於模型進行快速截斷，以實現推理加速。

3.3 動作執行框架

（1）基於 VLA 的智能體框架。

為讓視覺語言模型（VLM）能夠像人類一樣玩電腦遊戲，團隊開發了一個輕量級且高效的動作執行智能體。

在實際運行中，框架接收實時遊戲畫面（視頻）作為輸入，輸出則是具體的鍵鼠動作指令，實現對遊戲角色的自動控制。

團隊對實時遊戲畫面進行幀採樣，去除冗餘視覺信息，降低 VLM 推理負擔。模型推理採用截斷輸出策略，提取有效動作並執行。

（2）截斷推理與執行。

推理過程中，每生成一個新輸出 token 就進行監控，一旦檢測到特殊的⟨TRUNC⟩標記即停止，將之前的內容解析為動作。這大大加快了推理速度。

最後，利用“pyautogui”庫將動作轉換為 Python 代碼，自動完成鍵盤鼠標操作，讓角色完成戰鬥任務。

四.實驗結果

4.1 實現細節

（1）數據集。

團隊選用了“黑神話：悟空（BMW）”和“隻狼：暗影雙死（SSDT）”兩款遊戲作為實驗平臺。

標註人員根據難度將 13 個戰鬥任務分為四個等級：簡單、中等、困難和極難（如下表所示）。

團隊通過動作跟蹤器在“黑神話：悟空”的第 9 和第 10 任務中收集訓練數據。AoT 涵蓋 10 種動作，包括“wsad”移動、“shift”衝刺、“space”翻滾（隻狼中為格擋防禦）、“r”回血、“1”定身、鼠標左鍵普攻、鼠標右鍵長按重擊等，這些動作可以組合使用。

遊民星空

（2）基準測試。團隊用戰鬥理解基準（CUBench）、通用基準（如 MME、VideoMME、OCRBench）和任務級實際評測作為評測方式。

在任務級實戰測試中，動作執行框架直接操控 PC 進行戰鬥，每個基線模型對每個任務測試 10 次，以擊敗敵人為成功，否則為失敗，記錄成功率和平均推理時長。

值得注意的是，團隊的 CombatVLA 只在極難任務（9 和 10）上微調，測試時將簡單到困難難度的任務（1–8, 同一遊戲的不同任務）及其他遊戲的任務（11–13）作為零樣本（zero-shot）測試，以考察泛化能力。

4.2 定量實驗結果

遊民星空

（1）戰鬥理解評測。在 CUBench 上，CombatVLA 取得了 63.61 的最高平均分，比第二名 Gemini-2.0-flash 高出 5.71 分，較原始基座 Qwen2.5-VL-3B 高出 7.74 分，顯著提升了模型的戰鬥理解能力。

（2）通用基準評測。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基準上的表現依然與基座模型 Qwen2.5-VL-3B 相當，驗證了團隊方法的穩健性和泛化能力。

（3）任務級實際評測。團隊將 CombatVLA 接入動作執行代理，讓其像人類一樣自動完成戰鬥任務。如下圖所示，CombatVLA 不僅在簡單任務接近人類外，在中高難度任務上全面超越基線，並在零樣本任務上也展現出較強的泛化能力。

遊民星空

（4）推理延遲。團隊還統計了平均推理延遲和每次動作所需模型調用次數（見下表）。CombatVLA 平均推理延遲僅 1.8 秒，且只需一次模型調用，比 VARP 快約 50 倍，模型調用成本僅為其 1/10。

遊民星空

結束語

本文針對當前視覺語言模型（VLMs）或視覺-語言-動作模型（VLAs）在 3D 動作角色扮演遊戲中缺乏秒級響應、高分辨率感知和戰術推理能力的問題，提出了 CombatVLA 模型。

該模型規模為 3B，採用 AoT 序列訓練，並引入動作對齊損失和模態對比損失進行優化。

CombatVLA 可無縫集成到動作執行框架中，通過截斷 AoT 策略實現高效推理。

實驗結果表明，CombatVLA 在戰鬥理解基準上全面超越現有模型，同時具備良好的泛化能力，並在實時戰鬥場景中實現了 50 倍速度提升。

未來，團隊將進一步增強模型對遊戲場景的理解能力，拓展其在更多類型遊戲甚至物理世界中的應用。

原文網址 https://www.gamersky.com/news/202508/1981967.shtml

隻狼：暗影雙死

打黑神話&隻狼超越人類玩家 淘天集團釋出首個3D動作遊戲專用VLA模型

相關攻略文章

《隻狼：暗影雙死》動畫新預告公佈 預計26年播出

備受期待！FS社經典遊戲《隻狼：暗影雙死》動畫版2026年正式首映

《隻狼》+《黑神話》！國產單機《猿公劍》17分鐘試玩演示

《隻狼》遊戲攻略 打敗彌山院圓真的必備攻略與心得推薦

《隻狼》購買指南 隻狼價格與配置要求介紹

《隻狼》購買指南 隻狼價格與配置要求一覽

韓國單機ARPG《Project TAL》預告 黑神話隻狼合體

隻狼遊戲成就大全 隻狼pc版有什麼成就

還能這麼玩 美女高玩手腳同時玩兩個《隻狼》成功雙殺總BOSS

還能這麼玩？美女高玩手腳同時玩兩個《隻狼》成功雙殺總BOSS

IGN評《鬼武者 劍之道》 戰鬥足以媲美隻狼、對馬島

新《鬼武者》劍戟系統媲美《隻狼》《對馬島》

方塊遊戲發行商特賣開啟，《潛行者2》《隻狼》等遊戲領銜!

還原度超高！《隻狼》動畫預告片對比遊戲原作畫面

M站90分好評神作《隻狼：暗影雙死》迎5折史低！曾拿下TGA年度最佳遊戲

《隻狼》動畫開發商澄清：全篇手繪2D 完全不用AI

官方回應《隻狼》動畫AI製作質疑 斷然強調純全篇手繪

《隻狼：暗影雙死》製作全2D手繪動畫《隻狼：NO DEFEAT》

外媒盛讚《鬼武者 劍之道》 如同《隻狼》的續作

《隻狼暗影雙死》印度3A閃避摸頭MOD推薦

《隻狼》動畫或涉及生成式AI製作 網友發現疑點引爭議

IGN：新《鬼武者》劍戟系統媲美《隻狼》《對馬島》

外媒盛讚《鬼武者：劍之道》：宛如一部《隻狼》續作

曝《隻狼：暗影雙死》動畫預告PV 畫面精美！

《隻狼：暗影雙死》動畫預告首曝 暫未公佈上映日期

比隻狼還讓人上癮的動作遊戲排行榜

遊民商城今日超史低狂歡！《隻狼/生化2》折上折

即將動畫化？ 角川《隻狼》註冊動畫網站域名

隻狼推動招架系統落地！《光與影：33號遠徵隊》主創談系統設計初衷

國外主播盛讚《明末》：隻狼和血緣的結合體！

知名魂學家大讚《明末淵虛之羽》：《隻狼暗影雙死》和《血源詛咒》生出的小孩

隻狼暗影雙死什麼時候出 公測上線時間預告

隻狼暗影雙死官網在哪下載 最新官方下載安裝地址

艾爾登法環與隻狼選哪個

萬代神作Steam夏促折扣推薦：《艾爾登法環》《隻狼》全都史低！

《隻狼》推出六年 近七成玩家未擊敗劍聖葦名一心

打黑神話&隻狼超越人類玩家淘天集團釋出首個3D動作遊戲專用VLA模型

《隻狼：暗影雙死》動畫新預告公佈預計26年播出

《隻狼》遊戲攻略打敗彌山院圓真的必備攻略與心得推薦

《隻狼》購買指南隻狼價格與配置要求介紹

《隻狼》購買指南隻狼價格與配置要求一覽

韓國單機ARPG《Project TAL》預告黑神話隻狼合體

隻狼遊戲成就大全隻狼pc版有什麼成就

還能這麼玩美女高玩手腳同時玩兩個《隻狼》成功雙殺總BOSS

IGN評《鬼武者劍之道》戰鬥足以媲美隻狼、對馬島

官方回應《隻狼》動畫AI製作質疑斷然強調純全篇手繪

外媒盛讚《鬼武者劍之道》如同《隻狼》的續作

《隻狼》動畫或涉及生成式AI製作網友發現疑點引爭議

《隻狼：暗影雙死》動畫預告首曝暫未公佈上映日期

即將動畫化？角川《隻狼》註冊動畫網站域名

隻狼暗影雙死什麼時候出公測上線時間預告

隻狼暗影雙死官網在哪下載最新官方下載安裝地址

《隻狼》推出六年近七成玩家未擊敗劍聖葦名一心