99视频观看,一级欧美一级日韩,国产一级做a,高清av网站,精品黄色在线观看,中文在线a天堂,亚洲视频区

×

掃碼關(guān)注微信公眾號

>

挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情

卓世科技具身智能大腦Tri-Core：從“端到端”到“三核協(xié)同”的架構(gòu)演進(jìn)

2026/3/17 11:18:50

在具身智能的落地進(jìn)程中，行業(yè)長期受困于泛化能力與控制精度的權(quán)衡。傳統(tǒng)的控制論方法精度高但缺乏語義理解，而基于大模型的端到端方案雖然具備了一定的效果，卻往往受限于推理延遲，難以應(yīng)對物理世界的瞬態(tài)變化。卓世科技構(gòu)建了行業(yè)首個集成直覺（System 1）、邏輯（System 2）、共情（System 3）的“三核協(xié)同”具身大腦解決方案Tri-Core。本文將從架構(gòu)設(shè)計(jì)、核心算法實(shí)現(xiàn)及數(shù)據(jù)訓(xùn)練策略三個維度進(jìn)行深度解析。

一、架構(gòu)總覽：三核閉環(huán)

相比于目前主流的單一VLA（Vision-Language-Action）模型架構(gòu)，我們采用了類腦的模塊化設(shè)計(jì)，受認(rèn)知心理學(xué)中雙系統(tǒng)理論的啟發(fā)，并構(gòu)建了以下三核協(xié)同的層次化的系統(tǒng)：

●System 1 (小腦): 基于VLA的反應(yīng)式控制，負(fù)責(zé)實(shí)時生成高頻率動作。

●System 2 (大腦): 基于VLM的長程規(guī)劃，負(fù)責(zé)因果推演和復(fù)雜任務(wù)拆解。

●System 3 (共情系統(tǒng)): 負(fù)責(zé)情感計(jì)算與倫理安全，賦予系統(tǒng)“擬人化”的思考。

這種架構(gòu)的核心優(yōu)勢在于異步計(jì)算，即System 1在邊緣側(cè)高頻運(yùn)行以保證實(shí)時性，而System 2在云端或高算力單元低頻運(yùn)行以保證邏輯正確性以及深度推理。

二、System 1：基于流匹配的VLA模型

System 1的定位是“小腦”，負(fù)責(zé)動作的執(zhí)行，其核心指標(biāo)是響應(yīng)速度與魯棒性。

該VLA模型采用了Mixture-of-Transformers (MoT) 架構(gòu)，將視覺語言模型（VLM）和動作專家（Action Expert）統(tǒng)一建模。

動作專家：早期的VLA模型（如 RT-2）通常采用離散化的Token進(jìn)行自回歸生成。然而，這種方式在處理連續(xù)的人型臂動作時，往往會出現(xiàn)動作不平滑的問題，且推理速度較慢。我們在 System 1 的動作專家中引入了 Flow Matching（流匹配）生成范式。不同于擴(kuò)散模型需要繁瑣的去噪步數(shù)，F(xiàn)low Matching 通過學(xué)習(xí)從高斯噪聲到目標(biāo)動作分布的向量場，能夠以更少的推理步數(shù)生成高質(zhì)量的連續(xù)動作軌跡。

視覺專家：System 1的小尺寸VLM由System 2的大尺寸VLM通過知識蒸餾獲得。

訓(xùn)練策略：為了使得VLA模型獲得足夠的泛化能力，我們進(jìn)行了2階段的訓(xùn)練

（1）Stage 1: 跨具身預(yù)訓(xùn)練。這一階段使用開源具身數(shù)據(jù)集，包含多種形態(tài)機(jī)器人的數(shù)據(jù)。雖然這些數(shù)據(jù)對應(yīng)的動作空間不一致，但能極大提升模型的泛化認(rèn)知能力。

（2）Stage 2: 單一具身后訓(xùn)練。這一階段使用目標(biāo)機(jī)型的任務(wù)導(dǎo)向數(shù)據(jù)，針對特定的垂直場景進(jìn)行微調(diào)，進(jìn)一步強(qiáng)化模型在目標(biāo)機(jī)型上的穩(wěn)定性和準(zhǔn)確性。

三、System 2：具備物理世界能力的邏輯規(guī)劃器

System 2是基于璇璣玉衡大模型構(gòu)建的“大腦皮層”，是一個大尺寸的視覺語言模型（VLM）。它的核心任務(wù)是將用戶的自然語言指令以及捕捉的視覺圖像轉(zhuǎn)化為System 1可執(zhí)行的原子動作序列。

為了使其具備物理世界能力，我們在通用多模態(tài)理解、具身規(guī)劃、空間感知等數(shù)據(jù)集上進(jìn)行多階段微調(diào)。

此外，為了提升“大腦”的思考能力，我們并未直接讓System 2輸出指令，而是強(qiáng)制其進(jìn)行隱空間模擬。在執(zhí)行不可逆操作（如“打碎雞蛋”）前，System 2會基于物理常識預(yù)測后果。

例如，面對“清理桌面”的指令，System 2 會構(gòu)建如下思維鏈：

識別物體(水杯, 書) -> 判定物理約束(書在水杯下) -> 預(yù)測風(fēng)險(xiǎn)(直接抽書導(dǎo)致水杯傾倒) -> 生成修正計(jì)劃(先移開水杯，再拿書)。

這種具備物理一致性的推理能力，是目前通用大模型所不具備的。

四、System 3：情感中樞

這是卓世科技架構(gòu)中獨(dú)特的一環(huán)。在傳統(tǒng)的機(jī)器人學(xué)中，人機(jī)交互通常是基于規(guī)則的硬編碼。而我們將其提升到了模型層面。

System 3是一個并行的輕量級多模態(tài)模型，負(fù)責(zé)多模態(tài)情感感知，它實(shí)時處理視覺（面部微表情、姿態(tài)）和音頻（語調(diào)、語速）信號。

通過對這些非語義信息的分析，系統(tǒng)能夠計(jì)算用戶的情感狀態(tài)向量，如[焦慮, 放松, 憤怒, 快樂]。從而影響System 2的推理決策。

此外，System 3還充當(dāng)了倫理安全過濾器的作用，它擁有比System 2更高的中斷權(quán)限。一旦 System 2 的規(guī)劃路徑觸犯了預(yù)設(shè)的倫理邊界（如檢測到路徑上存在生物體且存在碰撞風(fēng)險(xiǎn)），System 3 會直接在底層熔斷控制信號，確保絕對安全。

五、Benchmark

在具身行業(yè)權(quán)威基準(zhǔn)測試SimplerEnv和LIBERO中，卓世具身大腦Tri-Core均取得了SOTA水平，超過了π0、英偉達(dá)GROOT N1.5等前沿模型。

基準(zhǔn)測試介紹：SimplerEnv 是一個專為評估機(jī)器人真機(jī)策略而設(shè)計(jì)的閉環(huán)仿真環(huán)境，旨在解決“Sim-to-Real（仿真到真機(jī)）”和“Real-to-Sim（真機(jī)到仿真）”之間的鴻溝。LIBERO是專為終身學(xué)習(xí)和知識遷移而設(shè)計(jì)的基準(zhǔn)測試集。

六、結(jié)語

卓世科技具身智能大腦的研發(fā)初衷，是試圖回答一個核心問題：如何讓AI不僅具備“智能”，更具備“本能”與“人性”。

通過System 1的極致快思考、System 2的深度慢思考以及System 3的價值對齊，我們正在重新定義智能體與物理世界的交互方式。這不僅僅是算法的創(chuàng)新，更是系統(tǒng)工程的突破。

探索永無止境。未來，卓世科技將進(jìn)一步加快具身大腦的迭代進(jìn)程，堅(jiān)定不移地加大對 VLA 模型與世界模型的研發(fā)投入。我們將持續(xù)深化模型對復(fù)雜物理規(guī)律的理解與泛化，引領(lǐng)具身智能邁向更加通用、智能與安全的新紀(jì)元。

卓世科技

相關(guān)閱讀

推薦閱讀

快訊更多

專題更多