http://www.kblhh.cn 2025-12-26 15:25 來源:中國(guó)電子報(bào)
12 月 18 日,北京人形機(jī)器人創(chuàng)新中心正式開源國(guó)內(nèi)首個(gè)且唯一通過具身智能國(guó)標(biāo)測(cè)試的具身VLA大模型 XR-1,以及配套的數(shù)據(jù)基礎(chǔ)RoboMIND 2.0、ArtVIP 最新版。基于上述開源成果,能夠推動(dòng)具身智能行業(yè)追尋最本質(zhì)需求,讓機(jī)器人真正在各類應(yīng)用場(chǎng)景下能干活并且會(huì)干活,推動(dòng)國(guó)內(nèi)具身智能行業(yè)邁向“全自主、更好用”的新階段。
聚焦讓人形機(jī)器人“能干活、會(huì)干活”的核心訴求,北京人形打造了通用機(jī)器人平臺(tái)“具身天工”、通用具身智能平臺(tái)“慧思開物”。圍繞“具身天工”平臺(tái),北京人形已發(fā)布具身天工2.0、天軼2.0等多類型通用本體,為人形機(jī)器人干活奠定物理本體基礎(chǔ)。而具身大腦和小腦的協(xié)同是人形機(jī)器人干活的另一前提,目前圍繞“慧思開物”,北京人形已開源WoW(我悟)世界模型和Pelican-VL(天鶘)等具身大腦相關(guān)成果。
本次開源的系列內(nèi)容,是面向具身小腦能力的VLA模型XR-1,以及為XR-1等模型提供數(shù)據(jù)訓(xùn)練支持的RoboMIND 2.0和ArtVIP。
XR-1 ——讓機(jī)器人擁有“本能”,跨過“看到與做到”的鴻溝
當(dāng)前,具身智能行業(yè)面臨著一個(gè)核心痛點(diǎn):AI 技術(shù)雖能實(shí)現(xiàn)文本創(chuàng)作、視頻生成等虛擬場(chǎng)景應(yīng)用,但機(jī)器人在物理世界中往往難以完成 “拿東西”、“遞東西” 等基礎(chǔ)任務(wù)。這背后是 “視覺感知” 與 “動(dòng)作執(zhí)行” 的割裂。
機(jī)器人雖能識(shí)別物體,卻只能依賴預(yù)設(shè)指令執(zhí)行動(dòng)作,如同 “只會(huì)死記硬背的笨學(xué)生”,一旦環(huán)境出現(xiàn)微小變化便會(huì)失效。為啃下這塊技術(shù)硬骨頭,北京人形聚焦核心技術(shù)攻堅(jiān),打造出具備 “知行合一”能力的XR-1具身小腦大模型。
在今年8月的WRC世界機(jī)器人大會(huì)上,北京人形正式發(fā)布了跨本體VLA模型 XR-1,它具備多場(chǎng)景、多本體、多任務(wù)特性,并且還擁有高泛化性等優(yōu)勢(shì)特點(diǎn)。
背后的技術(shù)原理在于,XR-1具備跨數(shù)據(jù)源學(xué)習(xí)、跨模態(tài)對(duì)齊、跨本體控制三大核心支柱能力。首先,通過跨數(shù)據(jù)源學(xué)習(xí)讓機(jī)器人能夠利用海量人類視頻進(jìn)行訓(xùn)練,降低訓(xùn)練成本提升訓(xùn)練效率;其次,依靠跨模態(tài)對(duì)齊能夠打破視覺和動(dòng)作的隔閡,讓機(jī)器人做到真正的知行合一;最后,借助跨本體控制可以讓XR-1快速匹配不同類型、不同品牌的機(jī)器人本體。
其中,北京人形首創(chuàng)的UVMC(多模態(tài)視動(dòng)統(tǒng)一表征)技術(shù)是關(guān)鍵,通過它,能夠搭建起視覺與動(dòng)作的映射橋梁,讓機(jī)器人將看到的畫面瞬間轉(zhuǎn)化為身體的本能反應(yīng),像人類條件反射般自然做出正確的應(yīng)對(duì)動(dòng)作。例如:機(jī)器人在執(zhí)行倒水任務(wù)中看到正在倒水的杯子被拿走了,就本能地停止倒水,當(dāng)杯口被遮住,就自然地?fù)荛_遮住的人手,繼續(xù)倒。 這一關(guān)鍵的技術(shù)創(chuàng)新讓機(jī)器人具備了“本能反應(yīng)”,可以游刃有余地應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)世界,以及工作場(chǎng)景中的突發(fā)情況,從而真正做到全自主完成工作任務(wù)。
XR-1的多構(gòu)型預(yù)訓(xùn)練能力,使具身天工2.0具備全身多關(guān)節(jié)絲滑擬人控制,可實(shí)現(xiàn)大幅彎腰下蹲并精準(zhǔn)抓取隨機(jī)擺放的物料箱,完成復(fù)雜倒料任務(wù);物料分揀任務(wù)需要機(jī)器人具備精準(zhǔn)識(shí)別和高動(dòng)態(tài)抓取零件以及準(zhǔn)確分類的能力,基于XR-1框架微調(diào)后的輕量級(jí)VLA模型,使得機(jī)器人具備快速精確物料分揀能力。
在業(yè)內(nèi)首個(gè)連續(xù)開關(guān)穿行5扇門的任務(wù)場(chǎng)景中,機(jī)器人面對(duì)綠色柵欄門時(shí),能主動(dòng)展開雙臂適配結(jié)構(gòu)并協(xié)同底盤通過;遇到藍(lán)色下壓把手門,便自然下壓推門;穿越紅色窄門時(shí)動(dòng)態(tài)收肩調(diào)姿;推開黑色重門時(shí)穩(wěn)力同步前行;識(shí)別推拉門后則沿軌精準(zhǔn)滑動(dòng)。關(guān)門階段更可反向切換推拉策略,全程無需人工干預(yù)。這一能力源于XR-1模型對(duì)場(chǎng)景的實(shí)時(shí)理解與動(dòng)作預(yù)測(cè),讓天軼2.0真正具備了在復(fù)雜環(huán)境中“看得懂、做得對(duì)、走得穩(wěn)”的全自主操作本能。
此外,XR-1 也首創(chuàng)了結(jié)合虛實(shí)數(shù)據(jù)的三階段訓(xùn)練范式:
第一階段:輸入積累超百萬級(jí)的虛實(shí)多本體數(shù)據(jù)、人類視頻數(shù)據(jù),由XR-1 把這些復(fù)雜的畫面和動(dòng)作壓縮成一個(gè)包含許多離散代碼的“字典”,便于機(jī)器人后續(xù)隨時(shí)調(diào)用需要的“動(dòng)作代碼”;第二階段:用大規(guī)模的跨本體機(jī)器人數(shù)據(jù)來預(yù)訓(xùn)練XR-1,讓它懂得物理世界的基本規(guī)律,比如“松手東西會(huì)掉”、“推門門會(huì)開”;第三階段:針對(duì)不同的任務(wù)場(chǎng)景(例如:分揀、搬箱子、疊衣服等)用少量的特定數(shù)據(jù)進(jìn)行微調(diào);最終讓機(jī)器人從一個(gè)“學(xué)富五車”的理論大師,蛻變?yōu)橐粋€(gè)“心靈手巧”的干活專家。
剛剛過去的11月,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院基于編制中的國(guó)家標(biāo)準(zhǔn)《人工智能具身智能大模型系統(tǒng)技術(shù)要求》正式發(fā)布了“求索”具身智能測(cè)評(píng)基準(zhǔn)EIBench,同時(shí)邀請(qǐng)了多家國(guó)內(nèi)頂尖具身智能團(tuán)隊(duì)參與了首次測(cè)評(píng)。在本次測(cè)評(píng)中,北京人形機(jī)器人創(chuàng)新中心的XR-1模型成為了唯一一個(gè)通過測(cè)試的VLA模型,獲得CESI-CTC-20251103具身智能測(cè)試證書,也成為了全國(guó)首個(gè)獲此殊榮的VLA模型。
RoboMIND 2.0&ArtVIP ——為“機(jī)器人干活”鑄造最牢靠的數(shù)據(jù)底座
圍繞讓機(jī)器人的應(yīng)用落地,北京人形并非只有單一技術(shù)能力的開源,而是構(gòu)建 “XR-1+RoboMIND 2.0+ArtVIP” 全鏈條開源生態(tài)。
為解決具身智能優(yōu)質(zhì)數(shù)據(jù)的稀缺問題,北京人形在2024年12月推出了大規(guī)模多構(gòu)型智能機(jī)器人數(shù)據(jù)集和Benchmark——RoboMIND,發(fā)布后吸引全球眾多頂尖實(shí)驗(yàn)室與開發(fā)者接入使用,累計(jì)下載量已超15萬次。在RoboMIND 1.0階段,包含了10+萬條機(jī)器人操作軌跡,覆蓋4種機(jī)器人本體,涉及5大場(chǎng)景下的479個(gè)任務(wù)、38種技能,并且引入了ACT、DP、OpenVLA、RDT 4種模型驗(yàn)證。
此次在直播中公布的RoboMIND 2.0則在此前版本基礎(chǔ)上進(jìn)行了全面的升級(jí)優(yōu)化,首先機(jī)器人操作軌跡數(shù)據(jù)增加到了30+萬條、擴(kuò)展了工業(yè)零件分揀、流水線設(shè)備、物理化學(xué)實(shí)驗(yàn)室、家庭廚房、家電交互等在內(nèi)的11個(gè)涵蓋工業(yè)、商用、家庭的場(chǎng)景,機(jī)器人本體、任務(wù)、技能數(shù)量也分別有了2倍以上的提升。更重要的是,在RoboMIND 2.0中,增加了1.2+萬條帶觸覺操作數(shù)據(jù)支持訓(xùn)練VTLA、MLA模型、還可用于訓(xùn)練機(jī)器人大小腦模型, 支持不同機(jī)器人實(shí)現(xiàn)長(zhǎng)程協(xié)作任務(wù),并開源了基于ArtVIP的大量仿真數(shù)據(jù),并且支持仿真數(shù)據(jù)的批量評(píng)測(cè)。
作為 XR-1 的數(shù)據(jù)底座,RoboMIND 2.0提供了海量虛實(shí)結(jié)合多模態(tài)訓(xùn)練數(shù)據(jù)支撐,降低了模型訓(xùn)練的門檻。而作為北京人形最新發(fā)布的高保真鉸接物體數(shù)字資產(chǎn)數(shù)據(jù)集ArtVIP則持續(xù)輸出開源成果,目前其高保真數(shù)字孿生鉸接物品數(shù)量正持續(xù)增加至超1000個(gè),覆蓋6大場(chǎng)景類型,實(shí)現(xiàn)了全場(chǎng)景物品可交互。此次ArtVIP也將大量全新的仿真數(shù)據(jù)資產(chǎn)在RoboMIND2.0上進(jìn)行了開源。
根據(jù)在ACT、DP、XR-1等全球領(lǐng)先的VLA模型上的初步測(cè)試,在機(jī)器人訓(xùn)練中,通過提升ArtVIP的仿真數(shù)據(jù)比例,能夠有效提升機(jī)器人在不同任務(wù)執(zhí)行中的成功率。例如在XR-1模型中,通過將真機(jī)數(shù)據(jù)與仿真數(shù)據(jù)比例從1:0提升到1:5后,4個(gè)不同任務(wù)的成功率平均能夠提升超過25%。
目前,北京人形已經(jīng)與多家合作伙伴達(dá)成合作,將人形機(jī)器人部署到了各行各業(yè)中,例如“具身天工2.0”、“天軼2.0”目前已進(jìn)入福田康明斯發(fā)動(dòng)機(jī)工廠,在“無人生產(chǎn)線”上自主完成料箱取放、搬運(yùn),并適應(yīng)不同貨位高度與多種料箱種類,完成了從實(shí)驗(yàn)室到真實(shí)生產(chǎn)的“最后一公里”驗(yàn)證。此外,北京人形還與中國(guó)電科院合作落地了人形機(jī)器人進(jìn)行高危電力巡檢,以及與李寧運(yùn)動(dòng)科學(xué)實(shí)驗(yàn)室合作通過人形機(jī)器人進(jìn)行長(zhǎng)時(shí)間高強(qiáng)度的跑鞋測(cè)試。近期北京人形還與拜爾簽訂合作協(xié)議,共同推動(dòng)人形機(jī)器人及具身智能技術(shù)在固體藥品制造生產(chǎn)、包裝、質(zhì)量控制、倉(cāng)儲(chǔ)及物流等場(chǎng)景的技術(shù)開發(fā)。
從深耕核心技術(shù)到構(gòu)建開源生態(tài),北京人形的每一步都圍繞 “打造全自主、更好用的機(jī)器人” 這一核心目標(biāo),讓機(jī)器人“能干活、會(huì)干活”。XR-1、RoboMIND 2.0、ArtVIP三者形成的協(xié)同效應(yīng),從模型、數(shù)據(jù)到工具實(shí)現(xiàn)了全方位的能力開放,將讓更多企業(yè)、開發(fā)者無需從零開始攻克基礎(chǔ)技術(shù),而是聚焦場(chǎng)景創(chuàng)新與應(yīng)用落地,加速機(jī)器人在工業(yè)制造、3D作業(yè)、商用服務(wù)、家庭服務(wù)等領(lǐng)域的規(guī)模化應(yīng)用,讓機(jī)器人真正邁向全自主、更好用的新階段。