http://www.kblhh.cn 2026-03-04 10:50 來源:中國工業(yè)新聞網(wǎng)
近日,具身智能領(lǐng)域的真實(shí)數(shù)據(jù)采集技術(shù)迎來重要突破。螞蟻數(shù)科天璣實(shí)驗(yàn)室團(tuán)隊(duì)推出了一款名為AoE(Always-OnEgocentric)的持續(xù)性第一人稱視頻采集框架,以低成本、輕量化的方式,為具身智能的數(shù)據(jù)采集提供了全新解決方案。只需一部手機(jī)和一個(gè)成本低于20美元的頸掛式支架,即可替代以往動輒數(shù)萬美元的專業(yè)采集設(shè)備,有效化解了具身數(shù)據(jù)采集成本高昂、規(guī)模化難的行業(yè)難題。相關(guān)技術(shù)論文已在Arxiv平臺發(fā)布。
隨著基礎(chǔ)模型的持續(xù)演進(jìn),模型的泛化能力與跨場景適應(yīng)性愈加依賴于真實(shí)世界交互數(shù)據(jù)的規(guī)模、質(zhì)量與覆蓋廣度。AoE的核心創(chuàng)新在于將“人+手機(jī)”轉(zhuǎn)化為可持續(xù)運(yùn)行的輕量數(shù)據(jù)節(jié)點(diǎn)。其載體是一款符合人體工學(xué)的頸掛式支架,通過機(jī)械夾具或磁吸等方式將手機(jī)穩(wěn)固于胸前,持續(xù)采集貼近用戶視角的第一人稱畫面,從而完整記錄人類在自然交互過程中的操作細(xì)節(jié)。
在技術(shù)表現(xiàn)上,AoE方案實(shí)現(xiàn)了毫米級的軌跡跟蹤精度與超過90%的手部關(guān)鍵點(diǎn)識別準(zhǔn)確率,并支持?jǐn)?shù)千臺設(shè)備并行采集與云端自動化處理。以宇樹G1機(jī)器人執(zhí)行關(guān)電腦任務(wù)為例,僅依靠50條遙操作數(shù)據(jù)時(shí)成功率為45%,引入200條AoE采集的真實(shí)數(shù)據(jù)后,成功率提升至95%。在數(shù)據(jù)匱乏的情況下,AoE發(fā)揮了關(guān)鍵的“啟動學(xué)習(xí)”作用,有效支撐模型從零開始構(gòu)建基礎(chǔ)能力。
低成本采集僅為起點(diǎn)。研究團(tuán)隊(duì)進(jìn)一步攻克了“長視頻轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)”的技術(shù)難關(guān)。該方案依托端側(cè)輕量級視覺模型,自動識別手物交互行為并觸發(fā)錄制;隨后借助大語言-視覺模型,將連續(xù)視頻切分為帶有語義標(biāo)簽的原子動作片段;最終通過云端自動標(biāo)注、清洗與過濾,將原始視頻轉(zhuǎn)化為高質(zhì)量、標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)集。
此外,AoE構(gòu)建了一套完整的端云協(xié)同體系,實(shí)現(xiàn)了從數(shù)據(jù)采集、預(yù)處理、清洗、篩選到調(diào)度的全流程自動化,有效降低人工介入的同時(shí),大幅提升了整體數(shù)據(jù)處理的吞吐量與效率。