本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究,原文標題:《谷歌Gemini Robotics,物理智能覬覦人形機器人安卓系統》,題圖來自:AI生成
本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究,原文標題:《谷歌Gemini Robotics,物理智能覬覦人形機器人安卓系統》,題圖來自:AI生成
大模型正從語言、視覺向行動延伸。人形機器人還會現場寫代碼,出手解決問題。
谷歌DeepMind發布了兩款新的具身智能模型,Gemini Robotics-ER與Gemini Robotics,正式宣告對物理智能的探索,從以往的RT模型系列,切換到了Gemini模型系列。用該公司高級研究科學家Ted Xiao的話說,這是前沿大模型與機器人的第一次接觸。
無論是OpenAI、Anthropic,還是Meta,還都沒有做到這一步。即使馬斯克如此喜歡夸下海口,也還沒讓特斯拉的擎天柱用上xAI最新的Grok3。國內的DeepSeek或者Qwen,都沒有直接讓前沿開源大模型端到端地驅動人形機器人的記錄。
遇到麻煩自己寫代碼
谷歌DeepMind先訓練出具身推理模型Gemini Robotics-ER,基于Gemini 2.0 Flash模型,將多模態模型的語義理解能力擴展至物理幾何(3D結構、物體位姿)、動態場景(運動軌跡、接觸效應)等等,讓身處復雜而動態的現實世界的具身智能,強化了推理能力。從中蒸餾出物理智能,就是Gemini Robotics,它能對現實世界做出反應。
比如,如果一個機器人遇到一個咖啡杯,Gemini Robotics可以識別出來,“指向”可以與自己互動的部分(比如把手),并識別出在拿起它時需要避開的物體。
機器人還會自己寫代碼去解決遇到的新問題(Zero-Shot Via Code Generation),就是個活生生的智能體。具體來說,就是模型接收輸入,包括系統提示、機器人API的描述、任務指令以及環境的實時圖像,然后基于這些輸入,模型分析場景,理解任務需求,并生成與機器人API交互的代碼。
這一過程是動態的,模型會根據環境變化與接觸后的反饋,來調整代碼,確保任務順利完成。
(概覽圖:感知和控制API,以及在任務執行過程中對智能體的協調和管理。該系統用于零樣本控制。)
不過,這項技術還處于早期階段,面對折疊衣服這樣的精細任務,谷歌發現,還是通過少量人類示范的上下文學習(Few-shot in-context learning),成功率要更高一點。
或許這就是從RT系列模型轉向Gemini系列模型的意義之一。以后,可能誰家的基礎模型編碼能力更強,誰家的機器人就是更靈巧的智能體。
但是,完成所有這些現場智能體推理和動作,需要強大的本地算力,目前仍然是個大問題。Gemini Robotics的視覺語言動作模型主干(VLA Backbone)就放到了云端,其物理世界的理解能力適用于不同形態的機器人,可以通過日常對話與人類親切交互。
Gemini Robotics還有一個動作解碼器,負責將VLA主干的輸出轉化為低級控制信號,部署于本地,可以完成精細動作。
人形機器人的安卓
谷歌把Gemini Robotics用于自己投資的Apptronik人形機器人開發,還開放給受信任的機器人企業使用,包括德國的Agile Robots,法國的Enchanted Tools,美國的Agility Robotics,以及被韓國現代收購的Boston Dynamics。
看起來,谷歌想做出一個人形機器人的安卓系統,初步實現了適配不同機器人。
巨頭們毫不懷疑,未來,人形機器人的數量將比智能手機還多。它正在走向通用化,關鍵就在于通用的物理智能。谷歌、特斯拉、Meta與OpenAI等巨頭,對此充滿野心。
特斯拉的擎天柱是垂直自研的方式。Meta已經展露出類似的企圖。而OpenAI在自己投資的Physical Intelligence與FigureAI紛紛垂直自研后,親自下場的可能性同樣大增。
上個月,Meta旗下的Reality Labs新設立了人形機器人部門。Reality Labs最為知名的就是它的元宇宙、可穿戴設備Quest,以及AI眼鏡,累計虧損超600億美元。Meta首席技術官Andrew Bosworth說,公司砸錢搞出來的核心技術,可用于開發機器人,通過Llama覆蓋消費者。
去年底,OpenAI在公司內部重啟了人形機器人團隊,并從Meta處挖來了Orion眼鏡負責人,今年已經公開開始招兵買馬,點名要那些精通傳感器與系統集成的硬件工程師,“專注于解鎖通用機器人技術,并在動態的現實環境中推動AGI級智能”。
讓前沿模型與機器人接觸,可以讓機器人從多模態環境的經驗中汲取智能,也可以在不斷嘗試中摸索數字世界的智能如何觸及物理世界。谷歌CEO桑達爾·皮查伊(Sundar Pichai)介紹新發布的兩個模型時稱,機器人技術是將人工智能的進步轉化為現實世界的有益試驗場。
難以做題評估
谷歌承認,Gemini Robotics對具身智能的探索,仍然處于非常早期的階段。谷歌在官方介紹中,放出了制作精美的視頻。但隨后,團隊成員通過自己的X賬號,放出了幾段未經刪節的視頻。
如何評估具身智能模型實際水平,是該團隊在發布Gemini Robotics前,一直思考的問題。在去年底的一次演講中,團隊提出三大瓶頸:機器人擴展定律,機器人上下文帶寬,以及可擴展的評估體系。這是具身智能當前的短板,還將影響未來幾年的研究方向。其中,評估體系的發展程度最低。
機器人擴展定律的核心,聽起來與大模型擴展定律類似,數據越多,規模越大,理應效果越好。但是,谷歌DeepMind團隊發現,在機器人領域,目前它并不每次都成立。
面對物理世界,擴展定律更像一門藝術,而不是科學(盡管本來也并非真正的物理定律)。機器人數據的質量、分布、多樣性和覆蓋范圍,比數據數量本身更重要,研究者需要找到機器人擴展定律的那條曲線,預測投入和產出的關系。在機器人領域,擴展往往意味著比大型語言模型更高的成本,尤其是后者的邊際效應已經開始降低。
還有“上下文帶寬”問題,這是指機器人能接收和理解的動作指令的信息量。多模態或世界模型存在豐富細節與物理維度,作為大模型,已經擁有越來越大的上下文窗口,但是機器人動作相關的低層次指令往往相對簡單,接受的token數量相對較少、模態豐富程度較低。如何在這種低帶寬的輸入方式下執行更精細的動作,或拓展其上下文窗口,是具身智能亟待解決的瓶頸之一。
最大的問題是驗證。這次,谷歌DeepMind團隊提出了ERQA基準,即包含400道多選的視覺問答(VQA)風格問題,涵蓋包括空間推理、軌跡推理、動作推理、狀態估計、指向、多視角推理和任務推理。語言模型可以用考試題測試,但機器人還得在真實世界里跑來跑去,才能試出它的真實性能;受限環境下的真機測試,在開放環境下不一定管用。
狀況會在機器人越來越通用后變得更為復雜,因為評估它們的能力的難度與成本也隨之暴漲。很多測試費時費力,還不夠全面,難以覆蓋極端案例。如果評估系統跟不上,機器人再聰明,也沒法證明自己行不行。
一種方法是改進模擬環境,讓它更接近現實,甚至期待用“世界模型”去代替部分實測。但是,這意味著后者可能必須學會建模出比機器人基礎模型更多的信息。
我們周圍會充斥著大量精心編輯的書面測評與視頻演示,但現實世界的表現,仍將是具身智能領域的黃金標準。
本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究
支持一下 ??修改