爱看影院,天美传媒97a∨,天堂av,国产精品免费大片

谷歌Gemini Robotics,想做人形機器人的安卓系統?
2025-03-14 09:00

谷歌Gemini Robotics,想做人形機器人的安卓系統?

本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究,原文標題:《谷歌Gemini Robotics,物理智能覬覦人形機器人安卓系統》,題圖來自:AI生成

文章摘要
谷歌探索人形機器人的通用物理智能系統。

? ?? 谷歌推出Gemini Robotics模型,著眼于機器人具身智能。

? ??? 機器人可動態生成代碼,提升零樣本任務應對能力。

? ?? 模型適應多種機器人,并開放給多家企業使用。

大模型正從語言、視覺向行動延伸。人形機器人還會現場寫代碼,出手解決問題。


谷歌DeepMind發布了兩款新的具身智能模型,Gemini Robotics-ER與Gemini Robotics,正式宣告對物理智能的探索,從以往的RT模型系列,切換到了Gemini模型系列。用該公司高級研究科學家Ted Xiao的話說,這是前沿大模型與機器人的第一次接觸。


無論是OpenAI、Anthropic,還是Meta,還都沒有做到這一步。即使馬斯克如此喜歡夸下海口,也還沒讓特斯拉的擎天柱用上xAI最新的Grok3。國內的DeepSeek或者Qwen,都沒有直接讓前沿開源大模型端到端地驅動人形機器人的記錄。


遇到麻煩自己寫代碼


谷歌DeepMind先訓練出具身推理模型Gemini Robotics-ER,基于Gemini 2.0 Flash模型,將多模態模型的語義理解能力擴展至物理幾何(3D結構、物體位姿)、動態場景(運動軌跡、接觸效應)等等,讓身處復雜而動態的現實世界的具身智能,強化了推理能力。從中蒸餾出物理智能,就是Gemini Robotics,它能對現實世界做出反應。


比如,如果一個機器人遇到一個咖啡杯,Gemini Robotics可以識別出來,“指向”可以與自己互動的部分(比如把手),并識別出在拿起它時需要避開的物體。


機器人還會自己寫代碼去解決遇到的新問題(Zero-Shot Via Code Generation),就是個活生生的智能體。具體來說,就是模型接收輸入,包括系統提示、機器人API的描述、任務指令以及環境的實時圖像,然后基于這些輸入,模型分析場景,理解任務需求,并生成與機器人API交互的代碼。


這一過程是動態的,模型會根據環境變化與接觸后的反饋,來調整代碼,確保任務順利完成


(概覽圖:感知和控制API,以及在任務執行過程中對智能體的協調和管理。該系統用于零樣本控制。)


不過,這項技術還處于早期階段,面對折疊衣服這樣的精細任務,谷歌發現,還是通過少量人類示范的上下文學習(Few-shot in-context learning),成功率要更高一點。


或許這就是從RT系列模型轉向Gemini系列模型的意義之一。以后,可能誰家的基礎模型編碼能力更強,誰家的機器人就是更靈巧的智能體。


但是,完成所有這些現場智能體推理和動作,需要強大的本地算力,目前仍然是個大問題。Gemini Robotics的視覺語言動作模型主干(VLA Backbone)就放到了云端,其物理世界的理解能力適用于不同形態的機器人,可以通過日常對話與人類親切交互。


Gemini Robotics還有一個動作解碼器,負責將VLA主干的輸出轉化為低級控制信號,部署于本地,可以完成精細動作。


人形機器人的安卓


谷歌把Gemini Robotics用于自己投資的Apptronik人形機器人開發,還開放給受信任的機器人企業使用,包括德國的Agile Robots,法國的Enchanted Tools,美國的Agility Robotics,以及被韓國現代收購的Boston Dynamics。


看起來,谷歌想做出一個人形機器人的安卓系統,初步實現了適配不同機器人。


巨頭們毫不懷疑,未來,人形機器人的數量將比智能手機還多。它正在走向通用化,關鍵就在于通用的物理智能。谷歌、特斯拉、Meta與OpenAI等巨頭,對此充滿野心。


特斯拉的擎天柱是垂直自研的方式。Meta已經展露出類似的企圖。而OpenAI在自己投資的Physical Intelligence與FigureAI紛紛垂直自研后,親自下場的可能性同樣大增。


上個月,Meta旗下的Reality Labs新設立了人形機器人部門。Reality Labs最為知名的就是它的元宇宙、可穿戴設備Quest,以及AI眼鏡,累計虧損超600億美元。Meta首席技術官Andrew Bosworth說,公司砸錢搞出來的核心技術,可用于開發機器人,通過Llama覆蓋消費者。


去年底,OpenAI在公司內部重啟了人形機器人團隊,并從Meta處挖來了Orion眼鏡負責人,今年已經公開開始招兵買馬,點名要那些精通傳感器與系統集成的硬件工程師,“專注于解鎖通用機器人技術,并在動態的現實環境中推動AGI級智能”。


讓前沿模型與機器人接觸,可以讓機器人從多模態環境的經驗中汲取智能,也可以在不斷嘗試中摸索數字世界的智能如何觸及物理世界。谷歌CEO桑達爾·皮查伊(Sundar Pichai)介紹新發布的兩個模型時稱,機器人技術是將人工智能的進步轉化為現實世界的有益試驗場。


難以做題評估


谷歌承認,Gemini Robotics對具身智能的探索,仍然處于非常早期的階段。谷歌在官方介紹中,放出了制作精美的視頻。但隨后,團隊成員通過自己的X賬號,放出了幾段未經刪節的視頻。


如何評估具身智能模型實際水平,是該團隊在發布Gemini Robotics前,一直思考的問題。在去年底的一次演講中,團隊提出三大瓶頸:機器人擴展定律,機器人上下文帶寬,以及可擴展的評估體系。這是具身智能當前的短板,還將影響未來幾年的研究方向。其中,評估體系的發展程度最低。



機器人擴展定律的核心,聽起來與大模型擴展定律類似,數據越多,規模越大,理應效果越好。但是,谷歌DeepMind團隊發現,在機器人領域,目前它并不每次都成立。


面對物理世界,擴展定律更像一門藝術,而不是科學(盡管本來也并非真正的物理定律)機器人數據的質量、分布、多樣性和覆蓋范圍,比數據數量本身更重要,研究者需要找到機器人擴展定律的那條曲線,預測投入和產出的關系。在機器人領域,擴展往往意味著比大型語言模型更高的成本,尤其是后者的邊際效應已經開始降低。


還有“上下文帶寬”問題,這是指機器人能接收和理解的動作指令的信息量。多模態或世界模型存在豐富細節與物理維度,作為大模型,已經擁有越來越大的上下文窗口,但是機器人動作相關的低層次指令往往相對簡單,接受的token數量相對較少、模態豐富程度較低。如何在這種低帶寬的輸入方式下執行更精細的動作,或拓展其上下文窗口,是具身智能亟待解決的瓶頸之一。


最大的問題是驗證。這次,谷歌DeepMind團隊提出了ERQA基準,即包含400道多選的視覺問答(VQA)風格問題,涵蓋包括空間推理、軌跡推理、動作推理、狀態估計、指向、多視角推理和任務推理。語言模型可以用考試題測試,但機器人還得在真實世界里跑來跑去,才能試出它的真實性能;受限環境下的真機測試,在開放環境下不一定管用。


狀況會在機器人越來越通用后變得更為復雜,因為評估它們的能力的難度與成本也隨之暴漲。很多測試費時費力,還不夠全面,難以覆蓋極端案例。如果評估系統跟不上,機器人再聰明,也沒法證明自己行不行。


一種方法是改進模擬環境,讓它更接近現實,甚至期待用“世界模型”去代替部分實測。但是,這意味著后者可能必須學會建模出比機器人基礎模型更多的信息。


我們周圍會充斥著大量精心編輯的書面測評與視頻演示,但現實世界的表現,仍將是具身智能領域的黃金標準。


本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系hezuo@huxiu.com
如對本稿件有異議或投訴,請聯系tougao@huxiu.com
正在改變與想要改變世界的人,都在 虎嗅APP
贊賞
關閉贊賞 開啟贊賞

支持一下 ??修改

確定
主站蜘蛛池模板: 吴川市| 永春县| 云林县| 陕西省| 维西| 桐梓县| 武平县| 义乌市| 乐山市| 黑水县| 澄城县| 清水河县| 黄骅市| 云林县| 东乡| 峨眉山市| 广南县| 武安市| 民和| 无极县| 徐州市| 凤庆县| 乡城县| 且末县| 林甸县| 澄江县| 竹溪县| 南川市| 南皮县| 牙克石市| 株洲县| 清流县| 蓝田县| 临朐县| 临湘市| 瑞丽市| 公安县| 卢氏县| 久治县| 仁化县| 曲阜市|