japanese55丰满成熟,成人综合网站,久99久热爱精品免费视频37

大模型正從語言、視覺向行動延伸。人形機器人還會現場寫代碼，出手解決問題。

谷歌DeepMind發布了兩款新的具身智能模型，Gemini Robotics-ER與Gemini Robotics，正式宣告對物理智能的探索，從以往的RT模型系列，切換到了Gemini模型系列。用該公司高級研究科學家Ted Xiao的話說，這是前沿大模型與機器人的第一次接觸。

無論是OpenAI、Anthropic，還是Meta，還都沒有做到這一步。即使馬斯克如此喜歡夸下海口，也還沒讓特斯拉的擎天柱用上xAI最新的Grok3。國內的DeepSeek或者Qwen，都沒有直接讓前沿開源大模型端到端地驅動人形機器人的記錄。

遇到麻煩自己寫代碼

谷歌DeepMind先訓練出具身推理模型Gemini Robotics-ER，基于Gemini 2.0 Flash模型，將多模態模型的語義理解能力擴展至物理幾何（3D結構、物體位姿）、動態場景（運動軌跡、接觸效應）等等，讓身處復雜而動態的現實世界的具身智能，強化了推理能力。從中蒸餾出物理智能，就是Gemini Robotics，它能對現實世界做出反應。

比如，如果一個機器人遇到一個咖啡杯，Gemini Robotics可以識別出來，“指向”可以與自己互動的部分（比如把手），并識別出在拿起它時需要避開的物體。

機器人還會自己寫代碼去解決遇到的新問題（Zero-Shot Via Code Generation），就是個活生生的智能體。具體來說，就是模型接收輸入，包括系統提示、機器人API的描述、任務指令以及環境的實時圖像，然后基于這些輸入，模型分析場景，理解任務需求，并生成與機器人API交互的代碼。

這一過程是動態的，模型會根據環境變化與接觸后的反饋，來調整代碼，確保任務順利完成。

（概覽圖：感知和控制API，以及在任務執行過程中對智能體的協調和管理。該系統用于零樣本控制。）

不過，這項技術還處于早期階段，面對折疊衣服這樣的精細任務，谷歌發現，還是通過少量人類示范的上下文學習（Few-shot in-context learning），成功率要更高一點。

或許這就是從RT系列模型轉向Gemini系列模型的意義之一。以后，可能誰家的基礎模型編碼能力更強，誰家的機器人就是更靈巧的智能體。

但是，完成所有這些現場智能體推理和動作，需要強大的本地算力，目前仍然是個大問題。Gemini Robotics的視覺語言動作模型主干（VLA Backbone）就放到了云端，其物理世界的理解能力適用于不同形態的機器人，可以通過日常對話與人類親切交互。

Gemini Robotics還有一個動作解碼器，負責將VLA主干的輸出轉化為低級控制信號，部署于本地，可以完成精細動作。

人形機器人的安卓

谷歌把Gemini Robotics用于自己投資的Apptronik人形機器人開發，還開放給受信任的機器人企業使用，包括德國的Agile Robots，法國的Enchanted Tools，美國的Agility Robotics，以及被韓國現代收購的Boston Dynamics。

看起來，谷歌想做出一個人形機器人的安卓系統，初步實現了適配不同機器人。

巨頭們毫不懷疑，未來，人形機器人的數量將比智能手機還多。它正在走向通用化，關鍵就在于通用的物理智能。谷歌、特斯拉、Meta與OpenAI等巨頭，對此充滿野心。

特斯拉的擎天柱是垂直自研的方式。Meta已經展露出類似的企圖。而OpenAI在自己投資的Physical Intelligence與FigureAI紛紛垂直自研后，親自下場的可能性同樣大增。

上個月，Meta旗下的Reality Labs新設立了人形機器人部門。Reality Labs最為知名的就是它的元宇宙、可穿戴設備Quest，以及AI眼鏡，累計虧損超600億美元。Meta首席技術官Andrew Bosworth說，公司砸錢搞出來的核心技術，可用于開發機器人，通過Llama覆蓋消費者。

去年底，OpenAI在公司內部重啟了人形機器人團隊，并從Meta處挖來了Orion眼鏡負責人，今年已經公開開始招兵買馬，點名要那些精通傳感器與系統集成的硬件工程師，“專注于解鎖通用機器人技術，并在動態的現實環境中推動AGI級智能”。

讓前沿模型與機器人接觸，可以讓機器人從多模態環境的經驗中汲取智能，也可以在不斷嘗試中摸索數字世界的智能如何觸及物理世界。谷歌CEO桑達爾·皮查伊（Sundar Pichai）介紹新發布的兩個模型時稱，機器人技術是將人工智能的進步轉化為現實世界的有益試驗場。

難以做題評估

谷歌承認，Gemini Robotics對具身智能的探索，仍然處于非常早期的階段。谷歌在官方介紹中，放出了制作精美的視頻。但隨后，團隊成員通過自己的X賬號，放出了幾段未經刪節的視頻。

如何評估具身智能模型實際水平，是該團隊在發布Gemini Robotics前，一直思考的問題。在去年底的一次演講中，團隊提出三大瓶頸：機器人擴展定律，機器人上下文帶寬，以及可擴展的評估體系。這是具身智能當前的短板，還將影響未來幾年的研究方向。其中，評估體系的發展程度最低。

機器人擴展定律的核心，聽起來與大模型擴展定律類似，數據越多，規模越大，理應效果越好。但是，谷歌DeepMind團隊發現，在機器人領域，目前它并不每次都成立。

面對物理世界，擴展定律更像一門藝術，而不是科學（盡管本來也并非真正的物理定律）。機器人數據的質量、分布、多樣性和覆蓋范圍，比數據數量本身更重要，研究者需要找到機器人擴展定律的那條曲線，預測投入和產出的關系。在機器人領域，擴展往往意味著比大型語言模型更高的成本，尤其是后者的邊際效應已經開始降低。

還有“上下文帶寬”問題，這是指機器人能接收和理解的動作指令的信息量。多模態或世界模型存在豐富細節與物理維度，作為大模型，已經擁有越來越大的上下文窗口，但是機器人動作相關的低層次指令往往相對簡單，接受的token數量相對較少、模態豐富程度較低。如何在這種低帶寬的輸入方式下執行更精細的動作，或拓展其上下文窗口，是具身智能亟待解決的瓶頸之一。

最大的問題是驗證。這次，谷歌DeepMind團隊提出了ERQA基準，即包含400道多選的視覺問答（VQA）風格問題，涵蓋包括空間推理、軌跡推理、動作推理、狀態估計、指向、多視角推理和任務推理。語言模型可以用考試題測試，但機器人還得在真實世界里跑來跑去，才能試出它的真實性能；受限環境下的真機測試，在開放環境下不一定管用。

狀況會在機器人越來越通用后變得更為復雜，因為評估它們的能力的難度與成本也隨之暴漲。很多測試費時費力，還不夠全面，難以覆蓋極端案例。如果評估系統跟不上，機器人再聰明，也沒法證明自己行不行。

一種方法是改進模擬環境，讓它更接近現實，甚至期待用“世界模型”去代替部分實測。但是，這意味著后者可能必須學會建模出比機器人基礎模型更多的信息。

我們周圍會充斥著大量精心編輯的書面測評與視頻演示，但現實世界的表現，仍將是具身智能領域的黃金標準。

本文來自微信公眾號：未盡研究（ID：Weijin_Research），作者：未盡研究

爱看影院,天美传媒97a∨,天堂av,国产精品免费大片

谷歌Gemini Robotics，想做人形機器人的安卓系統？