Gemini Robotics 1.5!有大腦的機器人 能自主思考 還能「跨物種」學習
鉅亨網新聞中心
谷歌 (GOOGL-US) 最近發布其最新的 Gemini Robotics 1.5 系列模型,標誌著機器人智慧的重大進步。這一系列模型不僅讓機器人具備了「思考」的能力,也能夠在不同的具身形態之間學習技能,預示著未來機器人將成為人類的智慧夥伴,能夠主動完成複雜任務。

Gemini Robotics 1.5 系列包含兩個關鍵模型:Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5。 Gemini Robotics 1.5 是一個先進的視覺 - 語言 - 行動模型,能夠將視覺訊息和指令轉化為機器人的運動指令,以執行各種任務。而 Gemini Robotics-ER 1.5 則是一個強大的視覺 - 語言模型,具備對物理世界進行推理的能力,能夠直接調用數位工具,並創建詳細的多步驟計劃來完成任務。
在一段長達 1 分 40 秒的影片中,Google 的研究科學家展示了兩個機器人完成不同任務的能力。第一個任務是垃圾分類,機器人 Aloha 根據舊金山的垃圾分類標準,將物品分到堆肥、回收和垃圾三個不同的桶子。它透過查閱規則並觀察物品,成功完成了分類任務。第二個任務涉及打包行李,機器人 Apollo 被要求將前往倫敦旅行的行李打包,並貼心地放入雨傘,以應對即將到來的降雨。
Gemini Robotics 1.5 的推出意味著機器人在理解、推理和完成多步驟任務方面邁出了重要一步。該模型讓機器人具備了「思考後行動」的能力,能夠在複雜環境中像人類一樣理解和應對任務。 Gemini Robotics-ER 1.5 則專注於物理環境中的規劃與邏輯決策,具備頂尖的空間理解能力,支持自然語言交互,並能夠評估任務的成功率與進度,甚至直接調用谷歌搜索等工具獲取信息。
這兩個模型的協同工作顯著提升了機器人在長週期任務和多樣化環境中的泛化能力。 Gemini Robotics-ER 1.5 是首個具身推理優化的思考模型,在學術和內部基準測試中均表現出色。它的能力包括物體檢測與狀態估計、分割遮罩、指向識別、軌跡預測以及任務進度評估與成功檢測。
傳統的視覺 - 語言 - 動作模型通常直接將指令轉化為機器人的運動,但 Gemini Robotics 1.5 能夠在行動前思考。這意味著它可以產生內部推理與分析序列,從而執行需要多步驟或更深層語義理解的任務。在一段 3 分 40 秒的影片中,科學家展示了機器人如何完成更複雜的任務,例如將不同顏色的水果分類到對應的盤子裡,以及幫助分類洗衣物和打包物品。
值得注意的是,Gemini Robotics 1.5 展現了卓越的跨具身學習能力,能夠將從一個機器人學到的動作遷移到另一個機器人,而無需針對每種新形態專門調整模型。這項突破加速了新行為的學習進程,使得機器人變得更聰明、更實用。
未來,不同場景中的機器人(如物流、零售)可互相學習,進而大幅加快通用機器人研發的進程。谷歌的這項創新不僅為機器人技術帶來了新的可能性,也為人類與機器的協作開啟了新的篇章。有關 Gemini Robotics 1.5 的更多信息,可以參考谷歌 DeepMind 的官方網站。
延伸閱讀
- 講座
- 公告
上一篇
下一篇