従来のロボットは「決まった動作」の反復が限界でしたが、新モデルの登場で「自ら考え、計画し、行動する」人間に近い汎用性を獲得しつつあります。 出所:Google
1.「頭脳」と「手足」が高度に連携する新フレームワーク
- Gemini Robotics-ER 1.5(司令塔): 物理世界を理解し、推論することに特化した「身体性推論モデル(VLM)」です。複雑なタスクに対し、Google検索などのツールを使いながら詳細なステップ(計画)を組み立てる。
- Gemini Robotics 1.5(実行役): 視覚情報と指示を具体的な「動き」に変える「視覚・言語・行動(VLA)モデル」です。司令塔の計画を受け、実際のモーター制御を行う。
- 具体例: 「地元のルールでゴミを分別して」と頼むと、ER 1.5がネットで地域の分別ルールを調べ、目の前のゴミを認識して「これはプラスチック、これは紙」と計画。それをRobotics 1.5が正確な動きでゴミ箱へ投入します。
2. 「行動する前に思考する」透明性の高いAI
GPT-4などの言語モデルで培われた「Chain of Thought(思考の連鎖)」が、ロボットに組み込まれました。これまでのロボットは指示を即座に動作に変換していましたが、Gemini Robotics 1.5は動き出す前に内部で「思考プロセス」を構築します。 例えば洗濯物の色分けなら、「なぜこの服を先に動かすのか」「カゴのどこに置くのが最適か」を論理的に組み立て、それを人間が理解できる言葉で説明することも可能です。これにより、AIが「何をやろうとしているか」という透明性が飛躍的に向上された。
3. 機体の壁を越える「モーション・トランスファー」
Gemini Robotics 1.5は、「異なる機体(エンボディメント)を横断して学習する能力」を備えています。小型アーム(ALOHA 2など)で学んだスキルを、全く形の違う人型ロボット(Apolloなど)に応用できるのです。これにより、未知の機体でも短期間で高度なスキルを習得できるようになります。
4. 厳格な安全基準「ASIMOV」の導入
ロボット専用の安全評価ベンチマーク「ASIMOV」をアップグレードされました。モデルは行動前に「その行為が人間に危害を加えないか」「不適切なタスクではないか」をセマンティック(意味論的)に判断。物理的な衝突回避システムと連動し、AI原則に基づいた安全な運用を担保している。