Gemini Robotics es un modelo de IA de tipo visión-lenguaje-acción (VLA, por sus siglas en inglés). Esto significa que toma entradas visuales (imágenes o video), lenguaje natural (instrucciones habladas o escritas) y genera acciones físicas para robots.
Gemini Robotics-ER es su complemento. No controla directamente los movimientos del robot, sino que aporta razonamiento espacial, planificación y comprensión del entorno físico. Sirve como modelo “supervisor” que analiza lo que hay que hacer, cómo situar los objetos, cómo moverse en espacios, etc.
sus capacidades destacadas son
Pueden dividir tareas complejas en varios pasos, lo cual es algo que hasta ahora era muy difícil con robots. Por ejemplo: que un robot reciba la instrucción “limpia la cocina” y lo descomponga en pasos precisos, sin supervisión constante.
Tienen buena capacidad de generalización: lo aprendido en un tipo de robot puede aplicarse en otros. Por ejemplo, en brazos robóticos dobles como ALOHA 2, plataformas Franka, humanoides como Apollo de Apptronik.
Mejoras en destreza y manipulación física fina: agarrar objetos, trayectorias seguras, manipulaciones delicadas como doblar origami, empacar bocadillos, etc.
El modelo ER añade capacidades de razonamiento espacial y temporal lo que permite detectar objetos en 3D, prever trayectorias, estimar progreso de tarea, adaptación a cambios en el entorno.
Versiones y despliegue
DeepMind ha anunciado una versión llamada Gemini Robotics On-Device, que es la versión del modelo VLA optimizada para correr localmente en el robot, sin depender de conexión constante a la nube. Esto permite menos latencia y mayor privacidad.
Actualmente, los modelos están disponibles bajo un esquema de “trusted testers / trusted partners”. lo que significa que no todo el mundo puede usarlos aún; están siendo probados en colaboración con empresas de robótica como Apptronik, Agile Robots, Boston Dynamics, etc.
sus Limitaciones
a pesar de sus mejores ejecutar tareas en ambientes reales, con objetos inesperados, iluminación variable o obstáculos reales, sigue siendo complicado.
Destreza baja en tareas realmente complejas (por ejemplo restaurar objetos frágiles, trabajar en espacios muy estrechos, tareas médicas) probablemente requerirá todavía mejoras.
el impacto que se espera con esos robots es que sean mas útiles en entornos domésticos, industriales, de servicio, etc., porque ya no se limitarían a tareas muy preprogramadas. también Podrían ayudar en automatización de trabajos complejos, servicio al cliente, ayuda a personas mayores, asistencia médica, laboratorio, almacenes y en la logística.
