Google DeepMind ha presentado los modelos Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, dos avances que marcan un salto hacia robots que razonan, capaces de operar en entornos físicos con autonomía y comprensión avanzada. Estos modelos están diseñados para superar uno de los mayores retos de la robótica: ejecutar tareas complejas de múltiples pasos con contexto espacial, lingüístico y motor.
Colaboración entre modelos para tareas físicas complejas
Gemini Robotics 1.5 se basa en una arquitectura visión-lenguaje-acción (VLA) que permite a los robots convertir entradas visuales y comandos naturales en movimientos físicos coordinados. En paralelo, Gemini Robotics-ER 1.5 actúa como un sistema de razonamiento embebido que genera planes estructurados, consulta herramientas digitales y supervisa el progreso de cada tarea. Juntos forman una pila agencial que ofrece capacidad de reflexión y adaptación en escenarios reales.
Comprensión espacial y aprendizaje transferible
El modelo ER 1.5 ha demostrado rendimiento de primera en pruebas como ERQA, Point-Bench y MindCube, destacando por su habilidad para estimar el contexto físico y responder con precisión.
Además, Gemini Robotics 1.5 incorpora la capacidad de aprendizaje entre implementaciones, permitiendo que habilidades adquiridas por un robot sean reutilizadas en otros sistemas físicos sin reentrenamiento específico.
Aplicaciones reales para robots que razonan
La nueva arquitectura permite que los robots “piensen antes de actuar” generando razonamientos internos en lenguaje natural, lo que aporta transparencia al proceso de toma de decisiones.
Desde clasificar ropa por colores hasta separar residuos según normativas locales, los robots pueden razonar, buscar información y ejecutar acciones físicas adaptadas a cada entorno.
Gemini Robotics 1.5 lleva a los robots al siguiente nivel. Fuente: Google DeepMind
Enfoque seguro y responsable
DeepMind ha implementado salvaguardas semánticas y físicas integradas en estos modelos. Gemini Robotics-ER 1.5 utiliza marcos de seguridad como ASIMOV para evitar errores críticos en decisiones físicas. Además, incorpora políticas de respeto al usuario y mecanismos de prevención de colisiones en tiempo real.
Gemini Robotics-ER 1.5 ya está disponible mediante la API de Gemini en Google AI Studio. Por su parte, Gemini Robotics 1.5 está en fase de despliegue inicial con socios estratégicos. Esta apertura permitirá que desarrolladores integren agentes físicos inteligentes en productos reales.
Fuente y foto: Google DeepMind