Escrito por: Rodríguez Carrillo Juan
La inteligencia artificial ha dado un salto histórico en 2025 con la llegada de los modelos VLA (Vision-Language-Action). A diferencia de los sistemas tradicionales que solo procesan texto o imágenes, los VLA combinan tres capacidades esenciales: visión, lenguaje y acción.
Esto significa que un robot puede observar su entorno, comprender una instrucción en lenguaje natural y ejecutar una acción física precisa. Por ejemplo, si le pides: “toma la taza azul de la mesa y colócala en el estante”, el modelo identifica el objeto, interpreta la orden y coordina los movimientos necesarios para cumplirla.
Entre los proyectos más destacados se encuentran :
- Helix (DeepMind/Google): un modelo generalista capaz de aprender múltiples tareas sin necesidad de reprogramación específica.
- GR00T N1 (NVIDIA): diseñado para robots humanoides, integra percepción multimodal con acciones físicas, con aplicaciones en fábricas y logística.
- Gemini Robotics (Google DeepMind): una extensión de la familia Gemini enfocada en el control avanzado de robots en entornos cotidianos.
La importancia de los VLA radica en que representan el puente entre la IA generativa y la robótica real. Gracias a ellos, dejamos de hablar solo de chatbots o asistentes virtuales y empezamos a imaginar robots capaces de trabajar en almacenes, asistir en hospitales o incluso ayudar en el hogar.
Este 2025 marca el inicio de una era donde la IA ya no se limita a la pantalla, sino que se convierte en un actor dentro del mundo físico. Los modelos VLA son la base de los robots más inteligentes, adaptables y útiles que veremos en los próximos años.
