Por: Christian Rossell Cruz García
Google ha revelado un nuevo y ambicioso modelo de su línea Gemini: Gemini 2.5 Computer Use, que permite a agentes de IA interactuar directamente con interfaces web (clic, desplazamientos, formularios) tal como lo haría un humano. Según Google, este modelo supera a alternativas existentes en tareas de control web y móvil, y ya está disponible en preview mediante la API de Gemini.
Cómo funciona Gemini 2.5 Computer Use
Gemini 2.5 Computer Use se expone a través de una herramienta llamada computer_use dentro de la API Gemini. Cuando quieres que el agente realice una tarea, envías un prompt que incluye tu objetivo, una captura de pantalla del entorno actual (interfaz gráfica) y la historia reciente de acciones.
El modelo analiza esos datos y responde con una llamada de función (“function call”) que describe una acción en la interfaz, como hacer clic, escribir, arrastrar, seleccionar menús desplegables, etc. Luego, tu código cliente ejecuta esa acción, captura la nueva pantalla y URL, y devuelve esos resultados al modelo para continuar el proceso en un ciclo hasta que la tarea se completa, se produce un error o el sistema decide detenerse por medidas de seguridad.
Actualmente, el modelo está optimizado para navegadores web, aunque ya ha mostrado un buen desempeño inicial en tareas de interfaz móvil. Sin embargo, no está diseñado (aún) para control a nivel de sistema operativo de escritorio.
Según Google, el modelo ofrece mayor precisión y menor latencia que competidores en benchmarks web y móvil, lo que puede hacerlo más útil para escenarios reales.
Además de usarse para automatización de tareas repetitivas (llenar formularios, navegación, extracción de datos), también se proyecta su uso para pruebas de interfaz de usuario, flujos de sitios que no exponen APIs, investigación web o asistencia en tareas complejas donde la interfaz no fue diseñada para interacción programática directa.
Comparativas, benchmarks y rendimiento
En los análisis preliminares y demos, Gemini 2.5 Computer Use supera versiones similares (de modelos de agentes web) en múltiples tareas, tanto en precisión como en latencia.
El modelo soporta unas 13 acciones definidas que van de abrir un navegador hasta arrastrar elementos o escribir texto, entre otras.
En cuanto al desempeño en móvil, aunque no es su foco principal, Google ha compartido que tiene buenos resultados en benchmarks internos de Android (AndroidWorld) que indican promesa para tareas de interfaz móvil.
También se ha usado internamente para pruebas automatizadas y como base de funciones “agent” en herramientas previas de Google, como AI Mode o Project Mariner.
Riesgos, límites y mejoras esperadas
Como cualquier tecnología en preview, Gemini 2.5 Computer Use no está exento de riesgos. Google advierte que el modelo puede cometer errores, por lo que su uso en tareas críticas debe supervisarse.
Dado que interactúa con interfaces reales, también es vulnerable a cambios de diseño web, elementos dinámicos, captchas, autenticaciones complejas o estilos de UI no esperables. Además, cuestiones de privacidad y seguridad son críticas: el agente podría intentar cometer acciones que no se desea (compras, cambios, acceso a datos sensibles). Google incluye salvaguardas para eso, como exigir confirmaciones del usuario para ciertos pasos.
Un límite notable es que no puede controlar funciones del sistema operativo fuera del navegador, lo que constriñe su utilidad en escenarios de automatización compleja de escritorio.
Entre las mejoras esperadas están una expansión de las acciones soportadas, mejor robustez ante interfaces variadas, más compatibilidad móvil, mejoras de seguridad y latencia, y un refinamiento para escenarios reales de usuario.
