HomeNoticias ITOpenAI acelera su apuesta por el audio y prepara un dispositivo personal...

OpenAI acelera su apuesta por el audio y prepara un dispositivo personal sin pantalla para 2026.

OpenAI reorganiza equipos y desarrolla nuevos modelos de audio para lanzar un dispositivo “audio-first” en 2026, en línea con el giro del sector hacia interfaces sin pantalla.

OpenAI refuerza su apuesta por el audio como próxima frontera de la IA

OpenAI está llevando a cabo una reorganización discreta pero significativa de parte de su estructura interna con un objetivo claro: dar protagonismo al audio como eje central de su próxima etapa tecnológica. No se trata únicamente de mejorar la naturalidad de la voz de ChatGPT, sino de preparar una nueva generación de modelos de sonido y, en paralelo, el desarrollo de un dispositivo personal concebido desde el principio como “audio-first”, cuyo lanzamiento se situaría alrededor de 2026. Así lo ha revelado The Information.

Este movimiento plantea una cuestión incómoda para una industria acostumbrada a girar en torno a pantallas cada vez más grandes y omnipresentes: ¿y si el futuro de la computación personal no pasa por mirar más, sino por escuchar mejor? En Silicon Valley, esta idea empieza a ganar peso.

La estrategia de OpenAI encaja dentro de una tendencia más amplia en el sector tecnológico. Los asistentes de voz ya forman parte de más de un tercio de los hogares en Estados Unidos, integrados en altavoces inteligentes que actúan como infraestructura doméstica básica. Al mismo tiempo, las grandes compañías están experimentando con formas de llevar esa interacción más allá del hogar. Meta, por ejemplo, ha incorporado a sus gafas Ray-Ban un sistema de cinco micrófonos capaz de aislar conversaciones incluso en entornos ruidosos. Google, por su parte, comenzó en junio a probar Audio Overviews, resúmenes hablados que convierten los resultados de búsqueda en narraciones. Tesla también ha avanzado en esta dirección al integrar el chatbot Grok, de xAI, en sus vehículos para controlar funciones y responder consultas mediante diálogo natural.

En ese contexto, el giro de OpenAI resulta menos rupturista de lo que podría parecer, aunque introduce matices propios. La compañía trabaja en un nuevo modelo de audio previsto para el primer trimestre de 2026, diseñado para gestionar interrupciones, solapamientos de voz y turnos de palabra de forma mucho más cercana a una conversación humana real. A diferencia de los sistemas actuales, que alternan entre escuchar y hablar, este modelo podría responder incluso mientras el usuario sigue formulando su frase, un cambio técnico que apunta a una transformación más profunda en la interacción entre personas y máquinas.

El plan no se limita al software. OpenAI explora una gama de dispositivos físicos, desde altavoces sin pantalla hasta gafas inteligentes, pensados no como herramientas puntuales sino como acompañantes constantes. Esta visión encaja con la idea de computación ambiental que Sam Altman ha defendido en varias ocasiones: sistemas siempre presentes y atentos, pero que no exigen de forma permanente la atención visual del usuario.

Esa ambición se ha visto reforzada por la incorporación de Jony Ive, antiguo jefe de diseño de Apple, tras la adquisición en mayo de su estudio io por 6.500 millones de dólares. Ive ha sido especialmente crítico con la deriva adictiva de muchos dispositivos actuales y considera que el audio puede ofrecer una alternativa menos invasiva. Este argumento cobra relevancia en un momento en el que la saturación de pantallas empieza a percibirse como un problema social y, en algunos casos, regulatorio.

No obstante, la experiencia reciente invita a la prudencia. Proyectos como el Humane AI Pin, un dispositivo sin pantalla que prometía una interacción basada en voz y proyección láser, acabaron convirtiéndose en ejemplos de expectativas sobredimensionadas y ejecución fallida, tras consumir cientos de millones de dólares. Otros experimentos, como el colgante Friend AI —que graba la vida del usuario para ofrecerle compañía y contexto— han generado inquietud por sus implicaciones en privacidad y vigilancia constante.

A pesar de estos tropiezos, el ecosistema emprendedor no ha abandonado la idea. Startups como Sandbar o el nuevo proyecto impulsado por Eric Migicovsky, fundador de Pebble, trabajan en anillos inteligentes con capacidades de escucha y respuesta por voz, con vistas a lanzamientos en 2026. La promesa es tan atractiva como problemática: interactuar con la IA hablándole literalmente a la mano.

Desde el punto de vista industrial, OpenAI también está ajustando su cadena de suministro para dar el salto al hardware. Según fuentes citadas por Benzinga, la empresa ha trasladado la fabricación de su primer dispositivo de Luxshare a Foxconn, con el objetivo de reducir su dependencia de China continental y explorar opciones de ensamblaje en Vietnam o Estados Unidos. El proyecto, conocido internamente como Gumdrop, sigue en fase de diseño y podría materializarse en un dispositivo compacto, similar a un iPod Shuffle, equipado con micrófono y cámara para captar el entorno y realizar tareas como la transcripción de notas manuscritas en ChatGPT.

El énfasis en el audio introduce retos técnicos específicos. Los modelos deben ser lo bastante eficientes como para ejecutarse, al menos parcialmente, en el propio dispositivo. El procesamiento local reduce la latencia y los costes, además de aliviar algunas preocupaciones relacionadas con la privacidad. Google ya ha avanzado en este terreno con Gemini Nano en sus Pixel, y OpenAI podría seguir una estrategia similar, desarrollando versiones optimizadas de sus modelos para funcionar en el borde sin depender constantemente de la nube.

Además, el auge del audio generativo no se limita al habla. La música creada por IA está creciendo con rapidez, con empresas como Suno alcanzando ingresos anuales superiores a los 200 millones de dólares, según The Wall Street Journal. No está claro si el nuevo modelo de OpenAI incluirá capacidades musicales, pero el incentivo económico existe, especialmente en un momento en el que la compañía busca diversificar sus fuentes de ingresos en el mercado de consumo.

Más allá de la tecnología, el desplazamiento hacia interfaces auditivas reabre debates que parecían parcialmente cerrados. La voz es íntima, contextual y, a menudo, pública. Hablar con un dispositivo en espacios compartidos no equivale a interactuar con una pantalla personal. Las implicaciones en términos de privacidad, normas sociales y accesibilidad son profundas y todavía poco exploradas. La promesa de una interacción más “natural” convive con el riesgo de una presencia digital más constante y menos visible.

En el fondo, la ofensiva de OpenAI no elimina la pantalla, pero sí la desplaza a un segundo plano, activándola solo cuando resulta imprescindible. Es una apuesta ambiciosa que conecta con un cansancio creciente frente a la economía de la atención visual. Su éxito, sin embargo, dependerá de que la tecnología cumpla sus promesas y de que los usuarios acepten una nueva forma de convivencia con sistemas digitales: menos visibles, pero potencialmente más invasivos.

La industria parece dispuesta a explorar este camino, aunque el resultado final sigue siendo incierto. Que el audio se consolide como interfaz dominante o permanezca como un complemento avanzado dependerá tanto de los avances técnicos como de los límites culturales y regulatorios. OpenAI ha movido ficha, pero la partida aún está lejos de resolverse.

RELATED ARTICLES

Most Popular

Recent Comments