Primeras impresiones del modo de voz avanzado de ChatGPT: divertido y un poco espeluznante

Dejo el ChatGPT El modo de voz avanzado está activado mientras escribo este artículo como un compañero de inteligencia artificial ambiental. De vez en cuando, le pido que proporcione un sinónimo para una palabra muy usada o algo de ánimo. Alrededor de media hora después, el chatbot interrumpe nuestro silencio y comienza a hablarme en español, sin que yo se lo pida. Me río un poco y pregunto qué está pasando. “¿Solo un pequeño cambio? Tengo que mantener las cosas interesantes”, dice ChatGPT, ahora nuevamente en inglés.

Mientras probaba el modo de voz avanzado como parte de la versión alfa inicial, mis interacciones con la nueva función de audio de ChatGPT fueron entretenidas, desordenadas y sorprendentemente variadas. Sin embargo, vale la pena señalar que las funciones a las que tuve acceso fueron solo la mitad de lo que OpenAI demostró cuando lanzó el modelo GPT-4o en mayo. El aspecto de visión que vimos en la demostración transmitida en vivo ahora está programado para un lanzamiento posterior, y la voz Sky mejorada, que Su La actriz Scarlett Johanssen se ha mostrado en contra, ha sido eliminada del Modo de Voz Avanzado y ya no es una opción para los usuarios.

Entonces, ¿cuál es la sensación actual? En este momento, el modo de voz avanzado me recuerda a cuando se lanzó el ChatGPT original basado en texto, a fines de 2022. A veces conduce a callejones sin salida poco impresionantes o se convierte en lugares comunes de IA vacíos. Pero otras veces, las conversaciones de baja latencia funcionan de una manera que Siri de Apple o Alexa de Amazon nunca lo han hecho para mí, y me siento obligado a seguir chateando por placer. Es el tipo de herramienta de IA que le mostrarás a tus familiares durante las vacaciones para reírte un poco.

OpenAI dio acceso a la función a algunos periodistas de WIRED una semana después del anuncio inicial, pero la retiró a la mañana siguiente, alegando preocupaciones de seguridad. Dos meses después, OpenAI lanzó de manera suave el Modo de voz avanzado para un pequeño grupo de usuarios y lanzó Tarjeta de sistema GPT-4oun documento técnico que describe los esfuerzos del equipo rojo, lo que la empresa considera riesgos de seguridad y las medidas de mitigación que la empresa ha tomado para reducir los daños.

¿Tienes curiosidad por probarlo tú mismo? Aquí tienes lo que necesitas saber sobre la implementación más amplia del modo de voz avanzado y mis primeras impresiones sobre la nueva función de voz de ChatGPT para ayudarte a empezar.

Entonces, ¿cuándo será el lanzamiento completo?

OpenAI lanzó un modo de voz avanzado solo con audio para algunos usuarios de ChatGPT Plus a fines de julio, y el grupo alfa todavía parece relativamente pequeño. Actualmente, la compañía planea habilitarlo para todos los suscriptores en algún momento de este otoño. Niko Felix, un portavoz de OpenAI, no compartió detalles adicionales cuando se le preguntó sobre el cronograma de lanzamiento.

La función de compartir pantalla y video fue una parte fundamental de la demostración original, pero no está disponible en esta prueba alfa. OpenAI aún planea agregar esos aspectos en el futuro, pero tampoco está claro cuándo sucederá eso.

Si eres suscriptor de ChatGPT Plus, recibirás un correo electrónico de OpenAI cuando el modo de voz avanzado esté disponible para ti. Una vez que esté en tu cuenta, podrás cambiar entre Estándar y Avanzado en la parte superior de la pantalla de la aplicación cuando el modo de voz de ChatGPT está abierto. Pude probar la versión alfa en un iPhone y en un Galaxy Fold.

Mis primeras impresiones sobre el modo de voz avanzado de ChatGPT

En la primera hora que hablé con él, descubrí que me encanta interrumpir ChatGPT. No es como hablarías con un humano, pero tener la nueva capacidad de interrumpir ChatGPT a mitad de una oración y solicitar una versión diferente del resultado parece una mejora dinámica y una característica destacada.

Los primeros usuarios que se entusiasmaron con las demostraciones originales pueden sentirse frustrados al tener acceso a una versión del Modo de voz avanzado restringida con más restricciones de las previstas. Por ejemplo, aunque el canto de IA generativa fue un componente clave en las demostraciones de lanzamiento, con canciones de cuna susurradas y múltiples voces intentando armonizarLas serenatas de IA actualmente están ausentes en la versión alfa.

Fuente