Los principales anuncios de IA del Google I/O

Google apuesta por la IA y quiere que lo sepas. Durante el discurso de apertura de la compañía en su conferencia de desarrolladores de E/S el martes, Google mencionó la “IA” más de 120 veces. ¡Eso es mucho!

Pero no todos los anuncios de Google sobre IA fueron significativos per se. Algunos fueron incrementales. Otros fueron repetidos. Entonces, para ayudar a separar el trigo de la paja, reunimos los principales nuevos productos y funciones de inteligencia artificial presentados en Google I/O 2024.

Google planea utilizar IA generativa para organizar páginas completas de resultados de búsqueda de Google.

¿Cómo serán las páginas organizadas por IA? Bueno, depende de la consulta de búsqueda. Pero podrían mostrar resúmenes de reseñas generados por IA, discusiones de sitios de redes sociales como Reddit y listas de sugerencias generadas por IA, dijo Google.

Por ahora, Google planea mostrar páginas de resultados mejoradas con IA cuando detecte que un usuario está buscando inspiración, por ejemplo, cuando está planificando un viaje. Pronto, también mostrará estos resultados cuando los usuarios busquen opciones gastronómicas y recetas, con resultados para películas, libros, hoteles, comercio electrónico y más por venir.

Proyecto Astra y Gemini en vivo

Créditos de imagen: Google Google

Google está mejorando su chatbot Gemini, impulsado por inteligencia artificial, para que pueda comprender mejor el mundo que lo rodea.

La compañía presentó una vista previa de una nueva experiencia en Gemini llamada Gemini Live, que permite a los usuarios tener chats de voz “profundos” con Gemini en sus teléfonos inteligentes. Los usuarios pueden interrumpir a Gemini mientras el chatbot habla para hacer preguntas aclaratorias y se adaptará a sus patrones de habla en tiempo real. Y Gemini puede ver y responder al entorno de los usuarios, ya sea a través de fotografías o vídeos capturados por las cámaras de sus teléfonos inteligentes.

Gemini Live, que no se lanzará hasta finales de este año, puede responder preguntas sobre cosas que están a la vista (o recientemente a la vista) de la cámara de un teléfono inteligente, como en qué vecindario podría estar un usuario o el nombre de una pieza de una bicicleta rota. Las innovaciones técnicas que impulsan Live provienen en parte del Proyecto Astra, una nueva iniciativa dentro de DeepMind para crear aplicaciones y “agentes” impulsados ​​por IA para la comprensión multimodal en tiempo real.

Google Veo

Veo
Créditos de imagen: Google

Google está apuntando a Sora de OpenAI con Veo, un modelo de IA que puede crear videoclips de 1080p de aproximadamente un minuto de duración con un mensaje de texto.

Veo puede capturar diferentes estilos visuales y cinematográficos, incluidas tomas de paisajes y lapsos de tiempo, y realizar ediciones y ajustes al metraje ya generado. El modelo comprende razonablemente bien los movimientos de la cámara y los efectos visuales a partir de indicaciones (piense en descriptores como “panorámica”, “zoom” y “explosión”). Y Veo tiene cierto conocimiento de la física (cosas como la dinámica de fluidos y la gravedad) que contribuyen al realismo de los videos que genera.

Veo también admite la edición enmascarada para cambios en áreas específicas de un video y puede generar videos a partir de una imagen fija, al estilo de los modelos generativos como Stable Video de Stability AI. Quizás lo más intrigante es que, dada una secuencia de indicaciones que en conjunto cuentan una historia, Veo puede generar videos más largos, videos de más de un minuto de duración.

Preguntar fotos

Créditos de imagen: TechCrunch

Google Photos está recibiendo una infusión de IA con el lanzamiento de una función experimental, Ask Photos, impulsada por la familia Gemini de modelos de IA generativa de Google.

Ask Photos, que se lanzará a finales de este verano, permitirá a los usuarios buscar en su colección de Google Photos utilizando consultas en lenguaje natural que aprovechan la comprensión de Gemini del contenido de sus fotografías y otros metadatos.

Por ejemplo, en lugar de buscar algo específico en una foto, como “One World Trade”, los usuarios podrán realizar búsquedas mucho más amplias y complejas, como encontrar la “mejor foto de cada uno de los parques nacionales que visité”. ” En ese ejemplo, Gemini usaría señales que incluyen iluminación, borrosidad y falta de distorsión del fondo para determinar qué hace que una foto sea la “mejor” en un conjunto determinado y combinaría eso con una comprensión de la información de geolocalización y las fechas para devolver las imágenes relevantes.

Géminis en Gmail

Créditos de imagen: TechCrunch

Los usuarios de Gmail pronto podrán buscar, resumir y redactar correos electrónicos, cortesía de Gemini, así como tomar medidas en los correos electrónicos para tareas más complejas, como ayudar a procesar devoluciones.

En una demostración en I/O, Google mostró cómo un padre que quisiera ponerse al día con lo que estaba sucediendo en la escuela de su hijo podía pedirle a Gemini que resumiera todos los correos electrónicos recientes de la escuela. Además del cuerpo de los correos electrónicos, Gemini también analizará los archivos adjuntos, como archivos PDF, y generará un resumen con puntos clave y elementos de acción.

Desde una barra lateral en Gmail, los usuarios pueden pedirle a Gemini que los ayude a organizar los recibos de sus correos electrónicos e incluso colocarlos en una carpeta de Google Drive, o extraer información de los recibos y pegarla en una hoja de cálculo. Si eso es algo que hace con frecuencia, por ejemplo, como viajero de negocios que realiza un seguimiento de los gastos, Gemini también puede ofrecerle automatizar el flujo de trabajo para usarlo en el futuro.

Detectar estafas durante las llamadas

Google presentó una vista previa de una función impulsada por inteligencia artificial para alertar a los usuarios sobre posibles estafas durante una llamada.

La capacidad, que se integrará en una versión futura de Android, utiliza Gemini Nano, la versión más pequeña de la oferta de IA generativa de Google, que puede ejecutarse completamente en el dispositivo, para escuchar “patrones de conversación comúnmente asociados con estafas” en tiempo real. .

No se ha fijado una fecha de lanzamiento específica para la función. Como muchas de estas cosas, Google está haciendo una vista previa de cuánto podrá hacer Gemini Nano en el futuro. Sin embargo, sí sabemos que la función será voluntaria, lo cual es bueno. Si bien el uso de Nano significa que el sistema no cargará audio automáticamente a la nube, el sistema aún escucha efectivamente las conversaciones de los usuarios, un riesgo potencial para la privacidad.

IA para la accesibilidad

Créditos de imagen: Google

Google está mejorando su función de accesibilidad TalkBack para Android con un poco de magia de IA generativa.

Pronto, TalkBack aprovechará Gemini Nano para crear descripciones auditivas de objetos para usuarios ciegos y con baja visión. Por ejemplo, TalkBack podría referirse a una prenda de vestir como “Un primer plano de un vestido de cuadros blanco y negro. El vestido es corto, con cuello y manga larga. Se ata a la cintura con un gran lazo”.

Según Google, los usuarios de TalkBack encuentran alrededor de 90 imágenes sin etiquetar por día. Al utilizar Nano, el sistema podrá ofrecer información sobre el contenido, lo que podría evitar la necesidad de que alguien ingrese esa información manualmente.

Lea más sobre Google I/O 2024 en TechCrunch

Fuente