Las capacidades de análisis de datos de Gemini no son tan buenas como afirma Google

Uno de los puntos fuertes de los modelos de inteligencia artificial generativa estrella de Google, Gemini 1.5 Pro y 1.5 Flash, es la cantidad de datos que supuestamente pueden procesar y analizar. En conferencias de prensa y demostraciones, Google ha afirmado repetidamente que los modelos pueden realizar tareas que antes eran imposibles gracias a su “largo contexto”, como resumir varios documentos de cientos de páginas o buscar en escenas de metraje de película.

Pero una nueva investigación sugiere que los modelos, de hecho, no son muy buenos en esas cosas.

Dos separado estudios investigó qué tan bien los modelos Gemini de Google y otros tienen sentido a partir de una enorme cantidad de datos; piense en los trabajos de “Guerra y paz”. Ambos encuentran que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente preguntas sobre grandes conjuntos de datos; En una serie de pruebas basadas en documentos, los modelos dieron la respuesta correcta sólo el 40% y el 50% de las veces.

“Si bien modelos como Gemini 1.5 Pro pueden procesar técnicamente contextos largos, hemos visto muchos casos que indican que los modelos en realidad no ‘entienden’ el contenido”, dijo a TechCrunch Marzena Karpinska, posdoctora en UMass Amherst y coautora de uno de los estudios.

Falta la ventana de contexto de Géminis

El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar la salida (por ejemplo, texto adicional). Una simple pregunta —“¿Quién ganó las elecciones presidenciales de Estados Unidos de 2020?”— puede servir como contexto, al igual que un guion de película, un programa o un clip de audio. Y a medida que las ventanas de contexto crecen, también lo hace el tamaño de los documentos que se incluyen en ellas.

Las versiones más nuevas de Gemini pueden aceptar más de 2 millones de tokens como contexto. (“Los tokens” son bits subdivididos de datos sin procesar, como las sílabas “fan”, “tas” y “tic” en la palabra “fantástico”). Eso equivale aproximadamente a 1,4 millones de palabras, dos horas de vídeo o 22 horas de audio. — el contexto más amplio de cualquier modelo disponible comercialmente.

En una sesión informativa a principios de este año, Google mostró varias demostraciones pregrabadas destinadas a ilustrar el potencial de las capacidades de contexto largo de Gemini. Uno hizo que Gemini 1.5 Pro buscara en la transcripción de la transmisión del aterrizaje lunar del Apolo 11 (alrededor de 402 páginas) citas que contenían chistes, y luego encontrara una escena en la transmisión que se parecía a un boceto a lápiz.

Oriol Vinyals, vicepresidente de investigación de Google DeepMind, quien dirigió la sesión informativa, describió el modelo como “mágico”.

“[1.5 Pro] “Realiza este tipo de tareas de razonamiento en cada página, en cada palabra”, dijo.

Podría haber sido una exageración.

En uno de los estudios antes mencionados que compara estas capacidades, Karpinska, junto con investigadores del Instituto Allen de IA y Princeton, pidió a los modelos que evaluaran afirmaciones de verdadero/falso sobre libros de ficción escritos en inglés. Los investigadores eligieron trabajos recientes para que los modelos no pudieran “hacer trampa” confiando en el conocimiento previo, y salpicaron las declaraciones con referencias a detalles específicos y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad.

Ante una afirmación como “Al usar sus habilidades como Apoth, Nusis puede realizar ingeniería inversa del tipo de portal abierto por la llave de reactivos encontrada en el cofre de madera de Rona”, Gemini 1.5 Pro y 1.5 Flash —habiendo ingerido el libro relevante— tuvieron que decir si la afirmación era verdadera o falsa y explicar su razonamiento.

Créditos de imagen: Universidad de Massachusetts Amherst

Probado en un libro de alrededor de 260.000 palabras (~520 páginas) de extensión, los investigadores encontraron que 1.5 Pro respondió correctamente las afirmaciones de verdadero/falso el 46,7% de las veces, mientras que Flash respondió correctamente sólo el 20% de las veces. Eso significa que una moneda es significativamente mejor a la hora de responder preguntas sobre el libro que el último modelo de aprendizaje automático de Google. Al promediar todos los resultados de referencia, ninguno de los modelos logró alcanzar una probabilidad superior a la aleatoria en términos de precisión en las respuestas a las preguntas.

“Hemos observado que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar porciones más grandes del libro, o incluso el libro entero, en comparación con las afirmaciones que se pueden resolver recuperando evidencia a nivel de oración”, dijo Karpinska. “Cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano pero que no se indica explícitamente en el texto”.

El segundo de los dos estudios, en coautoría de investigadores de UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash (pero no 1.5 Pro) para “razonar sobre” videos, es decir, buscar y responder preguntas sobre el contenido de ellos. .

Los coautores crearon un conjunto de imágenes (por ejemplo, una foto de una torta de cumpleaños) junto con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes (por ejemplo, “¿Qué personaje de dibujos animados está en esta torta?”). Para evaluar los modelos, eligieron una de las imágenes al azar e insertaron imágenes “distractoras” antes y después de ella para crear secuencias de imágenes similares a una presentación de diapositivas.

Flash no tuvo un buen desempeño. En una prueba en la que el modelo transcribió seis dígitos escritos a mano de una “presentación de diapositivas” de 25 imágenes, Flash logró transcribir correctamente alrededor del 50% de las transcripciones. La precisión se redujo a alrededor del 30% con ocho dígitos.

“En tareas reales de respuesta a preguntas sobre imágenes, parece ser particularmente difícil para todos los modelos que probamos”, dijo a TechCrunch Michael Saxon, estudiante de doctorado en UC Santa Barbara y uno de los coautores del estudio. “Esa pequeña cantidad de razonamiento (reconocer que un número está en un marco y leerlo) podría ser lo que está rompiendo el modelo”.

Google promete demasiado con Gemini

Ninguno de los estudios ha sido revisado por pares ni investiga los lanzamientos de Gemini 1.5 Pro y 1.5 Flash con contextos de 2 millones de tokens. (Ambos probaron las versiones contextuales de 1 millón de tokens). Y Flash no está destinado a ser tan capaz como Pro en términos de rendimiento; Google lo anuncia como una alternativa de bajo costo.

Sin embargo, ambos añaden más leña al fuego de que Google ha estado prometiendo demasiado (y no cumpliendo) con Gemini desde el principio. Ninguno de los modelos que los investigadores probaron, incluido el GPT-4o de OpenAI y el Claude 3.5 Sonnet de Anthropic, funcionó bien. Pero Google es el único proveedor modelo al que se le da una facturación contextual en sus anuncios.

“No hay nada de malo en afirmar simplemente que ‘nuestro modelo puede aceptar X cantidad de tokens’ basándose en detalles técnicos objetivos”, dijo Saxon. “Pero la pregunta es: ¿qué cosa útil se puede hacer con él?”

La IA generativa, en términos generales, está siendo objeto de un mayor escrutinio a medida que las empresas (y los inversores) se sienten cada vez más frustrados por las limitaciones de la tecnología.

En un par de encuestas recientes de Boston Consulting Group, aproximadamente la mitad de los encuestados (todos ejecutivos de alta dirección) dijeron que no esperan que la IA generativa genere ganancias sustanciales de productividad y que les preocupa la posibilidad de cometer errores y compromisos de datos que surgen de herramientas generativas impulsadas por IA. PitchBook recientemente reportado que, durante dos trimestres consecutivos, la negociación de acuerdos mediante inteligencia artificial generativa en las primeras etapas ha disminuido, cayendo un 76% desde su pico del tercer trimestre de 2023.

Ante los chatbots que resumen reuniones y que invocan detalles ficticios sobre personas y las plataformas de búsqueda de IA que básicamente son generadores de plagio, los clientes están a la caza de diferenciadores prometedores. Google, que ha corrido, a veces torpemente, para alcanzar a sus rivales de IA generativa, estaba desesperado por hacer del contexto de Gemini uno de esos diferenciadores.

Pero la apuesta, al parecer, fue prematura.

“No hemos decidido una forma de demostrar realmente que se está produciendo un ‘razonamiento’ o una ‘comprensión’ a lo largo de documentos extensos, y básicamente cada grupo que publica estos modelos está improvisando sus propias evaluaciones ad hoc para hacer estas afirmaciones”, dijo Karpinska. . “Sin saber durante cuánto tiempo se implementa el procesamiento de contexto (y las empresas no comparten estos detalles) es difícil decir cuán realistas son estas afirmaciones”.

Google no respondió a una solicitud de comentarios.

Tanto Saxon como Karpinska creen que los antídotos contra las exageradas afirmaciones sobre la IA generativa son mejores puntos de referencia y, en la misma línea, un mayor énfasis en la crítica de terceros. Saxon señala que una de las pruebas más comunes para contexto largo (citada generosamente por Google en sus materiales de marketing), “la aguja en el pajar”, solo mide la capacidad de un modelo para recuperar información particular, como nombres y números, de conjuntos de datos, no responder. Preguntas complejas sobre esa información.

“Todos los científicos y la mayoría de los ingenieros que utilizan estos modelos están esencialmente de acuerdo en que nuestra actual cultura de referencia está rota”, dijo Saxon, “por lo que es importante que el público entienda que se deben tomar estos informes gigantes que contienen números como ‘inteligencia general a través de puntos de referencia’ con una enorme aceptación”. grano de sal.”

Fuente