Por qué RAG no resolverá el problema de las alucinaciones de la IA generativa

Las alucinaciones (las mentiras que dicen, básicamente, los modelos de IA generativa) son un gran problema para las empresas que buscan integrar la tecnología en sus operaciones.

Debido a que los modelos no tienen inteligencia real y simplemente predicen palabras, imágenes, discursos, música y otros datos de acuerdo con un esquema privado, a veces se equivocan. Muy mal. En un artículo reciente en The Wall Street Journal, un fuente relata un caso en el que la IA generativa de Microsoft inventó a los asistentes a una reunión e implicó que las conferencias telefónicas trataban sobre temas que en realidad no se discutieron en la llamada.

Como escribí hace un tiempo, las alucinaciones pueden ser un problema irresoluble con las arquitecturas de modelos actuales basadas en transformadores. Pero varios proveedores de IA generativa sugieren que poder eliminarse, más o menos, mediante un enfoque técnico llamado recuperación de generación aumentada, o RAG.

Así es como un vendedor, Squirro, lo lanza:

En el centro de la oferta se encuentra el concepto de Retrieval Augmented LLM o Retrieval Augmented Generation (RAG) integrado en la solución… [our generative AI] es único en su promesa de cero alucinaciones. Cada pieza de información que genera se puede rastrear hasta una fuente, lo que garantiza credibilidad.

Aquí está un tono similar de SiftHub:

Utilizando la tecnología RAG y grandes modelos de lenguaje ajustados con capacitación en conocimientos específicos de la industria, SiftHub permite a las empresas generar respuestas personalizadas sin alucinaciones. Esto garantiza una mayor transparencia y un riesgo reducido e inspira confianza absoluta para utilizar la IA para todas sus necesidades.

RAG fue iniciado por el científico de datos Patrick Lewis, investigador de Meta y University College London, y autor principal del estudio 2020. papel que acuñó el término. Aplicado a un modelo, RAG recupera documentos posiblemente relevantes para una pregunta (por ejemplo, una página de Wikipedia sobre el Super Bowl) utilizando lo que es esencialmente una búsqueda de palabras clave y luego le pide al modelo que genere respuestas dado este contexto adicional.

“Cuando interactúas con un modelo de IA generativa como ChatGPT o Llama y haces una pregunta, lo predeterminado es que el modelo responda desde su ‘memoria paramétrica’, es decir, desde el conocimiento almacenado en sus parámetros como resultado de capacitación sobre datos masivos de la web”, explicó David Wadden, científico investigador de AI2, la división de investigación centrada en IA del Instituto Allen, una organización sin fines de lucro. “Pero, al igual que es probable que des respuestas más precisas si tienes una referencia [like a book or a file] Frente a ti, lo mismo ocurre en algunos casos con los modelos”.

RAG es innegablemente útil: permite atribuir cosas que genera un modelo a documentos recuperados para verificar su veracidad (y, como beneficio adicional, evitar regurgitaciones potencialmente infractoras de derechos de autor). RAG también permite a las empresas que no quieren que sus documentos se utilicen para entrenar un modelo (por ejemplo, empresas en industrias altamente reguladas como la atención médica y el derecho) permitir que los modelos se basen en esos documentos de una manera más segura y temporal.

Pero RAG ciertamente no poder evitar que un modelo tenga alucinaciones. Y tiene limitaciones que muchos proveedores pasan por alto.

Wadden dice que RAG es más eficaz en escenarios de “conocimiento intensivo” en los que un usuario quiere utilizar un modelo para abordar una “necesidad de información” (por ejemplo, para saber quién ganó el Super Bowl el año pasado). En estos escenarios, es probable que el documento que responde a la pregunta contenga muchas de las mismas palabras clave que la pregunta (por ejemplo, “Super Bowl”, “el año pasado”), lo que hace que sea relativamente fácil de encontrar mediante una búsqueda de palabras clave.

Las cosas se vuelven más complicadas con tareas de “razonamiento intensivo” como codificación y matemáticas, donde es más difícil especificar en una consulta de búsqueda basada en palabras clave los conceptos necesarios para responder una solicitud, y mucho menos identificar qué documentos podrían ser relevantes.

Incluso con preguntas básicas, los modelos pueden “distraerse” con el contenido irrelevante de los documentos, especialmente en documentos largos donde la respuesta no es obvia. O pueden, por razones aún desconocidas, simplemente ignorar el contenido de los documentos recuperados y optar por confiar en su memoria paramétrica.

RAG también es costoso en términos del hardware necesario para aplicarlo a escala.

Esto se debe a que los documentos recuperados, ya sea de la web, de una base de datos interna o de otro lugar, deben almacenarse en la memoria (al menos temporalmente) para que el modelo pueda consultarlos. Otro gasto es calcular el contexto aumentado que un modelo tiene que procesar antes de generar su respuesta. Para una tecnología que ya es famosa por la cantidad de computación y electricidad que requiere incluso para operaciones básicas, esto equivale a una consideración seria.

Eso no quiere decir que RAG no pueda mejorarse. Wadden destacó muchos esfuerzos en curso para entrenar modelos para hacer un mejor uso de los documentos recuperados del RAG.

Algunos de estos esfuerzos involucran modelos que pueden “decidir” cuándo hacer uso de los documentos, o modelos que pueden optar por no realizar la recuperación en primer lugar si lo consideran innecesario. Otros se centran en formas de indexar de manera más eficiente conjuntos de datos masivos de documentos y en mejorar la búsqueda a través de mejores representaciones de los documentos, representaciones que van más allá de las palabras clave.

“Somos bastante buenos recuperando documentos basados ​​en palabras clave, pero no tan buenos recuperando documentos basados ​​en conceptos más abstractos, como una técnica de prueba necesaria para resolver un problema matemático”, dijo Wadden. “Se necesita investigación para construir representaciones de documentos y técnicas de búsqueda que puedan identificar documentos relevantes para tareas de generación más abstractas. Creo que esta es una pregunta abierta en este momento”.

Entonces, RAG puede ayudar a reducir las alucinaciones de un modelo, pero no es la respuesta a todos los problemas alucinatorios de la IA. Tenga cuidado con cualquier proveedor que intente afirmar lo contrario.

Fuente