Fairgen ‘impulsa’ los resultados de la encuesta utilizando datos sintéticos y respuestas generadas por IA

Las encuestas se han utilizado para obtener información sobre las poblaciones, los productos y la opinión pública desde tiempos inmemoriales. Y si bien las metodologías pueden haber cambiado a lo largo de los milenios, una cosa se ha mantenido constante: la necesidad de gente, mucha gente.

Pero, ¿qué pasa si no puedes encontrar suficientes personas para crear un grupo de muestra lo suficientemente grande como para generar resultados significativos? ¿O qué pasaría si pudiera encontrar suficientes personas, pero las restricciones presupuestarias limitan la cantidad de personas que puede encontrar y entrevistar?

Aquí es donde Fairgen Quiere ayudar. La startup israelí lanzó hoy una plataforma que utiliza “IA estadística” para generar datos sintéticos que, según afirma, son tan buenos como los reales. La compañía también está anunciando una nueva recaudación de fondos de 5,5 millones de dólares de Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia y un puñado de inversores ángeles, lo que eleva el total de efectivo recaudado desde su inicio a 8 millones de dólares.

“Datos falsos”

Los datos podrían ser el el alma de la IA, pero también ha sido la piedra angular de la investigación de mercado desde siempre. Entonces, cuando los dos mundos chocan, como ocurre en el mundo de Fairgen, la necesidad de datos de calidad se vuelve un poco más pronunciada.

Fundada en Tel Aviv, Israel, en 2021, Fairgen se centró anteriormente en abordar el sesgo en la IA. Pero a finales de 2022, la empresa pasó a un nuevo producto, impulso justoque ahora está lanzando en versión beta.

Fairboost promete “impulsar” un conjunto de datos más pequeño hasta tres veces, permitiendo información más granular sobre nichos que de otro modo serían demasiado difíciles o costosos de alcanzar. Con esto, las empresas pueden entrenar un modelo de aprendizaje automático profundo para cada conjunto de datos que cargan en la plataforma Fairgen, con patrones estadísticos de aprendizaje de IA en los diferentes segmentos de la encuesta.

El concepto de “datos sintéticos” (datos creados artificialmente y no a partir de eventos del mundo real) no es novedoso. Sus raíces se remontan a los primeros días de la informática, cuando se utilizaba para probar software y algoritmos y simular procesos. Pero los datos sintéticos, tal como los entendemos hoy, han cobrado vida propia, particularmente con la llegada del aprendizaje automático, donde se utilizan cada vez más para entrenar modelos. Podemos abordar tanto los problemas de escasez de datos como los problemas de privacidad de los datos mediante el uso de datos generados artificialmente que no contienen información confidencial.

Fairgen es la última startup en poner a prueba datos sintéticos y tiene como objetivo principal la investigación de mercado. Vale la pena señalar que Fairgen no produce datos de la nada ni arroja millones de encuestas históricas en un crisol impulsado por IA: los investigadores de mercado deben realizar una encuesta para una pequeña muestra de su mercado objetivo y, a partir de ahí, Fairgen establece patrones para ampliar la muestra. La compañía dice que puede garantizar al menos un aumento del doble con respecto a la muestra original, pero en promedio, puede lograr un aumento del triple.

De esta manera, Fairgen podría establecer que alguien de un grupo de edad y/o nivel de ingresos en particular está más inclinado a responder una pregunta de una manera determinada. O combine cualquier número de puntos de datos para extrapolarlos del conjunto de datos original. Básicamente se trata de generar lo que el cofundador y director ejecutivo de Fairgen Samuel Cohen dice que son “segmentos de datos más sólidos y sólidos, con un menor margen de error”.

“La principal comprensión fue que las personas se están volviendo cada vez más diversas: las marcas deben adaptarse a eso y comprender sus segmentos de clientes”, explicó Cohen a TechCrunch. “Los segmentos son muy diferentes: la Generación Z piensa de manera diferente a las personas mayores. Y para poder tener esta comprensión del mercado a nivel de segmento, cuesta mucho dinero, requiere mucho tiempo y recursos operativos. Y ahí es donde me di cuenta de que estaba el punto doloroso. Sabíamos que los datos sintéticos tenían un papel que desempeñar allí”.

Una crítica obvia –una con la que la compañía admite haber tenido que lidiar– es que todo esto suena como un atajo enorme para tener que salir al campo, entrevistar a personas reales y recopilar opiniones reales.

Seguramente cualquier grupo subrepresentado debería preocuparse de que sus voces reales estén siendo reemplazadas por, bueno, ¿voces falsas?

“Cada uno de los clientes con los que hablamos en el espacio de investigación tiene enormes puntos ciegos: audiencias totalmente difíciles de alcanzar”, dijo el jefe de crecimiento de Fairgen, Fernando Zatz, dijo a TechCrunch. “En realidad, no venden proyectos porque no hay suficiente gente disponible, especialmente en un mundo cada vez más diverso donde hay mucha segmentación del mercado. A veces no pueden ir a países específicos; no pueden entrar en datos demográficos específicos, por lo que en realidad pierden proyectos porque no pueden alcanzar sus cuotas. Tienen un número mínimo [of respondents]y si no alcanzan ese número, no venden los conocimientos”.

Fairgen no es la única empresa que aplica la IA generativa al campo de la investigación de mercado. Qualtrics dijo el año pasado que estaba invirtiendo 500 millones de dólares en cuatro años para llevar la IA generativa a su plataforma, aunque con un enfoque sustantivo en la investigación cualitativa. Sin embargo, es una prueba más de que los datos sintéticos están aquí y llegaron para quedarse.

Pero validar los resultados desempeñará un papel importante a la hora de convencer a la gente de que se trata de algo real y no de una medida de reducción de costes que producirá resultados subóptimos. Fairgen hace esto comparando un aumento de muestra “real” con un aumento de muestra “sintético”: toma una pequeña muestra del conjunto de datos, la extrapola y la coloca al lado de la realidad.

“Con cada cliente que registramos, hacemos exactamente el mismo tipo de prueba”, dijo Cohen.

Estadísticamente hablando

Cohen tiene una maestría en ciencias estadísticas de la Universidad de Oxford y un doctorado en aprendizaje automático de la UCL de Londres, parte del cual implicó un período de nueve meses como científico investigador en Meta.

Uno de los cofundadores de la empresa es el presidente. Benny Schnaiderque anteriormente estuvo en el espacio del software empresarial, con cuatro salidas a su nombre: Ravello a Oracle por 500 millones de dólares en 2016; De Qumranet a Red Hat por 107 millones de dólares en 2008; P-Cube a Cisco para $200 millones en 2004; y Pentacom a Cisco por $118 en 2000.

Y luego está Emmanuel Candèsprofesor de estadística e ingeniería eléctrica en la Universidad de Stanford, quien se desempeña como asesor científico principal de Fairgen.

Esta columna vertebral empresarial y matemática es un importante punto de venta para una empresa que intenta convencer al mundo de que los datos falsos pueden ser tan buenos como los datos reales, si se aplican correctamente. Así es también como pueden explicar claramente los umbrales y limitaciones de su tecnología: qué tan grandes deben ser las muestras para lograr los impulsos óptimos.

Según Cohen, lo ideal es que necesiten al menos 300 encuestados reales para una encuesta y, a partir de ahí, Fairboost puede aumentar el tamaño de un segmento que no constituya más del 15% de la encuesta más amplia.

“Por debajo del 15%, podemos garantizar un aumento promedio de 3 veces después de validarlo con cientos de pruebas paralelas”, dijo Cohen. “Estadísticamente, las ganancias son menos dramáticas por encima del 15%. Los datos ya presentan buenos niveles de confianza, y nuestros encuestados sintéticos sólo pueden potencialmente igualarlos o aportar un aumento marginal. Desde el punto de vista empresarial, tampoco hay ningún problema por encima del 15%: las marcas ya pueden aprender de estos grupos; sólo están estancados en el nivel de nicho”.

El factor no LLM

Vale la pena señalar que Fairgen no utiliza grandes modelos de lenguaje (LLM) y su plataforma no genera respuestas en “inglés simple” al estilo ChatGPT. La razón de esto es que un LLM utilizará conocimientos de muchas otras fuentes de datos fuera de los parámetros del estudio, lo que aumenta las posibilidades de introducir sesgos que son incompatibles con la investigación cuantitativa.

Fairgen tiene que ver con modelos estadísticos y datos tabulares, y su entrenamiento se basa únicamente en los datos contenidos en el conjunto de datos cargado. Eso permite efectivamente a los investigadores de mercado generar encuestados nuevos y sintéticos extrapolando de segmentos adyacentes en la encuesta.

“No utilizamos ningún LLM por una razón muy simple, que es que si tuviéramos que capacitarnos previamente en muchos [other] Encuestas, simplemente transmitiría información errónea”, dijo Cohen. “Porque habría casos en los que se aprendería algo en otra encuesta, y no queremos eso. Se trata de confiabilidad”.

En términos de modelo de negocio, Fairgen se vende como SaaS, y las empresas cargan sus encuestas en cualquier formato estructurado (.CSV o .SAV) a la plataforma basada en la nube de Fairgen. Según Cohen, se necesitan hasta 20 minutos para entrenar el modelo con los datos de la encuesta que se le proporcionan, dependiendo de la cantidad de preguntas. Luego, el usuario selecciona un “segmento” (un subconjunto de encuestados que comparten ciertas características), por ejemplo, “Generación Z que trabaja en la industria x”, y luego Fairgen entrega un nuevo archivo estructurado de manera idéntica al archivo de capacitación original, con exactamente las mismas preguntas. , solo filas nuevas.

Fairgen está siendo utilizado por BVA y una empresa francesa de encuestas e investigaciones de mercado IFOP, que ya han integrado la tecnología de la startup en sus servicios. IFOP, que es un poco como Gallup en EE.UU., está utilizando Fairgen con fines electorales en las elecciones europeas, aunque Cohen cree que podría acabar utilizándose también para las elecciones estadounidenses de finales de este año.

“IFOP es básicamente nuestro sello de aprobación, porque existe desde hace unos 100 años”, dijo Cohen. “Validaron la tecnología y fueron nuestro socio de diseño original. También estamos probando o ya nos estamos integrando con algunas de las empresas de investigación de mercado más grandes del mundo, de las que todavía no puedo hablar”.

Fuente