Por qué Apple está adoptando un enfoque de modelo pequeño para la IA generativa

Entre las preguntas más importantes que rodean a modelos como ChatGPT, Gemini y Midjourney desde su lanzamiento está qué papel (si alguno) desempeñarán en nuestra vida diaria. Es algo que Apple se esfuerza por responder con su propia versión de la categoría, Apple Intelligence, que se presentó oficialmente esta semana en la WWDC 2024.

La compañía lideró con flash la presentación del lunes; Así es como funcionan las notas clave. Cuando el vicepresidente senior Craig Federighi no estaba haciendo paracaidismo o practicando parkour con la ayuda de algo de magia de Hollywood (bueno, Cupertino), Apple estaba decidida a demostrar que sus modelos internos eran tan capaces como los de la competencia.

El jurado aún está deliberando sobre esa pregunta, ya que las versiones beta no se lanzaron hasta el lunes, pero desde entonces la compañía ha revelado algo de lo que hace que su enfoque de la IA generativa sea diferente. Lo primero y más importante es el alcance. Muchas de las empresas más destacadas del sector adoptan un enfoque de “cuanto más grande, mejor” para sus modelos. El objetivo de estos sistemas es servir como una especie de ventanilla única para la información del mundo.

El enfoque de Apple hacia la categoría, por otro lado, se basa en algo más pragmático. Apple Intelligence es un enfoque más personalizado para la IA generativa, creado específicamente con los diferentes sistemas operativos de la compañía como base. Es un enfoque muy Apple en el sentido de que prioriza sobre todo una experiencia de usuario sin fricciones.

Apple Intelligence es un ejercicio de marca en un sentido, pero en otro, la compañía prefiere que los aspectos generativos de la IA se integren perfectamente en el sistema operativo. Está completamente bien (o incluso es preferible, en realidad) si el usuario no tiene idea de las tecnologías subyacentes que impulsan estos sistemas. Así han funcionado siempre los productos Apple.

Mantener los modelos pequeños

La clave para gran parte de esto es crear modelos más pequeños: entrenar los sistemas en un conjunto de datos personalizado diseñado específicamente para los tipos de funcionalidad requeridos por los usuarios de sus sistemas operativos. No está claro de inmediato cuánto afectará el tamaño de estos modelos al problema de la caja negra, pero Apple cree que, como mínimo, tener más modelos temáticos aumentará la transparencia sobre por qué el sistema toma decisiones específicas.

Debido a la naturaleza relativamente limitada de estos modelos, Apple no espera que haya una gran variedad al solicitar al sistema que, por ejemplo, resuma texto. Sin embargo, en última instancia, la variación de una sugerencia a otra depende de la extensión del texto que se resume. Los sistemas operativos también cuentan con un mecanismo de retroalimentación en el que los usuarios pueden informar problemas con el sistema de IA generativa.

Si bien Apple Intelligence está mucho más enfocado que los modelos más grandes, puede cubrir un espectro de solicitudes gracias a la inclusión de “adaptadores”, que están especializados para diferentes tareas y estilos. Sin embargo, en términos generales, el enfoque de Apple no es un enfoque de “cuanto más grande, mejor” para crear modelos, ya que es necesario tener en cuenta aspectos como el tamaño, la velocidad y la potencia de cálculo, especialmente cuando se trata de modelos en el dispositivo.

ChatGPT, Gemini y el resto

Abrirse a modelos de terceros como ChatGPT de OpenAI tiene sentido si se considera el enfoque limitado de los modelos de Apple. La compañía entrenó sus sistemas específicamente para la experiencia macOS/iOS, por lo que habrá mucha información que estará fuera de su alcance. En los casos en que el sistema crea que una aplicación de terceros sería más adecuada para brindar una respuesta, un mensaje del sistema le preguntará si desea compartir esa información externamente. Si no recibe un mensaje como este, la solicitud se está procesando con los modelos internos de Apple.

Esto debería funcionar igual con todos los modelos externos con los que Apple se asocia, incluido Google Gemini. Es uno de los raros casos en los que el sistema llamará la atención sobre el uso de IA generativa de esta manera. La decisión se tomó, en parte, para eliminar cualquier preocupación por la privacidad. Cada empresa tiene estándares diferentes a la hora de recopilar y formar sobre los datos de los usuarios.

Exigir a los usuarios que se inscriban cada vez elimina parte de la responsabilidad de Apple, incluso si agrega algo de fricción al proceso. También puede optar por no utilizar plataformas de terceros en todo el sistema, aunque hacerlo limitaría la cantidad de datos a los que puede acceder el sistema operativo/Siri. Sin embargo, no puede darse de baja de Apple Intelligence de una sola vez. En su lugar, tendrá que hacerlo característica por característica.

Computación en la nube privada

Por otro lado, no quedará claro si el sistema procesa una consulta específica en el dispositivo o a través de un servidor remoto con Private Cloud Compute. La filosofía de Apple es que tales revelaciones no son necesarias, ya que mantiene sus servidores con los mismos estándares de privacidad que sus dispositivos, hasta el silicio de origen que utilizan.

Una forma de saber con certeza si la consulta se administra dentro o fuera del dispositivo es desconectar su máquina de Internet. Si el problema requiere computación en la nube para resolverse, pero la máquina no puede encontrar una red, generará un error indicando que no puede completar la acción solicitada.

Apple está desglosando los detalles sobre qué acciones requerirán procesamiento basado en la nube. Hay varios factores en juego allí, y la naturaleza siempre cambiante de estos sistemas significa que algo que podría requerir computación en la nube hoy podría lograrse en el dispositivo mañana. La informática en el dispositivo no siempre será la opción más rápida, ya que la velocidad es uno de los parámetros que Apple Intelligence tiene en cuenta al determinar dónde procesar el mensaje.

Sin embargo, existen determinadas operaciones que siempre se realizarán en el dispositivo. El más notable del grupo es Image Playground, ya que el modelo de difusión completo se almacena localmente. Apple modificó el modelo para que genere imágenes en tres estilos de casa diferentes: animación, ilustración y boceto. El estilo de animación se parece bastante al estilo de otra empresa fundada por Steve Jobs. De manera similar, la generación de texto está actualmente disponible en tres estilos: amigable, profesional y conciso.

Incluso en esta etapa beta inicial, la generación de Image Playground es impresionantemente rápida y a menudo solo toma un par de segundos. En cuanto a la cuestión de la inclusión al generar imágenes de personas, el sistema requiere que usted ingrese detalles específicos, en lugar de simplemente adivinar cosas como el origen étnico.

Cómo manejará Apple los conjuntos de datos

Los modelos de Apple se entrenan con una combinación de conjuntos de datos con licencia y rastreando información de acceso público. Esto último se logra con AppleBot. El rastreador web de la compañía existe desde hace algún tiempo y proporciona datos contextuales a aplicaciones como Spotlight, Siri y Safari. El rastreador tiene una función de exclusión voluntaria para los editores.

“Con Applebot-Extended”, señala Apple, “los editores web pueden optar por no utilizar el contenido de su sitio web para entrenar los modelos básicos de Apple que impulsan las funciones de IA generativa en todos los productos Apple, incluida la inteligencia, los servicios y las herramientas de desarrollo de Apple”.

Esto se logra con la inclusión de un mensaje dentro del código del sitio web. Con la llegada de Apple Intelligence, la compañía ha introducido un segundo mensaje, que permite incluir sitios en los resultados de búsqueda pero excluirlos del entrenamiento del modelo de IA generativa.

IA responsable

Apple publicó un documento técnico el primer día de la WWDC titulado “Presentación de los modelos básicos de servidores y dispositivos de Apple”. Entre otras cosas, destaca los principios que rigen los modelos de IA de la empresa. En particular, Apple destaca cuatro cosas:

  1. “Proporcionar a los usuarios herramientas inteligentes: identificamos áreas donde la IA se puede utilizar de manera responsable para crear herramientas que aborden las necesidades específicas de los usuarios. Respetamos cómo nuestros usuarios eligen utilizar estas herramientas para lograr sus objetivos”.
  2. “Representar a nuestros usuarios: creamos productos profundamente personales con el objetivo de representar auténticamente a los usuarios de todo el mundo. Trabajamos continuamente para evitar perpetuar estereotipos y sesgos sistémicos en nuestras herramientas y modelos de IA”.
  3. “Diseñe con cuidado: tomamos precauciones en cada etapa de nuestro proceso, incluido el diseño, la capacitación del modelo, el desarrollo de funciones y la evaluación de la calidad para identificar cómo nuestras herramientas de inteligencia artificial pueden usarse indebidamente o provocar daños potenciales. Mejoraremos continua y proactivamente nuestras herramientas de IA con la ayuda de los comentarios de los usuarios”.
  4. “Proteger la privacidad: protegemos la privacidad de nuestros usuarios con un potente procesamiento en el dispositivo y una infraestructura innovadora como Private Cloud Compute. No utilizamos los datos personales privados de nuestros usuarios ni las interacciones de los usuarios cuando entrenamos nuestros modelos básicos”.

El enfoque personalizado de Apple para los modelos fundamentales permite que el sistema se adapte específicamente a la experiencia del usuario. La compañía ha aplicado este enfoque de UX primero desde la llegada de la primera Mac. Proporcionar una experiencia lo más fluida posible sirve al usuario, pero no debe hacerse a expensas de la privacidad.

Esta será una aplicación de equilibrio difícil que la compañía tendrá que navegar a medida que la cosecha actual de versiones beta del sistema operativo alcance la disponibilidad general este año. El enfoque ideal es ofrecer tanta (o poca) información como requiera el usuario final. Ciertamente habrá mucha gente a la que no le importará, digamos, si una consulta se ejecuta o no en una máquina o en la nube. Se contentan con que el sistema utilice de forma predeterminada lo que sea más preciso y eficiente.

Para los defensores de la privacidad y otras personas interesadas en esos detalles, Apple debería esforzarse por lograr la mayor transparencia posible para los usuarios, sin mencionar la transparencia para los editores que podrían preferir que su contenido no se obtenga para entrenar estos modelos. Hay ciertos aspectos en los que el problema de la caja negra es actualmente inevitable, pero en los casos en los que se pueda ofrecer transparencia, debería estar disponible a petición de los usuarios.

Fuente