La compresión de memoria a escala de nanosegundos de ZeroPoint podría controlar la infraestructura de IA que consume mucha energía

La IA es sólo el mercado más reciente y ávido de informática de alto rendimiento, y los arquitectos de sistemas trabajan día y noche para exprimir hasta la última gota de rendimiento de cada vatio. startup sueca Punto ceroarmado con 5 millones de euros (5,5 millones de dólares) en nueva financiación, quiere ayudarlos con una novedosa técnica de compresión de memoria a escala de nanosegundos, y sí, es exactamente tan complicado como parece.

El concepto es este: comprimir datos sin pérdidas justo antes de que entren en la RAM y descomprimirlos después, ampliando efectivamente el canal de memoria en un 50% o más con solo agregar una pequeña pieza al chip.

La compresión es, por supuesto, una tecnología fundamental en informática; como señaló el CEO de ZeroPoint, Klas Moreau (a la izquierda en la imagen de arriba, con los cofundadores Per Stenström y Angelos Arelakis): “Hoy en día, no almacenaríamos datos en el disco duro sin comprimirlos. Las investigaciones sugieren que el 70% de los datos almacenados en la memoria son innecesarios. Entonces, ¿por qué no comprimimos en la memoria?

La respuesta es que no tenemos la tiempo. Comprimir un archivo grande para almacenarlo (o codificarlo, como decimos cuando es video o audio) es una tarea que puede llevar segundos, minutos u horas dependiendo de tus necesidades. Pero los datos pasan a través de la memoria en una pequeña fracción de segundo, entrando y saliendo tan rápido como la CPU puede hacerlo. Un retraso de un solo microsegundo, para eliminar los bits “innecesarios” de un paquete de datos que ingresa al sistema de memoria, sería catastrófico para el rendimiento.

La memoria no necesariamente avanza al mismo ritmo que la velocidad de la CPU, aunque ambas (junto con muchos otros componentes del chip) están inextricablemente conectadas. Si el procesador es demasiado lento, los datos se almacenan en la memoria, y si la memoria es demasiado lenta, el procesador desperdicia ciclos esperando la siguiente pila de bits. Todo funciona en conjunto, como era de esperar.

Si bien se ha demostrado la compresión de memoria súper rápida, esto genera un segundo problema: esencialmente, debe descomprimir los datos tan rápido como los comprimió, devolviéndolos a su estado original, o el sistema no tendrá idea de cómo hacerlo. para manejarlo. Entonces, a menos que convierta toda su arquitectura a este nuevo modo de memoria comprimida, no tiene sentido.

ZeroPoint afirma haber resuelto ambos problemas con una compresión de memoria hiperrápida y de bajo nivel que no requiere cambios reales en el resto del sistema informático. Agregas su tecnología a tu chip y es como si hubieras duplicado tu memoria.

Aunque los detalles esenciales probablemente sólo serán inteligibles para las personas en este campo, los conceptos básicos son bastante fáciles de comprender para los no iniciados, como lo demostró Moreau cuando me lo explicó.

“Lo que hacemos es tomar una cantidad muy pequeña de datos (una línea de caché, a veces de 512 bits) e identificar patrones en ella”, dijo. “Es la naturaleza de los datos, que están llenos de información no tan eficiente, información que está escasamente ubicada. Depende de los datos: cuanto más aleatorios son, menos comprimibles son. Pero cuando analizamos la mayoría de las cargas de datos, vemos que estamos en el rango de 2 a 4 veces [more data throughput than before].”

En realidad, la memoria no se ve así. Pero se entiende la idea.
Créditos de imagen: Punto cero

No es ningún secreto que la memoria se puede comprimir. Moreau dijo que todos en la informática a gran escala conocen esta posibilidad (me mostró un artículo de 2012 que lo demuestra), pero la han descartado más o menos como académica, imposible de implementar a escala. Pero ZeroPoint, dijo, ha resuelto los problemas de compactación (reorganizar los datos comprimidos para que sean aún más eficientes) y la transparencia, por lo que la tecnología no sólo funciona sino que funciona perfectamente en los sistemas existentes. Y todo sucede en unos pocos nanosegundos.

“La mayoría de las tecnologías de compresión, tanto de software como de hardware, son del orden de miles de nanosegundos. CXL [compute express link, a high-speed interconnect standard] Podemos reducir esa cantidad a cientos”, dijo Moreau. “Podemos reducirlo a 3 o 4”.

Aquí está el CTO Angelos Arelakis explicándolo a su manera:

El debut de ZeroPoint es sin duda oportuno, ya que empresas de todo el mundo buscan una computación más rápida y económica con la que entrenar otra generación de modelos de IA. La mayoría de los hiperescaladores (si hay que llamarlos así) están interesados ​​en cualquier tecnología que pueda darles más potencia por vatio o permitirles reducir un poco la factura de la luz.

La principal advertencia de todo esto es simplemente que, como se mencionó, esto debe incluirse en el chip e integrarse desde cero; no se puede simplemente colocar un dongle ZeroPoint en el bastidor. Con ese fin, la empresa está trabajando con fabricantes de chips e integradores de sistemas para licenciar la técnica y el diseño de hardware en chips estándar para informática de alto rendimiento.

Por supuesto, se trata de sus Nvidias y sus Intel, pero cada vez más también empresas como Meta, Google y Apple, que han diseñado hardware personalizado para ejecutar su IA y otras tareas de alto costo internamente. Sin embargo, ZeroPoint está posicionando su tecnología como un ahorro de costos, no como una prima: posiblemente, al duplicar efectivamente la memoria, la tecnología se amortiza por sí sola en poco tiempo.

La ronda A de 5 millones de euros que acaba de cerrarse fue liderada por Matterwave Ventures, con Industrifonden actuando como líder nórdico local, y los inversores existentes Climentum Capital y Chalmers Ventures también contribuyeron.

Moreau dijo que el dinero debería permitirles expandirse a los mercados estadounidenses, así como duplicar la apuesta por los suecos que ya están persiguiendo.

Fuente