Frugalidad de la GPU: cómo entrenar su modelo de IA sin fallar

8 min read

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información Muchas empresas tienen grandes esperanzas de que la IA revolucione sus negocios. Pero esas esperanzas pueden verse rápidamente aplastadas por el enorme costo de entrenar sistemas complejos de IA. Elon Musk señala que los problemas de ingeniería son a menudo la causa del estancamiento del progreso. Esto es especialmente evidente cuando hardware como las GPU se optimizan para soportar las enormes demandas computacionales de entrenamiento y ajuste de modelos de lenguaje a gran escala. Mientras tanto, los grandes gigantes tecnológicos pueden gastar millones, a veces miles de millones, en capacitación y optimización. Pero las pequeñas y medianas empresas y las nuevas empresas con pistas más cortas a menudo se ven marginadas. En este artículo, exploraremos algunas estrategias que podrían ayudar incluso a los desarrolladores con recursos más limitados a entrenar modelos de IA sin perjudicar los costos. a un precio pequeño por el precio de un dolar Como tal vez sepas La creación y el lanzamiento de productos de IA, ya sean modelos de lenguaje básico/grande (LLM) o aplicaciones de flujo/afinadas, requiere chips de IA altamente especializados. Estas GPU son tan caras y difíciles de obtener que SemiAnalysis acuñó los términos «demasiadas GPU» y «. demasiadas GPU defectuosas» dentro de la comunidad de aprendizaje automático (ML). La capacitación en LLM puede ser costosa por una razón. Esto se debe principalmente a los costos relacionados con el hardware. Incluyendo adquisición y mantenimiento. Más que algoritmos de ML o conocimiento experto Entrenar estos modelos requiere una computación exhaustiva en clústeres potentes. Los modelos grandes también tardan más. Por ejemplo, entrenar LLaMA 2 70B implica exponer 70 mil millones de parámetros a 2 billones de tokens. Esto requiere al menos 10 ^ 24 operaciones de punto flotante. ¿Deberías rendirte si tienes una GPU defectuosa? No. Estrategias alternativas Hoy en día, existen varias estrategias que las empresas de tecnología utilizan para encontrar soluciones alternativas. Reducir la dependencia de hardware costoso y ahorrar dinero al final Un enfoque implica personalizar y transmitir hardware de capacitación. Aunque esta ruta aún es experimental y de alta inversión. Pero es prometedor para mejorar la formación de LLM en el futuro. Ejemplos de este tipo de soluciones relacionadas con el hardware incluyen chips de IA personalizados de Microsoft y Meta, una nueva iniciativa de semiconductores de Nvidia y clústeres de computación única OpenAI de Baidu Renting GPU de Vast y Sohu. Sin embargo, los chips de Etched, entre muchos otros, son un gran paso adelante. Pero este enfoque sigue siendo adecuado para los grandes actores que pueden invertir mucho ahora para reducir costos en el futuro. Esto no funciona para los recién llegados con recursos financieros limitados que desean desarrollar productos de IA actuales. Lo que se necesita: software innovador. con un presupuesto bajo Por tanto, existe otra forma de optimizar la formación LLM y reducir costes: a través de software innovador. Este enfoque es más asequible y accesible para la mayoría de los ingenieros de ML, ya sean profesionales experimentados o entusiastas y desarrolladores de la IA que buscan incursionar en este campo. Examinemos algunos de estos optimizadores basados ​​en código con más detalle. ¿Qué es Precision Blended Training? Imagine que su empresa tiene 20 empleados, pero alquila espacio de oficina para 200. Obviamente, eso es un claro desperdicio de sus recursos. Se producen ineficiencias similares durante el entrenamiento de modelos. Donde los marcos de ML a menudo asignan más memoria de la que realmente se requiere. El entrenamiento de precisión mixto corrige esto aumentando la eficiencia. Se mejoró tanto la velocidad como el uso de la memoria. Cómo funciona: para lograr esto, las operaciones b/float16 de menor precisión se combinan con las operaciones float32 estándar, lo que resulta en menos operaciones de cálculo a la vez. Esto puede parecer un gran problema técnico para quienes no son ingenieros. Pero la principal implicación es que los modelos de IA pueden procesar datos más rápido y requerir menos memoria sin comprometer la precisión. Métricas de mejora: esta técnica puede generar mejoras en el tiempo de ejecución de hasta 6 veces en GPU y de 2 a 3 veces en TPU (Unidad de procesamiento tensor de Google), los marcos de código abierto como APEX de Nvidia y PyTorch de Meta admiten un entrenamiento de precisión mixto. Hágalo fácilmente accesible para la integración de tuberías. Con este enfoque, las empresas pueden reducir significativamente los costos de GPU mientras mantienen un rendimiento aceptable del modelo. ¿Cuál es el punto de control de activación?: Si estás limitado por una memoria limitada pero al mismo tiempo estás dispuesto a dedicar más tiempo. Los puntos de control pueden ser la técnica adecuada para usted. En resumen, reduce significativamente el uso de memoria al mantener el cálculo al mínimo. Por lo tanto, permite la formación LLM sin actualizar su hardware. Cómo funciona: la idea principal de los puntos de control de activación es almacenar un subconjunto de valores necesarios durante el entrenamiento del modelo y recalcular el resto solo cuando sea necesario. Esto significa que en lugar de almacenar todos los datos intermedios en la memoria, Sólo se conservará la información importante. Esto libera más espacio de memoria en el proceso. similar al principio “Cruzaremos ese puente cuando lleguemos a él”, lo que significa no abordar asuntos menos urgentes hasta que exijan nuestra atención. Indicadores de mejora: en la mayoría de las situaciones Los puntos de control de activación reducen el uso de memoria hasta en un 70%, incluso al extender la fase de capacitación entre un 15 y un 25%. Esta compensación justa significa que las empresas. Los modelos de IA a gran escala se pueden entrenar en hardware existente sin invertir fondos adicionales en infraestructura. El PyTorch antes mencionado admite bibliotecas de puntos de control. Facilite su implementación. ¿Qué es el entrenamiento Multi-GPU?: Imagine una pequeña panadería. ¿Quiere producir grandes cantidades de baguettes rápidamente? Si sólo un panadero trabajara solo, llevaría mucho tiempo. Con dos panaderos Este proceso será más rápido. Agrega un tercer panadero. Y es aún más rápido. El entrenamiento con múltiples GPU funciona de la misma manera. Cómo funciona: en lugar de utilizar una única GPU, se utilizan varias GPU simultáneamente, por lo que el entrenamiento del modelo de IA se distribuye entre estas GPU, lo que les permite trabajar juntas. Lógicamente, esto es lo opuesto a los métodos anteriores. Ese es el puesto de control. Esto reduce el costo de comprar hardware a cambio de un tiempo de ejecución extendido. Aquí utilizamos más hardware. Pero exprima al máximo y maximice la eficiencia. Esto reduce el tiempo de ejecución y, en cambio, reduce los costos operativos. Métricas de mejora: aquí hay tres herramientas efectivas para entrenar LLM con múltiples configuraciones de GPU, enumeradas en orden de aumento de rendimiento según resultados experimentales: DeepSpeed: una biblioteca diseñada específicamente para entrenar modelos de IA con múltiples GPU, que pueden alcanzar velocidad. Hasta 10 veces más rápido que los métodos de entrenamiento tradicionales FSDP: uno de los marcos más populares en PyTorch, que aborda algunas de las limitaciones inherentes de DeepSpeed ​​aumentando la eficiencia de procesamiento en -20% YaFSDP: versión mejorada recientemente lanzada de FSDP. Esto es para entrenar el modelo. Proporciona una aceleración del 10 al 25 % en comparación con el método FSDP original. Conclusión Al utilizar técnicas como el entrenamiento de precisión mixto, Al monitorear, habilitar e implementar múltiples GPU, incluso las organizaciones pequeñas y medianas pueden lograr avances significativos en la capacitación de IA tanto en el ajuste como en la creación de modelos. Estas herramientas aumentan la eficiencia computacional, reducen el tiempo de ejecución y reducen los costos generales. También permiten el entrenamiento de modelos a gran escala en hardware existente. Esto reduce la necesidad de costosas actualizaciones. democratizando el acceso a capacidades avanzadas de inteligencia artificial Estos enfoques ayudan a una amplia gama de empresas de tecnología a innovar y competir en este campo en rápida evolución. Como dice el refrán, «La IA no te reemplazará, pero las personas que la usan sí lo harán». Puedes hacer esto incluso con un presupuesto bajo. Ksenia Se es la fundadora de Turing Post DataDecisionMakers. ¡Bienvenido a la comunidad VentureBeat! Es donde los expertos Incluido el personal técnico que trabaja con datos. Se pueden compartir conocimientos e innovaciones relacionados con los datos. Si desea leer sobre ideas de vanguardia e información de vanguardia. Mejores prácticas y el futuro de la tecnología de datos y de la información Únase a nosotros en Tomadores de decisiones de datos ¡Incluso podrías considerar contribuir con el tuyo propio! Leer más de Tomadores de decisiones de datos

You May Also Like

More From Author

+ There are no comments

Add yours