El nuevo modelo “CriticGPT” de OpenAI está entrenado para criticar la salida de GPT-4.

5 min read

Ampliar / Ilustración creada por OpenAI El jueves, los investigadores de OpenAI lanzaron CriticGPT, un nuevo modelo de IA diseñado para identificar errores en el código generado por ChatGPT, con el objetivo de mejorar el proceso de hacer que los sistemas de IA se comporten de una manera más «realista» que los humanos. necesidad (llamada «alineación») a través de la retroalimentación humana basada en el aprendizaje reforzado (RLHF), que ayuda a los revisores humanos a producir resultados más precisos del modelo de lenguaje grande (LLM). Como se señala en un nuevo informe de investigación titulado «Los críticos de LLM ayudan a detectar errores de LLM», OpenAI creó CriticGPT para actuar como un asistente de inteligencia artificial para entrenadores humanos. Comprueba el código generado por el asistente ChatGPT AI CriticGPT, que utiliza la familia GPT-4 de LLMS, analiza el código y señala posibles errores. Esto hace que sea más fácil para los humanos detectar errores que de otro modo pasarían desapercibidos. Los investigadores entrenaron a CriticGPT en un conjunto de datos de muestras de código que tenían inyecciones de errores intencionales. Le enseña a reconocer y marcar varios errores de codificación. Los investigadores descubrieron que los anotadores preferían las críticas de CriticGPT a las críticas humanas en el 63 por ciento de los casos que involucraban errores de LLM que ocurrían naturalmente. Y los equipos de humanos y máquinas que utilizan CriticGPT escriben reseñas que son más completas que las de los humanos solos. Al mismo tiempo, reduce la tasa de confusión (alucinaciones) en comparación con la IA únicamente. Desarrollar un crítico automatizado El desarrollo de CriticGPT implica entrenar un modelo con una gran cantidad de entradas en las que se insertan errores intencionalmente. Se pidió a entrenadores humanos que corrigieran el código escrito por ChatGPT introduciendo errores. Luego proporcione ejemplos de comentarios como si hubieran descubierto estos errores. Este proceso permitió que el modelo aprendiera a identificar y criticar diferentes tipos de errores de codificación. En el experimento, CriticGPT demostró su capacidad para detectar tanto errores insertados como errores que ocurren naturalmente. Los entrenadores de salida de ChatGPT prefirieron la crítica del nuevo modelo a la propia generación de ChatGPT en 63. porcentaje de casos relacionados con insectos naturales. (Estadísticas anteriores) Esta preferencia se debe en parte a que CriticGPT produce menos «quisquillosos» inútiles. y crear menos falsos positivos o problemas de alucinaciones. Los investigadores también crearon una nueva técnica llamada Force Sampling Beam Search (FSBS). Este método ayuda a CriticGPT a escribir revisiones de código más detalladas. Esto permite a los investigadores ajustar la granularidad de CriticGPT para encontrar problemas y al mismo tiempo controlar la frecuencia con la que pueden causar problemas que no existen. Pueden ajustar este equilibrio en función de lo que necesitan para diversas tareas de entrenamiento de IA. Es importante destacar que los investigadores descubrieron que las capacidades de CriticGPT van más allá de la simple verificación de código. En los experimentos, ejecutaron el modelo en un subconjunto de datos de entrenamiento de ChatGPT que previamente estaban clasificados como. impecable por anotadores humanos Sorprendentemente, CriticGPT identificó errores en el 24 por ciento de estos casos. Este fue un error que luego fue confirmado por un revisor humano. OpenAI cree que esto demuestra el potencial del modelo para generalizarse a tareas que no son de código. Y enfatiza su capacidad para detectar pequeños errores que incluso una evaluación humana cuidadosa podría pasar por alto. A pesar de los prometedores resultados Como todos los modelos de IA, CriticGPT tiene limitaciones. El modelo se entrena con una cantidad relativamente pequeña de respuestas de ChatGPT. Es posible que esto no los prepare completamente para las evaluaciones de tareas más largas y complejas que los futuros sistemas de IA puedan manejar. Además, aunque CriticGPT ayuda a reducir el caos. Pero no lo elimina todo. Y los entrenadores humanos también pueden cometer errores de etiquetado basándose en estos resultados erróneos. El equipo de investigación reconoció que CriticGPT fue más eficaz para identificar errores que podrían identificarse en una ubicación específica dentro del código. Sin embargo, los errores del mundo real en los resultados de la IA a menudo se extienden en varias partes de la respuesta. Esto plantea un desafío para futuras iteraciones de modelos. OpenAI planea integrar modelos similares a CriticGPT en el proceso de etiquetado de RLHF, brindando asistencia de IA a los capacitadores. Para OpenAI, este es un paso hacia el desarrollo de una herramienta que pueda evaluar mejor los resultados de los sistemas LLM. Puede ser difícil para los humanos calificar sin apoyo adicional; sin embargo, los investigadores advierten que incluso con herramientas como CriticGPT, las tareas o respuestas extremadamente complejas pueden seguir siendo un desafío para los evaluadores humanos. Incluso tareas asistidas por IA

You May Also Like

More From Author

+ There are no comments

Add yours