ChatGPT tenía una extraña obsesión con los goblins
OpenAI explicado recientemente uno de los comportamientos más extraños Detectado en su modelo de IA: ChatGPT tiende a mencionar duendes y gremlins y metáforas o ejemplos de respuestas de otras criaturas. Lo que al principio parecían simples detalles anecdóticos, finalmente captaron la atención tanto de los usuarios como de los investigadores de la empresa. A medida que pasaban los meses, este patrón se hizo cada vez más evidente, lo que finalmente desencadenó una investigación interna para comprender por qué el modelo empleaba este tipo de lenguaje con cada vez más frecuencia.
Primeras señales claras del lanzamiento de GPT-5.1. Poco después de su lanzamiento, algunos usuarios empezaron a notar que el modelo utilizaba con mayor frecuencia referencias a criaturas mágicas para explicar conceptos complejos o ilustrar determinadas situaciones. Aunque estas metáforas parecían inofensivas o incluso divertidas en muchos casos, su frecuencia empezó a crecer, tanto es así que el equipo de OpenAI decidió analizar el fenómeno con más detalle.
Al revisar los datos de uso del modelo, los investigadores encontraron un aumento significativo en la aparición de palabras como duende o gremlin en comparación con versiones anteriores. En términos absolutos, el aumento no es grande, pero Sí, se puede sentir claramente en algunas variantes del modelo y en algunas de las formas en que responde.. Este patrón sugiere que no se trata de una simple coincidencia lingüística, sino más bien de un comportamiento emergente que puede estar relacionado con el proceso de entrenamiento en sí.
La investigación interna concluyó finalmente Una característica específica del sistema: una personalidad opcional llamada «Nerd»con el objetivo de brindar respuestas más interesantes, apasionadas y metafóricas. El propósito de este estilo es hacer que las explicaciones sean más accesibles e interesantes, especialmente sobre temas científicos o técnicos. Sin embargo, en el proceso de formación de esta personalidad. Se introducen incentivos que recompensan específicamente el uso de comparaciones creativas.que en última instancia apoyó la aparición de criaturas fantásticas en muchas respuestas.
Este sistema de recompensa da como resultado que las respuestas que contienen palabras como duende o gremlin reciban puntuaciones ligeramente más altas durante el aprendizaje del modelo. con el tiempo, Este pequeño incentivo eventualmente amplificará el comportamiento.. Además, algunos de los ejemplos generados por el propio modelo se reutilizan posteriormente en etapas de entrenamiento adicionales, lo que ayuda a hacer posibles los problemas del lenguaje.Incluso extendiéndose más allá del contexto específico del personaje «nerd».
Para corregir este problema, OpenAI decidió eliminar esta personalidad del sistema, eliminar las señales de recompensa que favorecen este tipo de metáforas y filtrar los datos de entrenamiento. Contiene demasiadas referencias a los seres vivos. Se realizaron ajustes adicionales al proceso de capacitación para evitar que este tipo de patrones de lenguaje se propaguen accidentalmente en futuras versiones del modelo.
Además de anécdotas, el caso de los duendes es un buen ejemplo de cómo Pequeños ajustes en el sistema de recompensas pueden afectar significativamente el comportamiento de modelos complejos Como GPT. También resalta la importancia de auditar constantemente estos sistemas, ya que incluso detalles aparentemente pequeños en la capacitación pueden terminar afectando la forma en que la IA explica conceptos o se comunica con los usuarios.
Más información
Puedes consultar la fuente de este artículo aquí