La inteligencia artificial ha avanzado a pasos agigantados en los últimos años, y una de las herramientas más populares es el modelo de lenguaje de generación de texto (GPT, por sus siglas en inglés) desarrollado por OpenAI. Sin embargo, recientemente han surgido quejas sobre una posible degradación en la calidad y rendimiento de la última versión, GPT-4. En este artículo, exploraremos estas inquietudes y analizaremos los hallazgos de un reciente estudio académico que parece confirmar los problemas experimentados por los usuarios.
Computer Hoy |
Un vistazo a la polémica en Twitter
La controversia en torno a GPT-4 se hizo evidente cuando Peter Welinder, vicepresidente de producto de OpenAI, respondió a las quejas de la comunidad afirmando que cada nueva versión del modelo es más inteligente que la anterior. Sin embargo, muchos usuarios empezaron a notar problemas que antes no existían, lo que llevó a Welinder a solicitar ejemplos concretos para investigar.
Algunos usuarios señalaron que GPT-4 muestra una reducción en el número de tokens aceptados por mensaje y que su capacidad para recordar el contexto de mensajes anteriores se ha debilitado. Esto ha llevado a una disminución en la calidad de las respuestas, ya que los usuarios deben repetir la información proporcionada previamente. Además, se ha observado una posible degradación en la moderación de los contenidos, con el modelo priorizando la seguridad sobre la calidad de los resultados.
La preocupación expresada en Twitter no es un caso aislado, ya que en los últimos meses ha habido una proliferación de hilos en Reddit que también plantean el problema de la degradación de ChatGPT. Esto indica que no se trata de un grupo reducido de usuarios insatisfechos, sino que hay una preocupación creciente en la comunidad.
El estudio académico que confirma los problemas
Para abordar estas inquietudes, un grupo de académicos de las universidades de Stanford y Berkeley llevó a cabo un estudio para analizar cómo ha cambiado el comportamiento de ChatGPT a lo largo del tiempo. Su objetivo era determinar si las actualizaciones para mejorar ciertos aspectos del modelo podrían comprometer inadvertidamente otras dimensiones del rendimiento.
El estudio se centró en cuatro áreas: resolución de problemas matemáticos, respuestas a preguntas delicadas, generación de código y razonamiento visual. Los investigadores evaluaron los cambios en las respuestas entre marzo y junio de este año.
Degradación en la resolución de problemas matemáticos
Los resultados del estudio revelaron que GPT-4 mostró una espectacular caída en la calidad de las respuestas relacionadas con la identificación de números primos. Mientras que en marzo demostraba una precisión del 97,6%, en junio esta cifra se redujo drásticamente al 2,4%. Esto indica un claro deterioro en la capacidad del modelo para resolver problemas matemáticos.
Errores de formato en la generación de código
Otro hallazgo preocupante fue la cantidad de errores de formato en la generación de código de programación. Tanto GPT-3.5 como GPT-4 experimentaron una mayor cantidad de errores en junio en comparación con marzo. El porcentaje de respuestas generadas que son directamente ejecutables disminuyó significativamente para ambas versiones.
Aunque OpenAI no ha proporcionado una explicación oficial sobre las causas de la degradación en GPT-4, el estudio académico respalda las quejas de los usuarios. Es importante destacar que la inteligencia artificial es un campo en constante evolución y que los modelos pueden presentar mejoras en unas áreas mientras experimentan retrocesos en otras.
Esperemos que OpenAI tome en cuenta estos hallazgos y trabaje en mejorar la calidad y el rendimiento de futuras versiones de GPT. La comunidad de usuarios y desarrolladores confía en que se puedan resolver estos problemas y que la inteligencia artificial siga avanzando hacia un futuro más prometedor.
Fuentes:
- No, no hemos hecho que GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior - Peter Welinder
- ¿En qué se traducen estos detalles técnicos? - Filipe Almeida
- Con el paso del tiempo, el modelo se ha ido adaptando más a la "seguridad" que a la "calidad de los resultados - Usuario de Twitter
- ¿Cómo está cambiando el comportamiento de ChatGPT a lo largo del tiempo? - Estudio académico de las universidades de Stanford y Berkeley