¿El nuevo Chat GPT-o1 puede razonar?
¿Has intentado preguntar a ChatGPT-4, cuántas letras “r” hay en la palabra “Strawberry”? Probablemente, para tu sorpresa, te respondan que hay una o ninguna. Esta simple pregunta refleja una de las mayores dificultades de la IA: la falta de capacidad de razonamiento y, consecuentemente, la generación de respuestas erradas, lo que se denomina “alucinaciones”. Los modelos de lenguaje de IA, aunque avanzados, generan respuestas basadas en la evaluación de probabilidades estadísticas, utilizando los patrones lingüísticos aprendidos durante su entrenamiento con grandes volúmenes de texto.
El pasado 12 de septiembre, OpenAI, la empresa creadora de ChatGPT, anunció una nueva versión llamada internamente “Strawberry”, en alusión a resolver la falta de razonamiento de la IA. Comercialmente conocida como ChatGPT-o1, inicialmente solo está disponible para algunos suscriptores bajo la versión preliminar o1-preview.
OpenAI destacó resultados sorprendentes de o1: (i) En pruebas de matemáticas, en una escala de 0 a 100, la versión GPT-4o alcanzó un puntaje de 13, mientras que o1-preview y o1 lograron puntajes de 57 y 83, respectivamente; (ii) En concursos de programación, al compararse con humanos, la versión GPT-4o superó a 11% de los competidores, mientras las versiones o1-preview y o1 superaron a 62% y a 89%, respectivamente; y, (iii) En preguntas de opción múltiple en áreas de biología, física y química, se alcanzaron resultados en la versión GPT-4o de 56 puntos, y 78,3 y 78,0 respectivamente para las versiones de o1-preview y o1, mientras que el promedio de expertos humanos fue de 69,7.
La experiencia de usuario con o1 tiene dos características clave: un mayor tiempo de respuesta, y un proceso de resolución de problemas paso a paso, que parece emular al razonamiento humano, lo cual puede llevar a pensar que o1 tiene capacidad de razonamiento, pero realmente no lo hace; tal como lo mencionó Sam Altman, CEO de OpenAI, en la red social X, “o1 todavía tiene fallas, sigue siendo limitado y todavía parece más impresionante en el primer uso que después de pasar más tiempo con él”.
El funcionamiento de o1 se fundamenta en tres conceptos clave: (i) Cadenas de pensamiento: el modelo desglosa las preguntas en pasos intermedios y los resuelve mediante replicación de patrones lingüísticos aprendidos, simulando un proceso de razonamiento; (ii) Aprendizaje por refuerzo: la IA ha sido entrenada con retroalimentación humana. Si en etapas tempranas daba respuestas incorrectas, los entrenadores humanos corregían al modelo, y este ajustaba sus parámetros para mejorar; (iii) Mecanismos de atención: es una técnica de la IA que permite al modelo enfocarse en la información más relevante de una gran cantidad de datos.
Estas características hacen que la versión o1-preview se ajuste mejor a áreas de razonamiento profundo como análisis de datos, codificación y matemáticas, mientras que en tareas de lenguaje natural es preferible optar por la versión GPT-4o.
El uso de o1 abre nuevas fronteras para el uso de la IA en la ingeniería y la ciencia, y nos lleva de nuevo a un concepto esencial en la era de la IA: en un mundo donde la IA pone grandes volúmenes de conocimiento al alcance de las personas, el nuevo “know-how” es saber indagar, es decir, saber qué preguntar y saber evaluar la pertinencia de las respuestas de la IA.