OpenAI o3

modelo de lenguaje grande

OpenAI o3 es un modelo de transformador generativo preentrenado desarrollado por OpenAI como sucesor del modelo OpenAI o1. Está diseñado para dedicar más tiempo de deliberación al abordar preguntas que requieren razonamiento lógico paso a paso.[1][2]

Historia

editar

El modelo OpenAI o3 fue anunciado el 20 de diciembre de 2024, con la designación "o3" elegida para evitar conflictos de marca con la compañía de telefonía móvil británica existente llamada O2. El modelo está disponible en dos versiones: o3 y o3-mini. Hasta el 10 de enero de 2025, OpenAI estuvo invitando a investigadores en ciberseguridad a solicitar acceso anticipado a estos modelos.[1][3]​ OpenAI planea lanzar o3-mini al público en enero de 2025.[4]

Capacidades

editar

El modelo o3 demuestra un rendimiento mejorado en comparación con el modelo o1 en tareas complejas, incluyendo programación, matemáticas y ciencia. En la evaluación ARC-AGI, que mide la capacidad de una IA para manejar nuevos problemas matemáticos y lógicos desafiantes, o3 alcanza una precisión tres veces mayor que su predecesor.[1]

Según lo informado por New Scientist, o3 también obtuvo un puntaje récord del 75,7% en la resolución de problemas del corpus de abstracción y razonamiento (Abstraction and Reasoning Corpus, ARC) desarrollado por el ingeniero de software de Google François Chollet, una test de razonamiento ideado para IAs. Si bien OpenAI o3 aún no cumple con los requisitos para calificar para el "gran premio" asociado, que requiere un 85% de precisión. Sin las limitaciones de costo computacional impuestas por la prueba, el modelo también alcanza un nuevo récord del 87,5%, mientras que los humanos obtienen, en promedio, un 84%.[5]

De acuerdo con TechCrunch, se utilizó aprendizaje por refuerzo para enseñar a o3 a "pensar" antes de reaccionar, utilizando lo que OpenAI denomina una "cadena privada de pensamiento". Supuestamente, el modelo puede planificar con anticipación y razonar a través de una tarea, llevando a cabo una secuencia de acciones durante un período prolongado para ayudar a resolver el problema. Sin embargo, TechCrunch informó que esto aumenta la latencia de las respuestas.[6]

Referencias

editar