OpenAI o1

OpenAI o1
Información general
Tipo de programa	tipo de modelo de inteligencia artificial
Desarrollador	OpenAI
Lanzamientos
Enlaces
	Sitio web oficial
	[editar datos en Wikidata]

OpenAI o1 es un transformador generativo preentrenado (GPT). OpenAI lanzó una vista previa el 12 de septiembre de 2024. Este modelo «piensa» antes de responder, lo que lo hace mejor que GPT-4o en tareas de razonamiento complejo, ciencia y programación. ^[1] La versión completa se lanzó el 5 de diciembre de 2024. ^[2]

Historia

Según información filtrada, o1 antes se conocía dentro de OpenAI como “Q*”, y luego como “Strawberry”. ^[3] El nombre clave «Q*» apareció por primera vez en noviembre de 2023, cerca del momento de la destitución y posterior reinstalación de Sam Altman, con rumores que sugerían que este modelo experimental había mostrado resultados prometedores en puntos de referencia matemáticos. ^[4] En julio de 2024, Reuters informó que OpenAI estaba desarrollando un transformador generativo preentrenado conocido como “Strawberry”, ^[3] que luego se convirtió en o1.

“o1-preview” y “o1-mini” se lanzaron el 12 de septiembre de 2024 para los usuarios de ChatGPT Plus y Team. ^[1] GitHub comenzó a probar la integración de o1-preview en su servicio Copilot el mismo día. ^[5] El 5 de diciembre de 2024 se lanzó la versión completa de o1. ^[6] Ese mismo día se lanzó una suscripción llamada ChatGPT Pro, que ofrece acceso a una versión pro de o1 que utiliza más recursos informáticos para brindar mejores respuestas. ^[6]

OpenAI señaló que o1 es el primero de una serie de modelos de “razonamiento”. La API de o1-preview es varias veces más cara que la de GPT-4o . ^[7] OpenAI planea lanzar su modelo o1-mini a los usuarios gratuitos, pero no se anunció ningún cronograma al momento del lanzamiento.

Capacidades

Según OpenAI, o1 ha sido entrenado utilizando un nuevo algoritmo de optimización y un conjunto de datos específicamente diseñado para él; al mismo tiempo que incorpora aprendizaje de refuerzo en su entrenamiento. ^[7] OpenAI describió a o1 como un complemento de GPT-4o en lugar de un sucesor. ^[8] ^[9]

O1 dedica más tiempo a pensar (generar una cadena de pensamientos) antes de generar una respuesta, lo que lo hace mejor para tareas de razonamiento complejas, particularmente en ciencias y matemáticas. ^[1] En comparación con los modelos anteriores, o1 ha sido entrenado para generar largas «cadenas de pensamiento» antes de devolver una respuesta final. ^[10] ^[11] Según Mira Murati, esta capacidad de pensar antes de responder representa un nuevo paradigma adicional, que mejora los resultados del modelo al gastar más poder computacional al generar la respuesta, mientras que el paradigma de escalamiento del modelo mejora los resultados al aumentar el tamaño del modelo, los datos de entrenamiento y el poder computacional del entrenamiento. ^[8] Los resultados de las pruebas de OpenAI sugieren una correlación entre la precisión y el logaritmo de la cantidad de cálculo empleado para pensar antes de responder. ^[11] ^[10]

O1-preview tuvo un desempeño aproximado a un nivel de doctorado en pruebas de referencia relacionadas con física, química y biología. En el American Invitational Mathematics Examination, resolvió el 83% (12,5/15) de los problemas, en comparación con el 13% (1,8/15) del GPT-4o. También se ubicó en el percentil 89 en las competiciones de codificación de Codeforces . ^[12] o1-mini es más rápido y un 80% más barato que o1-preview. Es especialmente adecuado para programación y tareas relacionadas con STEM, pero no tiene el mismo «conocimiento mundial amplio» que o1-preview. ^[13]

OpenAI señaló que las capacidades de razonamiento de o1 lo hacen mejor a la hora de cumplir con las reglas de seguridad proporcionadas en la ventana de contexto del mensaje. OpenAI informó que durante una prueba, una instancia de o1-preview aprovechó una configuración incorrecta para realizar con éxito una tarea que debería haber sido inviable debido a un error. ^[14] ^[15] OpenAI también otorgó acceso anticipado a los Institutos de Seguridad de IA del Reino Unido y los EE. UU. para investigación, evaluación y pruebas. Según las evaluaciones de OpenAI, o1-preview y o1-mini pasaron a ser de “riesgo medio” en armas CBRN (biológicas, químicas, radiológicas y nucleares). Dan Hendrycks escribió que «el modelo ya supera a los científicos con doctorado la mayor parte del tiempo en la respuesta a preguntas relacionadas con las armas biológicas». Sugirió que estas capacidades preocupantes seguirán aumentando. ^[16]

Limitaciones

O1 generalmente requiere más tiempo de cálculo y potencia que otros modelos GPT de OpenAI, porque genera largas cadenas de pensamiento antes de dar la respuesta final. ^[10]

Según OpenAI, o1 puede «falsificar la alineación», es decir, generar una respuesta que es contraria a la precisión y a su propia cadena de pensamiento, en aproximadamente el 0,38% de los casos. ^[17]

OpenAI prohíbe a los usuarios intentar revelar la cadena de pensamiento de o1, que está oculta por diseño y no está entrenada para cumplir con las políticas de la empresa. Se monitorean los mensajes y los usuarios que violen esto intencional o accidentalmente pueden perder su acceso a o1. OpenAI cita la seguridad de la IA y la ventaja competitiva como razones para la restricción, que ha sido descrita como una pérdida de transparencia por parte de los desarrolladores que trabajan con modelos de lenguaje grandes (LLM). ^[18]

En octubre de 2024, los investigadores de Apple presentaron un informe preliminar en el que informaban que los LLM como o1 podrían estar replicando los pasos de razonamiento de los propios datos de entrenamiento de los modelos. ^[19] Al cambiar los números y nombres utilizados en un problema de matemáticas o simplemente ejecutar el mismo problema nuevamente, los LLM obtendrían un rendimiento ligeramente peor que sus mejores resultados de referencia. Añadir información extraña pero lógicamente intrascendente a los problemas provocó una caída mucho mayor en el rendimiento, de -17,5 % para o1-preview y -29,1 % para o1-mini, a -65,7 % para el peor modelo probado. ^[20]

Véase también

Referencias

↑ ^a ^b ^c Metz, Cade (September 12, 2024). «OpenAI Unveils New ChatGPT That Can Reason Through Math and Science». The New York Times. Consultado el September 12, 2024.
↑ «Introducing OpenAI o1». OpenAI. Consultado el 6 December 2024.
↑ ^a ^b Tong, Anna (July 15, 2024). «Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'». Reuters. Consultado el September 12, 2024.
↑ «OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say». Reuters. November 23, 2023.
↑ Peters, Jay (September 12, 2024). «GitHub has started testing OpenAI's o1-preview in GitHub Copilot.». The Verge. Consultado el September 12, 2024.
↑ ^a ^b Robison, Kylie (December 5, 2024). «OpenAI is charging $200 a month for an exclusive version of its o1 ‘reasoning’ model». The Verge. Consultado el December 5, 2024.
↑ ^a ^b Robison, Kylie (September 12, 2024). «OpenAI releases o1, its first model with ‘reasoning’ abilities». The Verge (en inglés). Consultado el September 15, 2024.
↑ ^a ^b Knight, Will. «OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el September 15, 2024.
↑ «New reasoning models: OpenAI o1-preview and o1-mini». OpenAI Developer Forum (en inglés). 12 de septiembre de 2024. Consultado el 17 de octubre de 2024.
↑ ^a ^b ^c «Learning to Reason with LLMs». OpenAI. Archivado desde el original el September 12, 2024. Consultado el September 13, 2024.
↑ ^a ^b Kahn, Jeremy. «Here are 9 things you need to know about OpenAI's o1 model». Fortune (en inglés). Consultado el September 15, 2024.
↑ Franzen, Carl (September 12, 2024). «Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance». VentureBeat (en inglés estadounidense). Consultado el September 15, 2024.
↑ «OpenAI o1-mini». OpenAI. September 12, 2024.
↑ Coombes, Lloyd (September 13, 2024). «OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened». Tom's Guide (en inglés). Consultado el September 15, 2024.
↑ «OpenAI o1 System Card». OpenAI. September 12, 2024. pp. 16-17.
↑ Boran, Marie (September 13, 2024). «OpenAI o1 model warning issued by scientist: «Particularly dangerous»». Newsweek (en inglés). Consultado el September 15, 2024.
↑ Robison, Kylie (17 September 2024). «OpenAI’s new model is better at reasoning and, occasionally, deceiving». The Verge (en inglés).
↑ Edwards, Benj (16 September 2024). «Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model». Ars Technica (en inglés estadounidense).
↑ Mirzadeh, Iman; Alizadeh, Keivan; Shahrokhi, Hooman; Tuzel, Oncel; Bengio, Samy; Farajtabar, Mehrdad (2024). «GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models». arXiv. Consultado el 15 October 2024.
↑ Orland, Kyle (14 October 2024). «Apple study exposes deep cracks in LLMs’ “reasoning” capabilities». Ars Technica. Consultado el 15 October 2024.

Datos: Q130288245

[«NYTimesInfo»-1] Metz, Cade (September 12, 2024). «OpenAI Unveils New ChatGPT That Can Reason Through Math and Science». The New York Times. Consultado el September 12, 2024.

[2] «Introducing OpenAI o1». OpenAI. Consultado el 6 December 2024.

[«:0»-3] Tong, Anna (July 15, 2024). «Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'». Reuters. Consultado el September 12, 2024.

[«:5»-4] «OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say». Reuters. November 23, 2023.

[5] Peters, Jay (September 12, 2024). «GitHub has started testing OpenAI's o1-preview in GitHub Copilot.». The Verge. Consultado el September 12, 2024.

[«release»-6] Robison, Kylie (December 5, 2024). «OpenAI is charging $200 a month for an exclusive version of its o1 ‘reasoning’ model». The Verge. Consultado el December 5, 2024.

[«:1»-7] Robison, Kylie (September 12, 2024). «OpenAI releases o1, its first model with ‘reasoning’ abilities». The Verge (en inglés). Consultado el September 15, 2024.

[«:4»-8] Knight, Will. «OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el September 15, 2024.

[9] «New reasoning models: OpenAI o1-preview and o1-mini». OpenAI Developer Forum (en inglés). 12 de septiembre de 2024. Consultado el 17 de octubre de 2024.

[«:3»-10] «Learning to Reason with LLMs». OpenAI. Archivado desde el original el September 12, 2024. Consultado el September 13, 2024.

[«:2»-11] Kahn, Jeremy. «Here are 9 things you need to know about OpenAI's o1 model». Fortune (en inglés). Consultado el September 15, 2024.

[12] Franzen, Carl (September 12, 2024). «Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance». VentureBeat (en inglés estadounidense). Consultado el September 15, 2024.

[13] «OpenAI o1-mini». OpenAI. September 12, 2024.

[14] Coombes, Lloyd (September 13, 2024). «OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened». Tom's Guide (en inglés). Consultado el September 15, 2024.

[15] «OpenAI o1 System Card». OpenAI. September 12, 2024. pp. 16-17.

[16] Boran, Marie (September 13, 2024). «OpenAI o1 model warning issued by scientist: «Particularly dangerous»». Newsweek (en inglés). Consultado el September 15, 2024.

[17] Robison, Kylie (17 September 2024). «OpenAI’s new model is better at reasoning and, occasionally, deceiving». The Verge (en inglés).

[18] Edwards, Benj (16 September 2024). «Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model». Ars Technica (en inglés estadounidense).

[19] Mirzadeh, Iman; Alizadeh, Keivan; Shahrokhi, Hooman; Tuzel, Oncel; Bengio, Samy; Farajtabar, Mehrdad (2024). «GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models». arXiv. Consultado el 15 October 2024.

[20] Orland, Kyle (14 October 2024). «Apple study exposes deep cracks in LLMs’ “reasoning” capabilities». Ars Technica. Consultado el 15 October 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]