Модель 01 от OpenAI: ИИ, который превосходит человека и решает задачи уровня доктора философии

Но действительно ли он лучше думает, чем предыдущие модели?
Да, и он всех поражает.
  • Компания OpenAI выпустила новую серию моделей под названием 01, включая 01 Preview и 01 Mini .
  • Эти модели рассчитаны на более длительное обдумывание ответа, что позволяет им успешно справляться со сложными задачами, такими как рассуждение, кодирование и математика.
  • 01 Preview превосходит GPT-4 при решении сложных задач и, по оценкам, может соперничать с докторами наук в области научных и математических рассуждений.
  • Первоначальные тесты показывают, что 01 Preview отлично справляется с генерацией кода, решением сложных математических задач и решением запутанных логических задач.
  • Несмотря на впечатляющие возможности 01, он все еще находится на ранней стадии развития, требует дальнейшего совершенствования и не идеален по всем вопросам.

Что отличает 01?

Последняя версия OpenAI в серии моделей, 01 , разработана для расширения границ рассуждений ИИ. Если вы устали от простых задач генерации подсказок и кодирования, которые едва соответствуют требованиям, то эта новая модель покажется вам глотком свежего воздуха. 01 Preview тратит больше времени на размышления перед ответом, и это имеет решающее значение.

Представьте себе точность решения кандидатом PhD задач по физике, химии и биологии — вот к чему стремится эта модель. Модель 01 Preview фокусируется на задачах, требующих глубокого мышления, таких как многошаговые задачи кодирования, сложные математические головоломки и логические игры. Она намного превосходит возможности GPT-4 в конкурентном программировании и других задачах, требующих критического мышления.

Ранние тесты: решение сложных проблем

В ранних тестах 01 Preview продемонстрировал способность решать сложные проблемы с тщательностью, которой не хватало предыдущим моделям. Один пользователь попросил его написать игру Tetris на Python . В отличие от более ранних моделей, которые спотыкались на подобных задачах, 01 Preview справился с этим всего за 35 секунд ожидания. Он создал полностью функционирующую игру Tetris с первой попытки, что потребовало бы от предыдущих моделей нескольких попыток, сбоев или некорректных выходных данных.

Это улучшение касается не только кода. Модель также решила сложную логическую головоломку: «В комнате находятся три убийцы. Кто-то входит в комнату и убивает одного из них. Сколько убийц осталось?» 01 Preview впечатлил не только тем, что учел двух оставшихся убийц, но и тем, что признал, что человек, совершивший убийство, теперь может быть классифицирован как убийца, увеличив количество до трех. Ни одна модель не делала этого раньше.

Конкурентное преимущество в математике и логике

Давайте поговорим о цифрах. В тестах, оценивающих ИИ на математических и научных задачах, результаты ошеломляют. Для контекста, производительность GPT-4 на Международной математической олимпиаде составила около 33% . Но серия 01 превзошла это, достигнув точности 83% . В задачах по кодированию 01 Preview занял 89-й процентиль на Codeforces , значительно превзойдя своих предшественников.

Это не просто маркетинговый ход. Пользователи могут видеть, как мыслительный процесс происходит шаг за шагом — метод, известный как рассуждение «Цепочка мыслей» . OpenAI доработал эту способность, позволив 01 думать дольше и разбивать проблемы на более мелкие части. Он обучен учиться на ошибках , тестировать несколько подходов и в конечном итоге приходить к лучшим ответам. Для разработчиков ИИ это имеет огромное значение при запуске сложных рабочих процессов.

Это не идеально, но близко

Теперь давайте рассмотрим слона в комнате: ни один ИИ не идеален. Хотя 01 Preview — большой шаг вперед, он не защищен от дурака. Например, когда ему задали сложный навигационный вопрос — пройти от Северного полюса, повернуть налево и вернуться в исходную точку — модель столкнулась с трудностями. Несмотря на выполнение сложных вычислений, она не совсем правильно справилась. Это одна из областей, в которой модели все еще демонстрируют ограничения в рассуждениях о трехмерных пространственных задачах.

Тем не менее, важно отметить, что 01 Preview преуспевает в областях, где другие модели постоянно терпели неудачу. Например, при оценке того, соответствует ли конверт определенного размера почтовым правилам (включая возможность вращать конверт), модель пришла к правильному ответу, в то время как большинство более ранних моделей потерпели неудачу.

Может ли он решить ваши самые сложные вопросы?

Эта модель не предназначена для базовых задач. Если вам нужен ИИ для создания списка покупок или черновика простого электронного письма, вам лучше подойдет более дешевая и быстрая модель, например GPT-4 . Но для тех, кто работает над сложными проблемами кодирования , математическими теоремами или научными рассуждениями , это тот ИИ, которого вы ждали.

Будущее серии OpenAI 01 ориентировано на задачи, требующие точности, рефлексии и применимости в реальном мире. Представьте себе использование модели ИИ, которая могла бы помочь исследователям в области здравоохранения, аннотируя сложные наборы данных или помогая физикам генерировать точные формулы для квантовой оптики. Вот где модель 01 Preview действительно сияет.

Больше моделей и будущих улучшений

OpenAI не закончен. В дополнение к 01 Preview компания также выпустила 01 Mini , которая является меньшей, более быстрой и более экономичной версией модели. Она предназначена для быстрых, высокоточных задач кодирования и других приложений, где скорость важнее глубоких рассуждений. 01 Mini также на 80% дешевле 01 Preview, что делает ее практичным вариантом для более частых, более простых задач.

Ожидайте обновлений. OpenAI планирует постоянно улучшать модели, регулярно выпуская обновления, улучшая меры безопасности и, возможно, расширяя спектр вариантов использования. Одной из выдающихся функций, которая все еще находится в разработке, является видимость цепочки мыслей — возможность видеть точный мыслительный процесс модели. Хотя это показано в демонстрациях, это еще не полностью видно в реальном использовании.

Заключение: 01 — будущее ИИ?

Нет сомнений, что OpenAI 01 Preview представляет собой скачок вперед в возможностях ИИ, особенно в рассуждениях, логике и решении проблем. Это настолько близко к мыслящей машине , насколько мы когда-либо видели. Хотя это еще ранний релиз, способность модели решать сложные проблемы уровня PhD в науке, математике и кодировании уже привлекает внимание.