Почему “Клубничка” от OpenAI меняет ПРАВИЛА ИГРЫ!

Это большой шаг к ИИ общего назначения (AGI).”

Сэм Альтман недавно опубликовал в Твиттере фотографию клубники.

Практически все (включая меня) считают, что это загадочный твит о предстоящем релизе «Strawberry» от OpenAI.

Что такое Strawberry?

Strawberry — это кодовое название секретной модели OpenAI, способной к сложному рассуждению.

Замечание — Strawberry ранее назывался Q* (Q — Звезда).

Почему «Strawberry» так важен?

Большие языковые модели (LLM) продемонстрировали впечатляющие результаты во многих задачах, но также серьезно провалились в других.

По сути, ChatGPT не справляется с простым вопросом:

Сколько «r» в слове «strawberry»?

Удивительно, что он ошибается в этом простом вопросе, но это действительно так.

«Strawberry» от OpenAI сможет правильно ответить на подобные вопросы.

Это связано с тем, что он будет способен на сложное рассуждение.

Некоторые люди говорят, что он будет «хорош в математике».

Одна из текущих проблем LLM заключается в том, что они просто выдают первый ответ, который приходит им в голову.

Например, я только что попросил ChatGPT написать абзац ровно из 42 слов.

Он дал мне абзац, состоящий только из 40 слов.

Проблема в том, что для того, чтобы правильно выполнить такую задачу, нужно провести определенное рассуждение.

Если вы попросите человека сделать это, он начнет писать пару предложений, а затем посмотрит, сколько слов у него уже есть.

Допустим, после 2 предложений у него 32 слова.

Затем он поиграет с новым предложением, пока не получит то, которое будет ровно на 10 слов.

Невозможно просто начать писать и надеяться, что вы в итоге получите ровно 42 слова.

Потому что вы не можете просто остановить предложение в любом месте.

Вам нужно иметь какой-то план.

«Strawberry» должен быть способен выполнять такие задачи.

Вместо того чтобы сразу выдавать ответ, он может проводить рассуждение «в фоновом режиме», о котором я говорю.

Как только он получит абзац из 42 слов, он будет считать слова в фоновом режиме, чтобы перепроверить, а затем, наконец, представит ответ для просмотра.

Это займет больше времени и ресурсов, но именно в этом направлении и движется это «сложное рассуждение».

Если LLM не способны на такого рода рассуждение, то можно забыть про AGI.

Но если LLM смогут выполнять математическое рассуждение и перепроверять собственные ответы, чтобы убедиться в их правильности перед записью, то мы можем быть намного ближе к AGI, чем когда-либо.

Мои личные мысли о «Strawberry»

Я верю, что ChatGPT и другие LLM уже обладают этой способностью, если захотят.

Например, нет причин, по которым OpenAI не могла бы запрограммировать GPT-4o на выполнение экспериментов в фоновом режиме и двойную или даже тройную проверку ответов перед ответом.

Но это было бы слишком дорого в терминах «вычислительных» или энергетических затрат.

Все дело в том, чтобы заставить эти LLM работать эффективно.

Как только эффективность будет достаточной, OpenAI выпустит «Strawberry» в мир.

За «Strawberry» всё еще скрыто много секретов.
«Strawberry» должен уметь выполнять «планирование» и «глубокие исследования».

Он сможет искать в интернете, составлять планы и выполнять серию задач в фоновом режиме, ПРЕЖДЕ чем предложить окончательный ответ.

Я думаю, что это значительно улучшит качество выходных данных, которые мы получаем от LLM.