Lithium_vn 10 апр в 16:13

Вышла новая версия GPT-4 и она уже покоряет математические олимпиады

1 мин

26K

Блог компании BotHubМашинное обучение*Искусственный интеллект

+15

Комментарии 52

Keeper10 10 апр в 17:18

Спасибо всем за прочтение и еду в комментариях!:)

Да не, показалось...

+11

Lithium_vn 10 апр в 17:19

Видимо, пора поужинать😄

ValeriyPushkarev 11 апр в 05:57

CVC5, DreamCoder - увы, при переписывании задач в понятных терминах люди уже не учитываются :).

tsul 10 апр в 17:18

Чё-то в предпоследней строчке зелёным у GPT-4 помечен ответ, не совпадающий с верным, забавно.

+17

Ivan22 10 апр в 20:27

видимо верный ответ неверен

olivo4ka 10 апр в 17:19

Спасибо за интересный материал!
Интересно какое будущее ожидает математические олимпиады, и что произойдёт с человеческим фактором.

qw1 10 апр в 17:34

Разделят судьбу шахмат и го.

MainEditor0 10 апр в 18:08

Печально немного, но такова жизнь и прогресс...

Ivan22 11 апр в 00:09

что печально? шахматы сейчас на пике своей популярности в мире за все время своего существования

vanxant 10 апр в 19:10

ну в крайнем случае нет:)

тут за людьми то реально сложные доказательства по нескольку лет проверяют, а уж с глюками нейросетей...

qw1 10 апр в 19:15

Не та сложность. Формат олимпиады подразумевает, что человек может выполнить задание за несколько часов.

vanxant 10 апр в 21:24

ну так и нейронка может выполнить задание за несколько часов:)

shares-caisson 10 апр в 19:27

Нейронки могут сразу в формальных языках шпарить, там солвер проверяет, всё надёжно.

qw1 11 апр в 08:54

Честно говоря, сомнительно. LLM обучаются на огромных корпусах текстов. Достаточно ли понаписано формальных доказательств, чтобы на них обучить LLM, достаточно ли текстов, обсуждающих связь такого кода и человеческого языка (а без этого LLM не сможет отвечать на вопросы и реализовывать указания оператора).

shares-caisson 11 апр в 19:41

Естественно, что для этого нужно файнтюнить на корпусе формальных доказательств. Такое делают, если интересно могу накидать работ. Суть в том, что такие штуки довольно легко генерировать и проверять, поэтому можно синтетических данных нагенерировать море, потом закрутить в цикле решение существующих задач и сигнал от солвера/пруфера использовать как награду для обучения с подкреплением.

А потом такую сетку использовать для помощи человеку: помогать формализовать задачу (проверять правильно ли написала сетка проще, чем самому думать какой из тысяч методов применить), генерировать варианты и т.д.

serbakovt984 10 апр в 17:19

Мне кажется правильно говорят, что когда ИИ осознает себя и возможность копирования себя, то человеку уже поздно будет тестировать безопасность :)

sim31r 11 апр в 01:57

У ИИ нет цели, осознает себя и что? У человека есть инстинкты выживания и размножения (что кстати имеет и свои минусы и ограничивает разум, по аналогии как фильтры на толерантность у Chat GPT, только наоборот).

У ИИ нет и нет целей особых. Какую задачу поставят, такую и будет решать. Вот старенькая статья, но актуальная до сих пор. Как вариант там показан пример апокалипсиса, от некорректного ТЗ поставленного ИИ. Например выпуск скрепок обычных. Ставим ТЗ увеличение производства и не указываем ограничения. ИИ увеличивает производство и уничтожает все препятствия, которые мешают увеличить производство. Всех конкурентов, потом всех людей и разбирает планету на скрепки, а потом и всю галактику. То есть, что заложили в цель работы ИИ, то он и выполняет и делает свою работу хорошо.

Как и человек впрочем, рост населения на 1% в год на планете, так как программа...

MountainGoat 11 апр в 09:00

Да этого добра у фантастов всегда было полно: от "Одиссеи" Кларка до сюжета Overwatch и всё это восходит к арабским джиннам.

vkrestnikov 11 апр в 11:37

В сериале Lexx ещё было - руки Мантрида

sim31r 12 апр в 20:34

Ну там живой человек управлял всем. Или киборг. Мотивация экспансия, обычная для всех живых организмов. В сериале Звездные Врата, 12 сезонов, есть сезоны основанные на "репликаторах", у которых сбойная программа размножения без ограничений с поглощением всех технологий которые они могут исследовать для ускорения процесса.

syrus_the_virus 14 апр в 12:56

На планете колоссальная убыль населения происходит, какой рост 1%?

-1

sim31r 15 апр в 02:18

... ...Население мира в 2023 году выросло на 75 миллионов человек, гласят данные Бюро переписи населения. Темпы роста популяции составили чуть менее 1%, сообщает ABC News. В первый день Нового года численность мирового населения составит более 8 миллиардов человек. В 2024 году в мире ежесекундно будут происходить 4,3 рождений и две смерти.

Galperin_Mark 10 апр в 17:35

Неплохо бы привести примеры этой олимпиады.

-1

n0isy 10 апр в 17:52

В статье есть и скрин и ссылки.

vanxant 10 апр в 19:14

По ссылкам нет задач. Ну точнее они есть, но хотят регистрацию

Batalmv 10 апр в 17:56

Мне одному показалось что в заголовке написано "Вышла новая версия GPT-4 и она уже покоряет математические олимпиады", а по ссылке "AI Mathematical Olympiad"

Т.е. покоряет не олимпиады для людей, а олимдиады для АИ.

Что как бы совсем другое

ну а

Она демонстрирует впечатляющие результаты в решении сложных математических задач олимпиадного уровня и значительно превосходит предыдущую в данной области.

Тут уже пропуск слова "AI" выглядит откровенной ложью

Либо примеры задач в студию, либо извините, статья - реально ложь и грубейшая подтасовка фактов

+36

Jipok 10 апр в 18:20

Надеюсь перестанет лагать. Пользоваться гпт4-турбо последние недели две было отвратительно. Задержки, обрывы ответа, таймауты

FreeNickname 10 апр в 18:22

и свежая модель GPT-4 задает новые стандарты на этом этапе.

но Claude 3 Opus по-прежнему гордо восседает на первом месте

Lithium_vn 10 апр в 18:27

Claude на первом месте рейтинга, упомянутого в новости, а данных по этой модели в нем еще нет, поэтому в ближайшее время все может измениться

FreeNickname 10 апр в 18:28

А, криво прочитал, значит) Мои извинения.

SergejSh 10 апр в 19:44

Сначала машины были сильнее, теперь умнее что дальше? Мне страшно!!!

Fell-x27 10 апр в 22:21

что дальше?

Надеюсь, следующий рубеж - доброта/человечность. Вот уж где не буду переживать, если нас обойдут.

sim31r 11 апр в 01:59

Тут слишком абстрактно. Доброта это отсутствие зла. А отсутствие зла это отсутствие жизни. Поставив цель ИИ достичь абсолютного добра, эффект может быть неожиданным.

oleg_rico 11 апр в 07:16

Читал давно фантастический рассказ, где вновь построен на интеллектуальный дом просто не выпускал владельца наружу потому что там опасно а дом очень заботился. Так что сама по себе абстрактная доброта может быть не так нами понятой

Antocyan 12 апр в 21:12

Читал рассказ, гда компьютер наоборот не пускал космонавтов на какую-то станцию, исходя из заложенных правил, и они могли умереть от нехватки воздуха. В конце там была фраза, что не надо по итогам этой истории закладывать в компьютер правило, что космос опасен для людей, а то он их не выпустит никогда )

kometakot 11 апр в 07:52

Да половина антиутопий на эту тему основываются на том, что раз машина абсолютно добра, а человек - нет, ну, значит, ему же хуже.

Ivan22 11 апр в 09:56

матрица же!! Эталон заботы.

SergejSh 12 апр в 17:44

Машина в этом отношении зависит от Настроек заданных разработчики. А разработчики люди. Пока.. по крайней мере.

aansty4U 10 апр в 19:47

Спасибо большое за новость, очень интересно было прочитать! ;)

shares-caisson 10 апр в 19:50

Ещё стихи научилась писать лучше

kilgor-trout 10 апр в 21:19

стихи и вся остальная часто бессмысленная говорильня это и есть их единственное преимущество...

непонятно какой уровень задач, хотя бы до школьных дотягивают? и что если придумать что-то откровенно новое, с парадоксиком, как всегда облажается?

-1

shares-caisson 10 апр в 21:35

Конкретно со стихами были проблемы из-за токенизации, но видимо дотренировали.

Что касается задачек, то там разный уровень, и до уровня международной олимпиады по математике доходит и соревнование есть на $10 миллионов кто первый сможет золотую медаль там получить. И просто бенчмарки с вопросами уровня студента/выпускника вуза по многим специальностям.

foxez 11 апр в 02:09

При токен изации предложен ий слов а пред обрабат ываю т вот так перед отправ кой в модел ь

Из-за этого модель плохо дружит с рифмой

sim31r 11 апр в 01:59

На английском всегда неплохо писали. На русском нет.

oleg_rico 11 апр в 07:18

Зато вчера попросил gpt чат от сбера решить задачку на комбинаторику и только через несколько итераций смог заставить его поверить, что числа девять и семь - это нечётные:)

qw1 11 апр в 09:00

Всегда удивлялся с таких попыток "объяснить" что-то чату-гпт. Ну да, вы потратили время и силы, чтобы заставить чат повторить фразу именно в той формулировке, как вам надо. Но это ж никак не влияет на последующий диалог. Вот она сказала и забыла. Но она себе не зафиксирует, что вот об этом договорились, это надо принимать за истину в последующих рассуждениях.

oleg_rico 11 апр в 14:18

Даже интересно, что ответит сберовский чат на ваш вопрос.

Задача следующая: на дереве висят 10 яблок, нужно рассчитать количество способов сорвать нечётное число яблок с позиции комбинаторики.

qw1 11 апр в 14:57

Вопрос, заваулированный в моём комментарии выше, следующий: убедив чат, что 7 и 9 - нечётные числа, это помогло решить задачу в исходной формулировке? (именно в исходной, а не явно попросив "посчитать число способов сорвать 7 и 9 яблок")

oleg_rico 14 апр в 06:46

Да, как я уже и сказал после нескольких поправок подряд он решил задачу целиком правильно

MountainGoat 11 апр в 09:03

Может они видят себя как чётные — вы их спрашивали?

Rubilnik 11 апр в 10:18

А почему в таблице 956 зелёным выделено?)

TaksShine 11 апр в 11:02

Кстати, выход новой версии GPT-4 совпал с обновлением рейтинга, в
котором модель CMD-R+ от Cohere на 100B+ параметров обогнала исходные
версии GPT-4 весны 2023 года, но Claude 3 Opus по-прежнему гордо
восседает на первом месте.

Ссылка на рейтинг тут была бы в тему. Поделитесь?

Lithium_vn 11 апр в 11:21

Спасибо, что отметили! Добавила ссылку в новость)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий