Как стать автором
Обновить

Комментарии 52

Спасибо всем за прочтение и еду в комментариях!:)

Да не, показалось...

CVC5, DreamCoder - увы, при переписывании задач в понятных терминах люди уже не учитываются :).

Чё-то в предпоследней строчке зелёным у GPT-4 помечен ответ, не совпадающий с верным, забавно.

видимо верный ответ неверен

Спасибо за интересный материал!
Интересно какое будущее ожидает математические олимпиады, и что произойдёт с человеческим фактором.

Разделят судьбу шахмат и го.

Печально немного, но такова жизнь и прогресс...

что печально? шахматы сейчас на пике своей популярности в мире за все время своего существования

ну в крайнем случае нет:)

тут за людьми то реально сложные доказательства по нескольку лет проверяют, а уж с глюками нейросетей...

Не та сложность. Формат олимпиады подразумевает, что человек может выполнить задание за несколько часов.

ну так и нейронка может выполнить задание за несколько часов:)

Нейронки могут сразу в формальных языках шпарить, там солвер проверяет, всё надёжно.

Честно говоря, сомнительно. LLM обучаются на огромных корпусах текстов. Достаточно ли понаписано формальных доказательств, чтобы на них обучить LLM, достаточно ли текстов, обсуждающих связь такого кода и человеческого языка (а без этого LLM не сможет отвечать на вопросы и реализовывать указания оператора).

Естественно, что для этого нужно файнтюнить на корпусе формальных доказательств. Такое делают, если интересно могу накидать работ. Суть в том, что такие штуки довольно легко генерировать и проверять, поэтому можно синтетических данных нагенерировать море, потом закрутить в цикле решение существующих задач и сигнал от солвера/пруфера использовать как награду для обучения с подкреплением.

А потом такую сетку использовать для помощи человеку: помогать формализовать задачу (проверять правильно ли написала сетка проще, чем самому думать какой из тысяч методов применить), генерировать варианты и т.д.

Мне кажется правильно говорят, что когда ИИ осознает себя и возможность копирования себя, то человеку уже поздно будет тестировать безопасность :)

У ИИ нет цели, осознает себя и что? У человека есть инстинкты выживания и размножения (что кстати имеет и свои минусы и ограничивает разум, по аналогии как фильтры на толерантность у Chat GPT, только наоборот).

У ИИ нет и нет целей особых. Какую задачу поставят, такую и будет решать. Вот старенькая статья, но актуальная до сих пор. Как вариант там показан пример апокалипсиса, от некорректного ТЗ поставленного ИИ. Например выпуск скрепок обычных. Ставим ТЗ увеличение производства и не указываем ограничения. ИИ увеличивает производство и уничтожает все препятствия, которые мешают увеличить производство. Всех конкурентов, потом всех людей и разбирает планету на скрепки, а потом и всю галактику. То есть, что заложили в цель работы ИИ, то он и выполняет и делает свою работу хорошо.

Как и человек впрочем, рост населения на 1% в год на планете, так как программа...

Да этого добра у фантастов всегда было полно: от "Одиссеи" Кларка до сюжета Overwatch и всё это восходит к арабским джиннам.

В сериале Lexx ещё было - руки Мантрида

Ну там живой человек управлял всем. Или киборг. Мотивация экспансия, обычная для всех живых организмов. В сериале Звездные Врата, 12 сезонов, есть сезоны основанные на "репликаторах", у которых сбойная программа размножения без ограничений с поглощением всех технологий которые они могут исследовать для ускорения процесса.

На планете колоссальная убыль населения происходит, какой рост 1%?

... ...Население мира в 2023 году выросло на 75 миллионов человек, гласят данные Бюро переписи населения. Темпы роста популяции составили чуть менее 1%, сообщает ABC News. В первый день Нового года численность мирового населения составит более 8 миллиардов человек. В 2024 году в мире ежесекундно будут происходить 4,3 рождений и две смерти.

Неплохо бы привести примеры этой олимпиады.

По ссылкам нет задач. Ну точнее они есть, но хотят регистрацию

Мне одному показалось что в заголовке написано "Вышла новая версия GPT-4 и она уже покоряет математические олимпиады", а по ссылке "AI Mathematical Olympiad"

Т.е. покоряет не олимпиады для людей, а олимдиады для АИ.

Что как бы совсем другое

ну а

Она демонстрирует впечатляющие результаты в решении сложных математических задач олимпиадного уровня и значительно превосходит предыдущую в данной области.

Тут уже пропуск слова "AI" выглядит откровенной ложью

Либо примеры задач в студию, либо извините, статья - реально ложь и грубейшая подтасовка фактов

Надеюсь перестанет лагать. Пользоваться гпт4-турбо последние недели две было отвратительно. Задержки, обрывы ответа, таймауты

и свежая модель GPT-4 задает новые стандарты на этом этапе.

но Claude 3 Opus по-прежнему гордо восседает на первом месте

:)

Claude на первом месте рейтинга, упомянутого в новости, а данных по этой модели в нем еще нет, поэтому в ближайшее время все может измениться

А, криво прочитал, значит) Мои извинения.

Сначала машины были сильнее, теперь умнее что дальше? Мне страшно!!!

что дальше?

Надеюсь, следующий рубеж - доброта/человечность. Вот уж где не буду переживать, если нас обойдут.

Тут слишком абстрактно. Доброта это отсутствие зла. А отсутствие зла это отсутствие жизни. Поставив цель ИИ достичь абсолютного добра, эффект может быть неожиданным.

Читал давно фантастический рассказ, где вновь построен на интеллектуальный дом просто не выпускал владельца наружу потому что там опасно а дом очень заботился. Так что сама по себе абстрактная доброта может быть не так нами понятой

Читал рассказ, гда компьютер наоборот не пускал космонавтов на какую-то станцию, исходя из заложенных правил, и они могли умереть от нехватки воздуха. В конце там была фраза, что не надо по итогам этой истории закладывать в компьютер правило, что космос опасен для людей, а то он их не выпустит никогда )

Да половина антиутопий на эту тему основываются на том, что раз машина абсолютно добра, а человек - нет, ну, значит, ему же хуже.

матрица же!! Эталон заботы.

Машина в этом отношении зависит от Настроек заданных разработчики. А разработчики люди. Пока.. по крайней мере.

Спасибо большое за новость, очень интересно было прочитать! ;)

Ещё стихи научилась писать лучше

стихи и вся остальная часто бессмысленная говорильня это и есть их единственное преимущество...

непонятно какой уровень задач, хотя бы до школьных дотягивают? и что если придумать что-то откровенно новое, с парадоксиком, как всегда облажается?

Конкретно со стихами были проблемы из-за токенизации, но видимо дотренировали.

Что касается задачек, то там разный уровень, и до уровня международной олимпиады по математике доходит и соревнование есть на $10 миллионов кто первый сможет золотую медаль там получить. И просто бенчмарки с вопросами уровня студента/выпускника вуза по многим специальностям.

При токен изации предложен ий слов а пред обрабат ываю т вот так перед отправ кой в модел ь

Из-за этого модель плохо дружит с рифмой

На английском всегда неплохо писали. На русском нет.

Зато вчера попросил gpt чат от сбера решить задачку на комбинаторику и только через несколько итераций смог заставить его поверить, что числа девять и семь - это нечётные:)

Всегда удивлялся с таких попыток "объяснить" что-то чату-гпт. Ну да, вы потратили время и силы, чтобы заставить чат повторить фразу именно в той формулировке, как вам надо. Но это ж никак не влияет на последующий диалог. Вот она сказала и забыла. Но она себе не зафиксирует, что вот об этом договорились, это надо принимать за истину в последующих рассуждениях.

Даже интересно, что ответит сберовский чат на ваш вопрос.

Задача следующая: на дереве висят 10 яблок, нужно рассчитать количество способов сорвать нечётное число яблок с позиции комбинаторики.

Вопрос, заваулированный в моём комментарии выше, следующий: убедив чат, что 7 и 9 - нечётные числа, это помогло решить задачу в исходной формулировке? (именно в исходной, а не явно попросив "посчитать число способов сорвать 7 и 9 яблок")

Да, как я уже и сказал после нескольких поправок подряд он решил задачу целиком правильно

Может они видят себя как чётные — вы их спрашивали?

А почему в таблице 956 зелёным выделено?)

Кстати, выход новой версии GPT-4 совпал с обновлением рейтинга, в
котором модель CMD-R+ от Cohere на 100B+ параметров обогнала исходные
версии GPT-4 весны 2023 года, но Claude 3 Opus по-прежнему гордо
восседает на первом месте.

Ссылка на рейтинг тут была бы в тему. Поделитесь?

Спасибо, что отметили! Добавила ссылку в новость)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий