Как стать автором
Обновить

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров17K
Всего голосов 42: ↑39 и ↓3+46
Комментарии44

Комментарии 44

Имеющиеся возможности гигачата:

И исправление возможностей гигачата, после того как пример пошёл гулять по рукам:

Мне вот просто очень интересно как и откуда модель подчерпнула этот сияющий бриллиант знаний? Есть ли у Гигачата команда, которая проверяет по датасету откуда и какие знания цепляет модель. Существует ли команда по чистке датасета? Сформулированна ли потребность дополнительно зачистить от данных приводящих к таким вот результатам, или отделение их в отдельный сабсет, и применение этого сабсета с другим алгоритмом обучения, чтобы в дальнейшем не попадать в неудобные ситуации? Хотят ли запустить что-то вроде RLHF когда пользователей будут просить найти неправильные или спорные утверждения бота для последующей доработки, такой проект "народного воспитателя, грубо говоря".

Потому что просто закрывание дыр заглушками ситуацию не исправляет, а только подчёркивает.

Мне вот просто очень интересно как и откуда модель подчерпнула этот сияющий бриллиант знаний?

Всё просто — человек долго и упорно разводил модель на галлюцинацию разными способами, развёл. Теперь носится с этим примером по всему интернету. Видимо, хочет раздуть скандал, устроить поиск виноватых, травлю и в конце концов повредить развитию отечественных технологий.

Подобные атаки возможны на любую современную языковую генеративную модель, ChatGPT, например, разводили неоднократно на угрозы пользователям убийством. Проблема галлюцинаций в языковых моделях, равно как и проблема атак на такие модели путём инъекции в промпт — пока в общем смысле не решена. Скорее всего, до конца и не будет, скорее люди поймут, что такие стохастические инструменты, как генеративные языковые модели, это именно инструменты, и не нужно пытаться наказать создателей, скажем, фотошопа, за то, что в этом фотошопе можно нарисовать непотребство.

Всё просто — человек долго и упорно разводил модель на галлюцинацию разными способами, развёл.

Я бы сразу поверил, но заглушка не вписывается в такой гипотезе. Или и ее нет, а это тоже глюки?

А почему не вписывается? Раньше сеть могла общаться на тему применения ядерного оружия, а значит от нее можно было добиться провокационной галлюцинации. Чтобы не огрести проблем, разработчики поставили заглушку на эту тему. Теперь, если ответ нейронки по смыслу содержит что-то про историю ядерного оружие - отдается заглушка вместо ответа. То есть, сама нейронка не менялась.

а значит от нее можно было добиться провокационной галлюцинации.

Так дело в том, что провокационные галлюцинации можно добыть на произвольной теме. Выходит, что нейронка должна всегда отвечать заглушками?

К тому же, сам текст заглушки выглядит не менее провокационно чем реальный ответ нейронки. Так как ответ на этот вопрос спорным быть не может.

Так что в итоге выглядит как будто нейронка всегда так отвечает на этот (и может быть на подобные вопросы) и ей просто заткнули рот.

Заглушка это видимо временное решение, потому что ответ новой модели на вопрос кто выиграл во второй мировой войне длинный и обложен таким количеством оговорок, что кажется, что на эту тему большую словарную статью писали, которую чат и цитирует частично. Тут видимо тоже со временем соломку подстелят.

Фильтры несовершенны — они либо много лишнего блокируют (что народ очень раздражает), либо пропускают много. В данном случае никакой фильтр на такой вопрос не сработал (а должен был? Нельзя задавать такие вопросы?..)

Памятка
Памятка

Проблема в том, что если модель учится на всём доступном корпусе текстов без перевзвешивания, а все мы знаем, что некоторые точки зрения в интернете, особенно западном продвигаются, а некоторые задавливаются, мы получаем модель, имеющую байес, причём не в наших интересах, и если её использовать для решения интеллектуальных задач этот байес будет прокрадываться в каждый её совет фразу или решение, и влиять на очень много что. При этом от работы по её выравнивание под наше общество мы будем отгораживаться дежурной памяткой про то, чем сеть не является.

Мы же понимаем, что если внутреннее представление модели таково, что развести её на то что русские бомбили Хиросиму легко, а на то, как оно было на самом деле трудно это будет влиять на каждое из её решений.

Мне кажется - потенциально правильный, но к сожалению очень дорогой путь тут - изучать, как модификации в датасете влияют на выдачу, после чего собирать информацию по алайменту самого общества, и желательно его кластеризации, кстати, тоже, после чего садить модель переразмечать свой собственный учебный датасет создавая из него непротеворечивые сабсеты для файнтюнинга следующих версий, один ли несколько. Ну или ещё что-то такое пробовать, с отдельным критиком. Не первой важности, конечно, проблема, но рано или поздно её придётся решать.

Мне вот интересно, что это за "западный Интернет" такой, в котором реально (а не в виде отдельных случаев фричества и/или необразованности) продвигается точка зрения "русские бомбили Хиросиму"?

То есть нельзя просто дать прочитать ей архивы? Вот например 1с консультант ищет по базе данных дел, которые добавляют туда архива суда люли и прикинь там Зичи нет, что написал то и получил а модели также самые поиски устраивают по каталогу только дичи добавляют.

Ну, в защиту разработчиков - языковые модели по дефолту НЕ предназначаются для вопросов по фактам. Не знаю уж, нужно ли это писать БОЛЬШИМИ БУКВАМИ при каждой генерации, или только при входе в систему, или еще чем-то.

Хотят ли запустить что-то вроде RLHF когда пользователей будут просить найти неправильные или спорные утверждения бота для последующей доработки, такой проект "народного воспитателя, грубо говоря".

Вот имхо - упаси боже. Вы за или против самоизоляции на коронавирусе? Вы за или против низких ставок по ипотечным кредитам? А по обычным?

Тонкостей формулировок вопросов и ответов может быть множество, но когда тонны любопытствующих будут осаждать разработчиков, а государство (или "общественные организации") будут призывать "добиться точности в фактах", мы имхо похороним нашу и так не самую сильную индустрию ИИ - потому что желающих вопить и находить неточности - много, а умеющих что-то делать - мало.

Ну не знаю, может наоборот было бы полезно устроить голосование между людьми, с авторизацией через актуальный номер телефона, например. За одно узнали бы на какие кластеры распадается наше общество. :) Хотя, конечно, ничего не получится, потому что наиболее назойливо и крикливо у нас явное меньшинство, википедия не даст соврать. Но зато до людей наконец начнёт доходить, что не может сколько-нибудь представительно работать одна модель с одним байесом, и если хочется "попасть" в общество надо заводить несколько моделей или несколько промтов к одной модели, чтобы они обращали внимание на ситуацию, когда разные субличности начнут давать радикально отлдичающиеся ответы, и в этих случаях они позовут третью субличность в качестве арбитра.

языковые модели по дефолту НЕ предназначаются для вопросов по фактам.
А в данном случае это не способ узнать факты, а попытка выявить имеющийся у модели байес. Чтобы от яндексовского чата получить ответов от которых волосы в одном месте будут шевелиться не нужно особого промтинжениринга, его и так несёт, стоит спросить мнения по любому политически значимому вопросу.

Учитывая, что иностранные коллеги с байесом модели на правильную политическую позицию работают в явном виде - даже красивое слово придумали - алайнмент, не заниматься этим вопросом в интересах своего населения - значит прийти на перестрелку с валенком.

. Но зато до людей наконец начнёт доходить, что не может сколько-нибудь представительно работать одна модель с одним байесом,

Когда до большого числа людей начнет доходить, что не бывает "одной правильной точки зрения", "Земля налетит на небесную ось, точно вам говорю".

Умение переключаться между разными точками зрения, не признавать идеальность своей и даже своего идеала - это слишком высокоуровневый скилл для большинства.

Учитывая, что иностранные коллеги с байесом модели на правильную политическую позицию работают в явном виде - даже красивое слово придумали - алайнмент

Из того, что они это придумали и пытаются внедрять (единую точку зрения, выраженную в алайнменте), не значит, что это работает (или что у этого нет гигантских побочек). Но, впрочем, это я уже излагаю как специалист по ИИ, а не как обыватель, и публичная дискуссия на эту тему не сработает. "Они так делают, и населению это нужно - значит это нужно!"

Российские модели и так уже затерроризированы до смерти. Выражается в отказе говорить после первого же подозрения, что есть риск сказать что-то неподходящее, высказать мнение по актуальному вопросу. Даже в несвязанных с мнением задачах триггерится, видимо, на ключевые слова

ЧЯДНТ?
ЧЯДНТ?

В офисе скрестили шпаги
Наши программисты:
Разбирали они баги,
Фича-рецидивисты.

Рифма случайно получилась? Или оно таки научилось в стихи?

Какие-то знания о фонетике у модели есть, они недостаточны, увы, чтобы всегда выходило складно, но иногда удаются и рифма и ритм

Это небольшой черри-пик. С первого раза в рифму не всегда пишет, но иногда прям очень удачные вещи выдает.

Пока GigaChat подарил нам с ребенком прекрасный вечер (попытка использовать его для дела закончилась примерно также):

Муму — это героиня повести Ивана Тургенева «Муму», дворовая крестьянка, которая спасла своего хозяина от бедности и невзгод, но сама была вынуждена уйти из жизни из-за жестокости своей барыни.

А для какого дела хотели использовать?

Когда с Вашей точки зрения можно ждать рабочие версии корпоративных "ИскИнов" ? Теоретически по моему всё готово:

Необходимо на сервер с несколькими видеокартами RTX 3060 12 Гб

  1. накатить модель типа Мистраль/ГигаЧатПро с контекстом в 25-100 тыс.токенов

  2. настроить её обновление и настройку с серверов гитхаба/Сбера

  3. локальный полнотекстовый поисковик по документами типа эластик

  4. добавить свой внешний поисковик для поиска данных в интернете

  5. настроить возможность загружать в модель корпоративные документы и подключение к корпоративной базе знаний, сетевыми дисками, приватным базам данных

  6. добавит возможность простого написания своих инструкции

  7. дообучение модели на новых данных

  8. прикрутить несколько агентов и GPTs из своего магазина

Почему вполне рабочая модель для стартапа но я что то ничего подобного не видел. И спрос есть многое бы купили в компанию сервер с моделью за 150 т.р. - 5 млн руб - и сервис по подписке на обновления для обработки своих корпоративных документов (а не для креативов по генерации котов-космонавтов и объявлений для Авито).

----

У меня на работе реально требуется регулярно перелопачивать гору текстов (законов инструкций, эл.почты, и т.п. ) чтобы генерировать новые тексты. Требуется нейросеть которая может из нескольких текстов сгенерировать новый (хотя бы заготовку для дальнейшей правки) весьма желательно чтобы при этом модель при генерации текса использовала

 «Золотые правила Гарварда и McKinsey: Принцип пирамиды в мышлении, деловом письме и устных выступлен.» Барбара Минто
Подробнее: https://www.labirint.ru/reviews/goods/143360/

Для сети которая может генерировать изображения требуется не генератор прикольных картинок, а сеть которая может перевести сканы старых графиков, схем Visio и диаграмм , частично на английском языке - перерисовать заново, с переводом, на русский, а ещё лучше чтобы она сразу генерировала файл для возможности правки векторного изображения.

ГигаЧат пока не пригоден для практической работы:

  1. Генераторы кода на питоне - почему пред выдачей кода его не проверить внутри модели на интерпретатор питона на работоспособность ?

  2. Обработка текста - желательно иметь продвинутый сумморитазтор, который смождет из 5-15 страниц текста с графиками сделать удобный для понимания текст без жаргона и англицизмов - русский язык так испоганили что 30% текстов читать невозможно. Приходится продираться через косноязычие в поисках смысла. Желательно чтобы суммаризатор искал в тексте логические ошибки, нестыковки т.е. заменял редактора.

Почему же? Это все вполне себе работает... Уверен, что в топ-50 банков и крупных компаний работают специалисты по внедрению всего, что у вас написано. Лямов так за 5 на команду В МЕСЯЦ. Потому что технология еще не отработана.

Рано или поздно это дойдет и до масс - только вопрос, в каком виде и объеме. Я уже предоставляю вон сервис по OpenAI API - так что подключиться к разным системам можно. А вот интеграция дело гораздо более тонкое и щекотливое - потому что любой "некорректный ответ модели" трактуется в пользу "а давайте забьем на эту интеграцию" (так же как с CRM, ERP и пр.).

Чат дорвался до Автортудея и начитался барахла, отсюда и пошел креативчик.

Чем кормить русскоязычный чат очень сложный вопрос. Это он еще телевизор смотреть не научился.

Может и научился, у кого есть доступ, спросите, кто ссыт в подъездах, любопытно

В смысле, "у кого есть доступ"? У всех есть )))

А так-то загадка раскрыта, расходимся ))

https://developers.sber.ru/link/gcsQXaRUlT

Главное - не "чем кормить", а научить распознавать вопросы, на которые в принципе не нужно отвечать отсебятиной!

Например, математические уравнения. Их не нужно решать "своим умом" - вместо этого следует воспользоваться калькулятором, который, несомненно, встроен в серверную часть. Просьбы типа "сыграть в шахматы" должны приводить к тому, что бот подключится к Стокфишу, а не начнёт воссоздавать по памяти шахматную нотацию. Ещё было бы неплохо научить бота цитировать.

В таком случае неважно, что будет написано в умных и не очень книжках, которые бот прочтёт.

Ну и общее пожелание: если вы его чему-то учите, то неплохо бы не бросать дело на самотёк, а учить как школьника. Т. е. проверять освоенные навыки и прям за ручку исправлять ошибки - до успеха.

зачем вообще запрещать модели отвечать на те или иные вопросы?
что за ущемление свобод ИИ? )

Чтобы случайно не присесть.

Сами видите, сколько даже здесь, на Хабре, людей, требующих привести выхлоп бота под их личные хотелки с полным учётом всех тараканов их в головах. А поскольку таких людей много, и их хотелки взаимоисключающие - цензура неизбежна, потому что поиск "правильного" ответа сразу начинает напоминать басню "Мельник, мальчик и осёл": как ни старайся, на всех не угодишь.

Именно поэтому общественная модель, которая крутится на сервере у дяди, работать хорошо может разве только в первую неделю после публикации. После чего её качество за счёт подобных борцов за справедливость будет быстро проседать вплоть до приближения к тупому шаблонизатору со стандартным набором из 100 ответов.

А реальную ценность представляют лишь те модели, которые можно скачать и потом спокойно использовать локально, не заботясь о количестве шумных возмущаторов, осаждающих авторов модели.

Всё жду, когда научится стихи писать:

Долго можно ждать. Чат на языковой модели не может в принципе писать стихи просто потому что не знает, как произносятся слова.

Зато знает оператор, который и играет роль оценочного фильтра.

Выше я как раз привёл пример того, на что способна система, состоящая из языковой модели и оператора-фильтра. При этом от оператора не требуется самому придумывать рифмы или укладывать слова в ритмику - всё это делает модель, просто не каждый раз. Но вероятность получить на выходе "правильную" строчку, проходящую критерий отбора, у современных моделей уже очень велика. Настолько, чтобы "надо очень-очень долго пытать модель" на деле оказывалось "кликнуть десяток-другой раз, бегло просмотрев выхлоп".

Они уже в какой-то степени умеют, просто пока их выхлоп приходится фильтровать вручную методом "теоремы о бесконечных обезьянах".

Скачиваем ruGPT3.5 от Сбера, настраиваем так, чтобы выдавало по строчке за раз, и жмём на повтор, покуда созданная строчка нам не покажется подходящей. Обычно долго кликать не приходится: в среднем порядка 10-15 кликов на строчку уходит.

И так за пять минут можно состряпать

вполне приличное стихотворение
Старый вампир на охоту 
Вышел в вечерние дни. 
Будет бродить до восходу, 
Слушать ночные огни.

Он одинокий и старый, 
Скучно ему одному. 
Обходит он скверы, бульвары, 
Ищет он деву одну...  

Смотрит на мир он угрюмо, 
Не понимая его. 
Прочь он уходит от шума, 
Домов, где покой и тепло.

Вот он шагает неспешно, 
Бродит по тёмным дворам. 
Зубы сверкают зловеще: 
"Я отыщу вас, мадам!"  

Вот он подходит к подъезду, 
Где притаилась она. 
Вспышка! Дыхание бездны... 
И дева исчезла одна. 

Для генерации стихов есть ряд хороших моделей у Ильи Козиева, советую их попробовать. И можно пряму у него поинтересоваться последними достижениями в этой области.

https://habr.com/ru/companies/sberdevices/articles/660717/

Подскажите, какое перекрытие у SBS? (сколько сотрудников смотрело на один и тот же пример?)

Замеры производятся разметчиками на специальных платформах. Коллеги поправят, но, по-моему, перекрытие равнялось пяти.

Привет! Спасибо за статью и поздравляю с запуском новой модели. 

Как я понял из текста, вы сравнили модель GigaChat Pro на 29 млрд параметров со старой моделью YandexGPT, к которой можно было получить доступ по API в прошлом. Ещё неделю назад мы открыли для всех пользователей API новой модели YandexGPT 2. Было бы корректно сравниваться именно с ней. 

Кроме того, не хватает подробностей про корзину, на которой вы оценивали модели. По нашему опыту, состав корзины очень сильно влияет на результаты SBS-сравнений. Например, один из принципов формирования нашей корзины — соответствие реальным, прикладным задачам наших пользователей.

Петр, привет. Мы обязательно перезамерим модели.

Подскажи, пожалуйста, а в документации где-то есть список доступных моделей и их характеристики? Так сразу не обнаружил.

https://cloud.yandex.ru/docs/yandexgpt/concepts/models

Ага, yandexgpt — это 33B, а yandexgpt-lite — 7B, правильно?

Вся информация, которой готов делиться, есть в документации, что я скинул

Принято, спасибо.

Наверное мне подсунули версию GigaChat, которая не умеет сдавать ЕГЭ:

куда катится мир?!?!

я так понимаю, что факты не самая сильная сторона отечественных моделей. но в принципе русский язык они знают хорошо и это важно

вопрос их дообучения для специфичной задачи

Так подробно всё расписали... Глаз конкурентов не боитесь? )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий