alenusch 22 ноя 2023 в 14:30

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

12 мин

5.2K

Блог компании SberDevicesМашинное обучение*Natural Language Processing*

+29

Комментарии 9

Kristaller486 22 ноя 2023 в 15:46

Для SFT моделей добавьте системный промпт

Можно какой-нибудь гайд, куда его в коде вставлять? Уже 30 минут пытаюсь вдуплить, но что-то не выходит. Хотя бы намек дайте.

alenusch 22 ноя 2023 в 16:21

Добрый день!
Можно посмотреть в сторону: https://github.com/ai-forever/MERA/blob/main/lm-evaluation-harness/lm_eval/base.py#L714

К сожалению я не знаю, какая у вас модель. Системные промпты у разных моделей могут быть разными и встраиваться по разному. Где-то это общий промпт вначале, где-то нужно обрамлять тегами/токенами и т.д. Тут всё уникально, поэтому мы не стали никак фиксировать на данном этапе.

Надеемся получить различные сабмиты моделей, чтобы далее, учитывая разнообразие, предложить некоторый вариант общий, как это встраивать. Будем рады вашим pull request.

Kristaller486 22 ноя 2023 в 17:12

Спасибо за ответ. Я хочу протестировать модель OpenChat 3.5, для которой по личному опыту заметил очень хорошие способности на русском.

Как предложили ниже, было бы хорошо иметь возможность обернуть модель в OpenAI API совместимый сервер, коих хоть отбавляй, т.е. работа с системным промтом на нём, а evaluator просто использует openai.ChatCompletion.

upd: Еще можно добвить, что некоторые модели на hf имеют prompt_template в конфиге, который библиотека transformers умеет использовать.

alenusch 27 ноя 2023 в 10:54

Спасибо больше за предложения! В каком-то смысле мы заложники тут самой открытой библиотеки lm-harness, и будем так или иначе дорабатывать код, исходя из её возможностей и развития проекта

Kristaller486 27 ноя 2023 в 11:21

Вроде как в ветках openai_completion и big-refactor оригинльной lm-evaluation-harness есть частичная поддержка ChatCompletion. Я был бы рад сам поучаствовать в этом всём, но еще несколько месяцев назад пытался подступиться к lm-evaluation-harness, не осилил - это не код, это жесть, сил вам с этим делом.

alenusch 27 ноя 2023 в 15:55

<3 спасибо
Разбираемся

Liusch 1 дек 2023 в 09:05

Добрый день😊, посмотреть можно, но что-то мало что понятно😔 Если бы Вы пример привели как это делать (хотя бы на своих моделях), то было бы супер!👍

janvarev 22 ноя 2023 в 16:39

Коллеги, я был бы не против сделать анализ, но можно сделать простой eval на ваших тестах, который бы отсылал запросы на OpenAI server endpoint (chat / completion)?

Потому что масса всего поддерживает OpenAI server реализацию, и копаться отдельно "как встроить модель, чтобы померять" как-то не хочется.

ChatGPT поддерживает, GigaChat поддерживает, у меня куча моделей поддерживает. Можно простой evaluator в этом контексте сделать?

mangeld 30 ноя 2023 в 08:35

4 декабря приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшн GigaChat и речевых технологий.

На митапе SberDevices ведущие разработчики GigaChat расскажут о новой модели, поделятся деталями сбора данных для предобучения и метриках, которых достигают 7B и 29B модели, лежащие в основе GigaChat.
Мы также поговорим о наших подходах в разработке речевых технологий (ASR/TTS):
— создание моделей распознавания речи;
— дообучение для задач распознавания речи и эмоций;
— какие модификации мы сделали в обучении, архитектуре и инференсе моделей TTS, чтобы победить прод и научить модель разговаривать лучше и др.

Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.

Подробнее о программе встречи и регистрация на сайте https://sberdevices-meetup.jugru.org/
Количество мест в офлайне ограничено.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий