Как стать автором
Обновить

Комментарии 9

Для SFT моделей добавьте системный промпт

Можно какой-нибудь гайд, куда его в коде вставлять? Уже 30 минут пытаюсь вдуплить, но что-то не выходит. Хотя бы намек дайте.

Добрый день!
Можно посмотреть в сторону: https://github.com/ai-forever/MERA/blob/main/lm-evaluation-harness/lm_eval/base.py#L714

К сожалению я не знаю, какая у вас модель. Системные промпты у разных моделей могут быть разными и встраиваться по разному. Где-то это общий промпт вначале, где-то нужно обрамлять тегами/токенами и т.д. Тут всё уникально, поэтому мы не стали никак фиксировать на данном этапе.

Надеемся получить различные сабмиты моделей, чтобы далее, учитывая разнообразие, предложить некоторый вариант общий, как это встраивать. Будем рады вашим pull request.



Спасибо за ответ. Я хочу протестировать модель OpenChat 3.5, для которой по личному опыту заметил очень хорошие способности на русском.

Как предложили ниже, было бы хорошо иметь возможность обернуть модель в OpenAI API совместимый сервер, коих хоть отбавляй, т.е. работа с системным промтом на нём, а evaluator просто использует openai.ChatCompletion.

upd: Еще можно добвить, что некоторые модели на hf имеют prompt_template в конфиге, который библиотека transformers умеет использовать.

Спасибо больше за предложения! В каком-то смысле мы заложники тут самой открытой библиотеки lm-harness, и будем так или иначе дорабатывать код, исходя из её возможностей и развития проекта

Вроде как в ветках openai_completion и big-refactor оригинльной lm-evaluation-harness есть частичная поддержка ChatCompletion. Я был бы рад сам поучаствовать в этом всём, но еще несколько месяцев назад пытался подступиться к lm-evaluation-harness, не осилил - это не код, это жесть, сил вам с этим делом.

<3 спасибо
Разбираемся

Добрый день😊, посмотреть можно, но что-то мало что понятно😔 Если бы Вы пример привели как это делать (хотя бы на своих моделях), то было бы супер!👍

Коллеги, я был бы не против сделать анализ, но можно сделать простой eval на ваших тестах, который бы отсылал запросы на OpenAI server endpoint (chat / completion)?

Потому что масса всего поддерживает OpenAI server реализацию, и копаться отдельно "как встроить модель, чтобы померять" как-то не хочется.

ChatGPT поддерживает, GigaChat поддерживает, у меня куча моделей поддерживает. Можно простой evaluator в этом контексте сделать?

4 декабря приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшн GigaChat и речевых технологий.

На митапе SberDevices ведущие разработчики GigaChat расскажут о новой модели, поделятся деталями сбора данных для предобучения и метриках, которых достигают 7B и 29B модели, лежащие в основе GigaChat.
Мы также поговорим о наших подходах в разработке речевых технологий (ASR/TTS):
— создание моделей распознавания речи;
— дообучение для задач распознавания речи и эмоций;
— какие модификации мы сделали в обучении, архитектуре и инференсе моделей TTS, чтобы победить прод и научить модель разговаривать лучше и др.

Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.

Подробнее о программе встречи и регистрация на сайте https://sberdevices-meetup.jugru.org/
Количество мест в офлайне ограничено.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий