Как стать автором
Обновить

LLM Leaderboard за апрель 2024

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4K

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе. 

Из чего состоит бенчмарк?

  • docs - работа с большими документами и базами знаний

  • crm - для работы с каталогами продуктов и маркетплейсами

  • integrate - интеграция со сторонними апишками, сервисами и плагинами

  • marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation

  • reason - насколько хорошо с логикой в рамках предоставленного контекста

  • code - работа с кодом

  • final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B). 

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin
Автор бенчмарка Rinat Abdullin

Что нового? 

  1. Начнем с хорошего. Llama 3 - 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8x22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.

  2. Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.

  3. Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024-04-09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.

  4. Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)

  5. Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.

Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора: it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.

Теги:
Хабы:
+7
Комментарии5

Публикации

Истории

Работа

Data Scientist
54 вакансии
Python разработчик
119 вакансий

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область