janvarev Apr 8 at 11:01

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

Medium

10 min

18K

Timeweb Cloud corporate blogArtificial IntelligenceNatural Language Processing*

Tutorial

+31

Comments 28

APXEOLOG Apr 8 at 12:17

Правда, сайт LLMExplorer, собирающий данные об опенсорс нейросетях с портала Hugging Face, говорит, что их там уже более 33 000 штук. М-да.

Большая часть из них - файт-тюны других открытых моделей под конкретные задачи (в духе "лучше сочиняет стихи о желтых бабочках")

OpenAI: ChatGPT, GPT-4, GPT-4-Turbo

ChatGPT это не модель, это сайт. Общаться там можно с разными моделями (gpt-3.5, gpt-4, gpt-4-vision, etc)

Perplexity

У них вроде нет "своей" модели, просто файн-тюн и инфраструктура вокруг GPT/Claude

Однако число моделей в этом рейтинге невелико (иначе было бы слишком сложно все это поддерживать)

Число моделей там невелико именно потому, что моделей, которые имеет смысл тестировать (т.е. это модели общего назначения, способные сгенерировать хоть что-то вменяемое при zero-shot), довольно мало. Натренировать модель уровня GPT 3.5 стоит несколько миллионов долларов, мало кто может себе позволить такие вложения

janvarev Apr 8 at 12:26

ChatGPT это не модель

Я в курсе, но, увы, приходится частично использовать терминологию широкой публики (упоминание в виде модели ChatGPT 4 меня вообще коробит)

У них вроде нет "своей" модели, просто файн-тюн и инфраструктура вокруг GPT/Claude

М-м. Ну вообще-то нет. Своя модель у них натренирована сначала поверх Llama (я новость писал даже на Хабре), потом Sonar. Да, файнтюн опенсорса, но под задачи "ответить на вопрос по результатам поиска в Интернете" - имхо достойно. Под капотом там не Клауд/GPT-3.5 - во всяком случае, по заявлениям, потому что свечку я не держал.

Число моделей там невелико именно потому, что моделей, которые имеет смысл тестировать

Файнтюны имеет смысл тестировать, они, как правило, лучше исходных моделей - иногда СИЛЬНО лучше. Впрочем, тут возможны разные мнения, и я бы предпочел не погружаться в этот спор. В основном, конечно, сайт тестирует всякий топ.

APXEOLOG Apr 8 at 15:00

Под капотом там не Клауд/GPT-3.5 - во всяком случае, по заявлениям, потому что свечку я не держал.

Вот тут они предлагают возможность использовать Claude/GPT, что наталкивает меня на мысль о том, что у них просто обвязка вокруг LLM.

janvarev Apr 8 at 15:11

Нет, там же написано "Our default model has been optimised for the fastest results and for web browsing with dedicated fine tuning to ensure it performs best with quick searches. "

А так они предлагают купить подписку, и кроме их собственных моделей юзать еще Claude/GPT - но не для поиска, а просто так.

К тому же говорю - у них под капотом кроме модели еще веб-поиск, чего нет в других моделях по API, что приятно.

ainu Apr 8 at 14:46

Больше месяца назад перешёл с GPT4 на Opus, доволен, чаще всего это замена гугла и кодогенерация.

JenyaNorilsk Apr 8 at 16:43

Спасибо, нашёл обзор полезным, но, лично мне, не хватило такого же абзаца про RAG на русском языке при условии опенсорса: какие модели трогать не стоит, какие могут быть полезны и т.п. Посоветуете что-нибудь?

janvarev Apr 8 at 17:13

Если опенсорс, то в целом рекомендую вышеуказанные модели про "опенсорс на русском" в самом начале статьи. Выбирать не так много из чего, к сожалению.

Но вообще RAG сейчас это да - скорее искусство, потому что уж очень много подходов. Можно по эмбеддингам фрагменты вытаскивать, можно искать разделы документов или целые документы и т.д.

Имхо простейший оптимальный способ - забить документ в 200к токенов контекста Клауд 3 Хайку, и все ок. Но, конечно, на очень больших базах такое не работает - и тут надо придумывать. Ну, и конечно, Хайку не опенсорс, локально не поставишь.

Kristaller486 Apr 8 at 22:46

Рекомендую попробовать Cohere Command-R и Command-R+ (последняя 104B, очень дорого запускать). Модель отдельно дообучена для RAG и у неё в pretrain датасете был русский язык. Одно но - лицензия запрещает коммерческое использование, но "для дома" самое оно.

janvarev Apr 9 at 09:45

Да, она у меня тоже есть, но запускается через API Cohere, в соответствии с их лицензией.

Для дома да, к сожалению, тяжелая...

AlexeyPi Apr 9 at 06:17

Кто-нибудь знает как получать summary из YouTube видео на русском если субтитры есть?

Gemini делает это видео на английском, но не русском.

janvarev Apr 9 at 09:53

https://pypi.org/project/youtube-transcript-api/ - для получения сабов. Потом объединяем все в один текст и скармливаем в OpenAI API, просим сделать summary.

venanen Apr 9 at 10:55

https://300.ya.ru/
На удивление очень прикольно работает, и субтитры не нужны.

Extender Apr 9 at 17:34

Мне Gemini делает для русских видео, всего Дудя суммаризовало на отлично

Tihron Apr 9 at 09:49

Очень долго интересуюсь нейронными сетями, пытаюсь реализовывать кодом некоторые структуры и обучать их.Это весело, но очень часто бывают проблемы с тем, чтобы найти подходящий датасет для обучения.

Сейчас пишу трансформер, sequence2sequence, но не знаю, где можно взять датасет, а, главное, как его читать. Читал про токены, часть текста заменить некоторым числом, но не могу найти внятной информации по тому, как превращать текст в токены

С числами было проще, их самому можно было нарисовать и расписать по разным папкам для классификатора. Есть ли какие-то рекомендации? Заранее спасибо.

janvarev Apr 9 at 09:56

Под рукой туториала по токенизации нет, увы.

venanen Apr 9 at 10:56

Можно взять конкретный токенизатор, готовый и обученный. Например, на hugging face, какой-нибудь от BERTa.

Extender Apr 9 at 17:32

Gemini Pro 1.5 пишет классные рассказы на русском. В стиле Пелевина ваще угар. Claude почему то пишет на русском скучно и тупо. Но зато программирует лучше! Даже Haiku пишет код лучше чем я

Malyok Apr 10 at 19:05

Что бы вы посоветовали взять за основу для реализации системы вопрос-ответ на базе своих текстов? Задача обучить модель по своим текстам/инструкциям и в дальнейшем использовать как условный чат-бот для ответов по данной выборке. Минимизация ресурсов очень важна, выход за контекст дообученного материала не нужен и не приветствуется.

janvarev Apr 10 at 19:42

Вы задаете вопрос про RAG, я про него писал комментарий: https://habr.com/ru/companies/timeweb/articles/805261/comments/#comment_26701343

В целом вы ищете "серебряную пулю" - минимизация ресурсов и точность ответов. Как сваять - никто не знает.

Andrey_Epifantsev Apr 12 at 10:57

Если нужно решать задачи программирования…
…я использую GPT-4-Turbo.

А вы ему вопросы на русском задаёте или на английском? Я тоже использую эту модель и задаю вопросы и ТЗ на русском. В принципе выдаёт результаты неплохие, часто можно вставлять в код как есть и он сразу работает. Но всё время гложет сомнение - если напрячься и писать на английском - улучшит ли это качество ответов? Или совершенно без разницы?

Ещё хочется какую нибудь хитрую IDE или плагин для IDE чтобы не нужно было каждый раз писать длинное введение к вопросу с описанием контекста. Чтобы он сразу видел контекст проекта и принятых ранее в этом проекте решений и с учётом этого отвечал на вопрос. И чтобы это не стоило больших денег. Но это наверное уже мечты пока нереализуемые.

janvarev Apr 12 at 11:55

Стараюсь на английском, но вроде недавно было исследование на arxiv, что никакой разницы ))

Насчет контекста - да, считаю, что надо подготовить хороший контекст по проекту, а дальше уже спрашивать (хотя руки толком не доходят)

Насчет плагинов для IDE - есть такой Continuе, у нас с ним есть интеграция, но, честно говоря, руки не доходили толково настроить, пока по старинке в чате делаю.

positroid Apr 17 at 10:28

Было исследование про это - https://arxiv.org/pdf/2403.04792.pdf

Если вкратце - для современных моделей (в статье GPT-4 и PaLM) лучше использовать язык оригинала (т.е. язык, носителем которого вы являетесь), чем заниматься переводами туда-обратно.

Но на практике есть еще вопрос токенизации и контекста - пи использовании английского контекст вмещает в разы больше информации

Andrey_Epifantsev Apr 17 at 15:06

Спасибо за информацию и ссылку.

Я использую сервис Vsegpt. В нём плата берется за символы, а не за токены. Поэтому без разницы на каком языке. Я как-то проверял - одну и ту же задачу давал на русском и на английском. На русском получилось даже дешевле за счёт более короткого ответа.

theurus Apr 17 at 15:36

На английском за токены дешевле чем за символы. На русском почти без разницы. Зачем платить за то что на каждом углу бесплатно раздают?

positroid Apr 17 at 16:23

Речь же не только о стоимости, у моделей есть окно контекста - оно всегда измеряется именно в токенах, английский текст сжимается в токены в несколько раз эффективнее.

Если задача не требует каких-то объемов - да, тут разницы нет.

Lagovi Apr 13 at 20:32

GPT-4-Turbo при хорошей постановке задачи сразу пишет весьма хороший объемный код

Поделитесь, пожалуйста, рекомендациями. У меня регулярно начинается дергаться глаз после n-го копипаста ошибка-исправление-ошибка)

janvarev Apr 17 at 10:31

Ой, пропустил что-то.

Ну у меня принцип простой - я даю компактные задачи с четкой формулировкой, стараюсь описывать сигнатуру функции и результат. Обычно даю задачи на конкретные небольшие функции, архитектуру планировать не даю конечно. Часто прошу написать тесты на эту же функцию, их просматриваю и добавляю в тест-сьют.

positroid Apr 17 at 16:25

Тесты вообще песня, скармливаешь целевой файл с классом и код смежных сущностей, которые в нем используются - и получаешь почти всегда готовый к использованию класс тестов, можно дальше просить 100% покрытия или добавлять кейсы тоже в режиме чата (ChatGPT 4, symfony)