Как стать автором
Обновить

Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.5K
Всего голосов 5: ↑5 и ↓0+7
Комментарии6

Комментарии 6

6-битная квантизация избыточна для пользователя. Разница в качестве с 4_Q_M на практике не видна, а по ресурсам - почти в 2 раза.

Сети 8х7 удивительно быстро работают на CPU. если у вас мощный процесор и 64Гб памяти, но нет 4090 - стоит посмотреть на этот вариант. Разница в качестве с 7b огромная.

Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.

По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?

Информация к размышлению:

.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf --usecublas --gpulayers 25 
--contextsize 8192 --benchmark

ProcessingTime: 33.83s
ProcessingSpeed: 239.17T/s
GenerationTime: 8.90s
GenerationSpeed: 11.23T/s

.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf --usecublas 
--contextsize 8192 --benchmark

ProcessingTime: 54.16s
ProcessingSpeed: 149.42T/s
GenerationTime: 23.48s
GenerationSpeed: 4.26T/s

.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf  
--contextsize 8192 --benchmark

ProcessingTime: 341.80s
ProcessingSpeed: 23.67T/s
GenerationTime: 22.74s
GenerationSpeed: 4.40T/s

RTX4090, Ryzen 9 3950Х.

Первый вариант - с использованием GPU и видеопамяти, второй - с использованием GPU только для обработки входящих данных, это не требует много памяти. Последний вариант - без GPU.

Даже последний вариант может генерировать текст со скоростью не спеша читающего человека, если не требуется много входных данных. В случае задач перевода текста, много входных данных требуется, но тут любая Nvidia нам поможет, 24Гб памяти не нужно.

8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).

Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:

Model: Starling-LM-10.7B-beta-Q5_K_M
MaxCtx: 8192
GenAmount: 100

GPU

ProcessingTime: 19.89s
ProcessingSpeed: 406.92T/s
GenerationTime: 24.04s
GenerationSpeed: 4.16T/s
TotalTime: 43.92s
Coherent: True
Output: 11111

GPU + CPU

ProcessingTime: 28.55s
ProcessingSpeed: 283.39T/s
GenerationTime: 35.78s
GenerationSpeed: 2.80T/s
TotalTime: 64.33s
Coherent: True
Output: 11111

CPU

ProcessingTime: 968.03s
ProcessingSpeed: 8.36T/s
GenerationTime: 36.64s
GenerationSpeed: 2.73T/s
TotalTime: 1004.67s
Coherent: True

В VS-code есть плагин Refact.ia. Можно подключить GPT-3.5-turbo на бесплатном тарифе. Он тоже переводит неплохо. На английской статье проверял - рецензенты не ругались. Лучше Google переводчика. Он же ставит on-line помощник в написании кода. Есть локальная установка, но работает и на ноуте без видеокарты.

Он тоже самое делает (подключает внешние модели или self- host через openapi) и таких там несколько плагинов. Все используют или Mixtral или LLama или микс или через API ChatGPT. Вопрос в удобстве манипуляции моделями и возможность автоматизации со своими запросами и сохранением форматирования.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий