Pull to refresh

Comments 12

Очень доволен своим AMD Ryzen 7 7840HS на ноутбуке Lenovo Yoga. Встроенная видеокарта тянет даже последнюю llama3:70b без особых задержек

Встроенная видеокарта тянет даже последнюю llama3:70b

Это как? Даже с квантованием до 4 бит оно 48 гигов VRAM сожрет. Которых даже на многих профессиональных картах нет.

Я с 20B на своей 4090 мучаюсь, а оказывается народ вовсю без особых задержек 70B на ноутбуках ворочает... :)

ollama run llama3:70b

Вот так оно и работает. Только нужно настроить ollama на работу с дискреткой, потому что по умолчанию она на проце работает. У меня 32 гига оперативки, но особой нагрузки я не вижу. Конечно она отвечает не так быстро, как chatGPT, но зато полностью приватно и без цензуры

Дайте полную конфигурацию пожалуйста, потому что 70b даже математически в 32 гига оперативки + условные 8 гигов VRAM загрузить невозможно, если только это не какое-то квантование ниже 4 бит, о котором я не знаю :)

И сколько it/s там получается?

Скорее всего он запускает Q_2, это максимум что можно залить в 32 Гига. Скорость будет меньше 1 its.
У меня на 9900к с 2080, 70b в Q_2 выдаёт 0.99 it/s.7 ГБ загружено в VRAM, остальное в RAM. Думаю у него около 0.6 it/s

Я чесно не шарю, какие там настройки, единственная настройка, какую я делал - использовать дискретку вместо cpu. Скорость ответа не быстрая, но мне хватает

Нашел, спасибо!

Ollama supports a list of models available on ollama.com/library

Note: You should have at least 8 GB of RAM available to run the 7B models, 16 GB to run the 13B models, and 32 GB to run the 33B models.

Вопросов больше не имею.

Есть способы запускать такое, естественно производительность будет около или ниже 1t/s.

Грубо говоря только нужные части модели будут жить в оперативке, а остальное читаться с диска в процессе.

Это понятно, но если с диска читать, то там даже 1 it/s не будет, а это далеко не "без особых задержек". И видеокарта там уже работает весьма условно. Она присутствует.

Ну тот же интел уже не тянет запуск совсем, хотя у меня на рабочем ноуте всего і7 11 поколения. Максимум llama3:7b запускает и то на порядок медленее чем на амд видеокарте. Там обработку запроса можно ~10 минут ждать.

"без особых задержек".

Кстати я имею ввиду, что ответ оно печатает приблизительно с той же скоростью, что и я сам печатаю - ~40-50 слов в минуту

EPYC'и энергоэффективнее в два раза и немного дешевле Xeon'ов. Учитывая что цена на электроэнергию это весьма значимый параметр для датацентров, динамика понятная. Учитывая что сервера закупают на несколько лет вперёд часто, то в серверном сегменте у AMD преимущество только будет расти как отголосок того что конкретно сейчас они тупо лучше.

Sign up to leave a comment.