Comments 12
Очень доволен своим AMD Ryzen 7 7840HS на ноутбуке Lenovo Yoga. Встроенная видеокарта тянет даже последнюю llama3:70b без особых задержек
Встроенная видеокарта тянет даже последнюю llama3:70b
Это как? Даже с квантованием до 4 бит оно 48 гигов VRAM сожрет. Которых даже на многих профессиональных картах нет.
Я с 20B на своей 4090 мучаюсь, а оказывается народ вовсю без особых задержек 70B на ноутбуках ворочает... :)
ollama run llama3:70b
Вот так оно и работает. Только нужно настроить ollama на работу с дискреткой, потому что по умолчанию она на проце работает. У меня 32 гига оперативки, но особой нагрузки я не вижу. Конечно она отвечает не так быстро, как chatGPT, но зато полностью приватно и без цензуры
Дайте полную конфигурацию пожалуйста, потому что 70b даже математически в 32 гига оперативки + условные 8 гигов VRAM загрузить невозможно, если только это не какое-то квантование ниже 4 бит, о котором я не знаю :)
И сколько it/s там получается?
Скорее всего он запускает Q_2, это максимум что можно залить в 32 Гига. Скорость будет меньше 1 its.
У меня на 9900к с 2080, 70b в Q_2 выдаёт 0.99 it/s.7 ГБ загружено в VRAM, остальное в RAM. Думаю у него около 0.6 it/s
Все инструкции вы найдете на этом сайте
Есть способы запускать такое, естественно производительность будет около или ниже 1t/s.
Грубо говоря только нужные части модели будут жить в оперативке, а остальное читаться с диска в процессе.
Это понятно, но если с диска читать, то там даже 1 it/s не будет, а это далеко не "без особых задержек". И видеокарта там уже работает весьма условно. Она присутствует.
Ну тот же интел уже не тянет запуск совсем, хотя у меня на рабочем ноуте всего і7 11 поколения. Максимум llama3:7b запускает и то на порядок медленее чем на амд видеокарте. Там обработку запроса можно ~10 минут ждать.
"без особых задержек".
Кстати я имею ввиду, что ответ оно печатает приблизительно с той же скоростью, что и я сам печатаю - ~40-50 слов в минуту
EPYC'и энергоэффективнее в два раза и немного дешевле Xeon'ов. Учитывая что цена на электроэнергию это весьма значимый параметр для датацентров, динамика понятная. Учитывая что сервера закупают на несколько лет вперёд часто, то в серверном сегменте у AMD преимущество только будет расти как отголосок того что конкретно сейчас они тупо лучше.
Intel опять теряет позиции — 33% выручки серверного рынка за AMD