Data_center_MIRAN May 9 at 09:36

Intel опять теряет позиции — 33% выручки серверного рынка за AMD

3 min

2.6K

Дата-центр «Миран» corporate blogManufacture and development of electronics*Computer hardwareFinance in ITCPU

+12

Comments 12

vtb_k May 9 at 10:02

Очень доволен своим AMD Ryzen 7 7840HS на ноутбуке Lenovo Yoga. Встроенная видеокарта тянет даже последнюю llama3:70b без особых задержек

nidalee May 9 at 10:05

Встроенная видеокарта тянет даже последнюю llama3:70b

Это как? Даже с квантованием до 4 бит оно 48 гигов VRAM сожрет. Которых даже на многих профессиональных картах нет.

Я с 20B на своей 4090 мучаюсь, а оказывается народ вовсю без особых задержек 70B на ноутбуках ворочает... :)

vtb_k May 9 at 10:15

ollama run llama3:70b

Вот так оно и работает. Только нужно настроить ollama на работу с дискреткой, потому что по умолчанию она на проце работает. У меня 32 гига оперативки, но особой нагрузки я не вижу. Конечно она отвечает не так быстро, как chatGPT, но зато полностью приватно и без цензуры

nidalee May 9 at 10:46

Дайте полную конфигурацию пожалуйста, потому что 70b даже математически в 32 гига оперативки + условные 8 гигов VRAM загрузить невозможно, если только это не какое-то квантование ниже 4 бит, о котором я не знаю :)

И сколько it/s там получается?

tukreb May 9 at 12:24

Скорее всего он запускает Q_2, это максимум что можно залить в 32 Гига. Скорость будет меньше 1 its.
У меня на 9900к с 2080, 70b в Q_2 выдаёт 0.99 it/s.7 ГБ загружено в VRAM, остальное в RAM. Думаю у него около 0.6 it/s

vtb_k May 9 at 12:39

Я чесно не шарю, какие там настройки, единственная настройка, какую я делал - использовать дискретку вместо cpu. Скорость ответа не быстрая, но мне хватает

-2

vtb_k May 9 at 12:37

Все инструкции вы найдете на этом сайте

https://ollama.com/

nidalee May 9 at 12:39

Нашел, спасибо!

Ollama supports a list of models available on ollama.com/library
Note: You should have at least 8 GB of RAM available to run the 7B models, 16 GB to run the 13B models, and 32 GB to run the 33B models.

Вопросов больше не имею.

ProKn1fe May 9 at 10:17

Есть способы запускать такое, естественно производительность будет около или ниже 1t/s.

Грубо говоря только нужные части модели будут жить в оперативке, а остальное читаться с диска в процессе.

nidalee May 9 at 10:45

Это понятно, но если с диска читать, то там даже 1 it/s не будет, а это далеко не "без особых задержек". И видеокарта там уже работает весьма условно. Она присутствует.

vtb_k May 9 at 12:43

Ну тот же интел уже не тянет запуск совсем, хотя у меня на рабочем ноуте всего і7 11 поколения. Максимум llama3:7b запускает и то на порядок медленее чем на амд видеокарте. Там обработку запроса можно ~10 минут ждать.

"без особых задержек".

Кстати я имею ввиду, что ответ оно печатает приблизительно с той же скоростью, что и я сам печатаю - ~40-50 слов в минуту

Inoriol May 9 at 17:57

EPYC'и энергоэффективнее в два раза и немного дешевле Xeon'ов. Учитывая что цена на электроэнергию это весьма значимый параметр для датацентров, динамика понятная. Учитывая что сервера закупают на несколько лет вперёд часто, то в серверном сегменте у AMD преимущество только будет расти как отголосок того что конкретно сейчас они тупо лучше.