CyberPaul 11 апр в 09:57

Домашняя нейронка. Какое «железо» выбрать для Stable Diffusion?

Простой

7 мин

12K

Блог компании ServerspaceIT-инфраструктура*Читальный залИскусственный интеллектIT-компании

Мнение

+20

Комментарии 42

NutsUnderline 11 апр в 10:19

как раз нам обещают подорожание цен на видюхи в связи с ..

-1

fio 12 апр в 09:08

[dushnila_mode]Цена не может продолжать. Товар - может.[/dm]

noker81 11 апр в 11:06

Можно поднять на colab Fooocus и не париться с выбором железа.

AlexB17 11 апр в 12:07

Тем временем у меня на рабочем ПК с 16Гб памяти и 3060Ti спокойно работают Fooocus и Forge - оптимизация не стоит на месте.
Да я не могу одновременно с генерацией запустить фотошоп или браузер с десятком вкладок, но это терпимо. В Fooocus потребление памяти примерно 10-12Гб и 6-8Гб видеопамяти всего.

melodictsk 11 апр в 14:10

На Авито навалом 3090 по 50-70к. Не имеет смысла рассматривать что-то ещё. Объем и скорость врам хватит на все разумные случаи.

HomoLuden 12 апр в 23:26

Tesla P40 стоила 15 на адишке. + Охлаждение 4к

melodictsk 15 апр в 12:30

Ну это все та и Паскаль, где мало ядер и нет тензорных.

Rezzet 11 апр в 14:48

К сожалению для работы, а не поиграться, подходит только 4090. Так что вариант такой, что вариантов нет. На 4080 у меня работало, но скорость крайне медленная, особенно если учить нейронки.

HomoLuden 12 апр в 23:28

Неправду пишете. На 3060 с 12ГБ можно очен сложные ComfyUI workflow выполнять. На Tesla P40 можно тренить даже SDXL. Тренировка занимает меньше или столько же времени что и разметка данных.

Rezzet 14 апр в 16:39

Я сравнивал на SD, 4080 показывала производительность почти в два раза меньше чем 4090. Упомянутая вами 3060Ti дает результаты 23 изображения в минуту, против 75 у 4090. Кому-то и кобыла невеста. У меня тренировка на 4090 моего небольшого датасета занимала около 8 часов. Сложно представить как работать, если время будет еще в три раза больше. Для целей разобраться, попробовать, что-то понять 3060 пойдет, но работать, именно выполнять задачи для работы за деньги, где когда время инженера за месяц заботы будет стоить как две 4090 имеет смысл покупать только такие видеокарты. Или идти в облака. Если у тебя месяц времени работы сотрудника стоит как железка и сотрудник упирается в производительность железки, то тут выход один купить железку. Если ты энтузиаст и тебе нужно разобраться в вопросе что бы стать тем самым сотрудником время которого будет стоит как три железки - тогда покупай то на что хватит денег что бы минимально вписаться в требования.

Ссылка на тесты перфа

https://cdn.mos.cms.futurecdn.net/RtAnnCQxaVJNYgA4LbBhuJ.png

rPman 14 апр в 16:41

Для кого то вопрос стоимости будет решающим, NVidia 3060 12Gb - это самая дешевая из доступных vram, следующая по цене идет 4060ti 16Gb

Напомню, что чтобы капитальные затраты (закупка оборудования) по сравнению с оперативными (электроэнергия и время) не были такими критичными, утилизировать железо нужно по максимуму, чем ближе к 100% тем лучше, чего у многих нет, вот и становится актуальным железо по тормознее но дешевле.

Dolios 14 апр в 19:06

но работать, именно выполнять задачи для работы за деньги

А расскажите, плиз, в чем заключается работа, что вы делаете? Многие пишут про работу, но никто не рассказывает подробностей, а мне любопытно.

Rezzet 16 апр в 21:30

А кто вам сказал что я работаю с нейросетями? Я так поиграться дома. Видяху вообще в игры играть купил. Моя работа сидеть буковки в IDE в нужных местах вбивать. Работа вообще не мое, я щитаю ))

А если серьезно то мои суждения основаны на работе программиста, пишу код на с++, а с++ любит долго компилироваться, вот и приходится на работе всегда первым делом выбивать себе комп близкий к топовому конфигу, ждать 10-15 минут сборку проекта - это наймите кого-нить другого. На вопрос "а че ты хочешь такой жирный конфиг," - ответ примерно такой, я вроде пришел в топовую компанию работать, а тут комп не могут купить хотя бы такой же как у меня дома стоит. Скрипят, хмуряться, но комп выдают через время. А дома у меня стоит уже топовый амдешный 16 ядерник. Так что спорить сложно. Ну и оно реально непонятно зачем ждать, если можно не ждать. Ладно бы просил там два двухпроцессорный зион, а так просто топовой домашний проц за 750 баксов, ну епта, вы топовая ИТ компания или подвал дяди ашота.

-1

NutsUnderline 11 апр в 17:10

а 1080Ti хватит?

HomoLuden 12 апр в 23:29

Хватит если в ComfyUI умеете

NickDoom 11 апр в 17:56

Если погонять что-то ночами — два ядра, восемь гигов и никаких твердотельников. Утром пачка картинок готова. Но Лору так не обучить, конечно.

Вообще насчёт последних — можете хоть обдразниться «ретроградами», но в данном случае они никуда не упали, потому что чтение идёт крупными кусками и быстрое чтение вразбивку ничего не даёт. То есть выигрыш от SSD просто постольку, поскольку. В требования их записывать несколько преждевременно — максимум в рекомендации (ну так в рекомендациях вообще будет «всё бы получше, да побыстрее бы»).

С четырьмя гигами уходит в мёртвый своп, тут без шансов (хотя на какую-нибудь Теслу с 24 гигами может просто всё влезть, обнулив требования как к системной оперативке, так и к скорости диска; не проверял пока). С 16 — на проце практически без свопа гоняет. С 8 — со свопом, но без падения скорости (грузит куски быстрее, чем проц считает).

Хайли лайкли начиная с 24 гигов суммарной памяти скорость диска перестанет что-то решать (Лора не в счёт, я про генерацию).

tonx92 11 апр в 18:24

Мне кажется, тема заголовка не до конца раскрыта. Воды много, для тех кто пришел за ответами, ситуация на текущий момент:

Требования для запуска, по видеопамяти:

SD1.5-2.0(начальный уровень) требует 4гб, 8гб для комфортной работы

SDXL(передовая по качеству) требует 8гб, 12гб для комфортной работы

SDCascade(тоже что и sdxl, но кратно меняет память на скорость) требует 12гб, 16гб для комфортной работы

Минимальные требования включают только генерацию изображений, исключают использование lora и других крутых функций. Генерация видео будет требовать больше, все остальное меньше.

Скорость чипа не влияет на качество, только на скорость получения результатов.

Забудьте про АМД большинство нейросетей и библиотек используют cuda драйвера nvidia и в реальности работают на АМД либо плохо с костылями либо вообще никак.

Лучший выбор для профессионалов по цене качеству это видеокарты 3ххх-4ххх с удвоенной памятью. В дорогом сегменте, топы 4080,4090.

tonx92 11 апр в 18:30

Оперативка вообще не сильно влияет, просто придерживайтесь того что ее должно быть больше чем видеопамяти.

fire64 11 апр в 19:05

Хех у меня AUTOMATIC1111 на 1050ti запускается и даже изображения создаются.

Пришлось с конфигами шаманить, но удалось же....

HomoLuden 12 апр в 23:31

ComfyUI на 1050 ti даже SDXL может. И не забываем что новые драйвера от Nvidia позволяют шарить с GPU системную память

Mulfarion 12 апр в 01:44

На rtx 4080, ссд кс3000 и 32Гб памяти 7600Mhz картинка в самом высоком разрешении генерируется порядка 18 сек в 60 шагов. Полюзуюсь fooocus.

KonstantinTokar 12 апр в 07:57

Вообще только на SD свет клином не сошёлся. Для очень многих домашних пользователей будет не менее а иногда и более актуально иметь какие то текстогенераторы, например text-generation-webui с моделями с huggingface.

С некоторой версии драйверов Nvidia позволяет в какой то степени подменять видеопамять оперативной, причём под это выделяется до 50% объёма. То есть на конфигурации 12гб gpu + 32гб ram можно использовать модели, требующие 12+16=30 гигабайт. "нормальные" модели требуют 40,то есть минимальные требования для RAM начинаются с 64 гб. Больше особо не нужно, производительность неприемлемо просядет всё равно.

CyberPaul 12 апр в 09:27

Вот текстогенераторы действительно интересны, особенно - с русским языком и возможностью дообучения модели. Где об этом можно почитать? Буду благодарен за ссылки.

HomoLuden 12 апр в 23:32

Только тренить с шареной системной будет медленно

Dolios 12 апр в 08:44

А на линухе оно нормально работает или не стоит даже пытаться?

KonstantinTokar 12 апр в 09:10

Некоторые возможности сначала делают на линуксе, потом переносят на виндовс. А некоторые наоборот. То есть работает. Но не всё и не всегда, и то же с виндовсом. Но постепенно и то и другое допиливают.

NickDoom 14 апр в 21:42

Ни на чём ином и не пробовал :)

vircat 12 апр в 09:27

Мне кажется, идеальная для SDXL, на данный момент, карточка (из соображения цена/производительность), это RTX 4070Ti Super. При неплохих показателях, она имеет 16Gb видеопамяти.

HomoLuden 12 апр в 23:34

Бессмысленно. Тренировать на такой вы сможете только lora. А для генерации слишком много памяти. Tesla P40 сильно дешевле, хотя и проц там медленнее.

NickDoom 14 апр в 21:44

Если человеку достаточно LoRA, но важно поиграть в качестве неосновного применения — чего бы и не…

falseshepard 12 апр в 09:27

Сейчас существуют разные способы создать изображения в высоком разрешении с более высокой скоростью, например Kohya Hires Fix, который к тому же исправляет проблемы с двойными лицами и прочие артефакты возникающие при генерации в разрешении отличном от базового.

Сижу на 4070, мне скорости вполне хватает, вывозит где-то 8-9 итераций в секунду, но лучше брать что-то с большим объемом видеопамяти тоже из 40 серии, пожертвовав скоростью, например 4060 на 16гб. Либо доплатить и взять супер версию.

Возможно в Forge все намного лучше с видеопамятью, и там будет хватать, так как в обычном Automatic я могу упереться в нехватку памяти на тяжёлых задачах или с SDXL. Если для серьезных задач, то 12+ Гб видеопамяти, если для баловства, то далее 1660 достаточно будет, раньше на ней сидел, ещё до появления Forge, сейчас с ней наверняка ещё лучше дела обстоят.

График, представленный в статье также уже устарел, ввиду перехода на новые версии torch и развития sdp.

inetstar 12 апр в 14:36

Нейронка - это набор весов. А что представляет собой софт у SD?

Это что-то на питоне от пайторч? Или бинарник на С++? Или что?

Aizz 12 апр в 16:19

pyTorch в 100% случаев для графических интерфейсов к SD перечисленных в статье. Для текстовых чаще всего скомпиленый бинарник.

rPman 12 апр в 19:27

Что то автор про нехватку памяти ошибается.

nvidia 1060 3Gb vram, ключ --lovram --xformers, изображения не больше 512x512 (можно по одной стороне до 700доводить) генерируются по 15-30 сек.

Минимальная рекомендация для желающих играться с нейронками - это Nvidia 3060 12Gb vram (по деньгам - можно найти 30т.р.-35т.р. а у китайцев даже 26т.р. но что то мне говорит что тут какой то подвох).

Ну а тем кто хочет заниматься llm-ками и файнтюнингом, начальный вариант это 2x..4x nvidia 4060ti 16Gb vram (примерно по 50т.р.), для игр они не очень подходят, nvidia хорошо постарались, а вот нейронки, тем, кому по дешевле, в самый раз.

HomoLuden 12 апр в 23:35

Врёт или просто начитался некомпетентных форумчан.

HomoLuden 12 апр в 23:23

Если верить сообщениям на профильных форумах, 16 Гбайт для этих целей определенно недостаточно, необходимо 32 или больше.

SDXL в ComfyUI работает и на 4ГБ 1050ti - если речь про генерацию картинок. Для тренировки LoRa достаточно 12ГБ GTX 3060.

А вот для полноценной тренировки SDXL CKPT уже нужно покупать Tesla P40 за 15 тыр.

Dolios 13 апр в 19:35

@HomoLuden, @rPman, @falseshepard, @KonstantinTokar, а для чего всё это? Врядли же люди генерят картинки, чтобы поиграться и в статью на хабре прикольное изображение вставить. Некоторые даже пишут, что это для работы. Как это сегодня может использоваться в каких-то не развлекательных целях?

NickDoom 14 апр в 21:47

ХЗ, но для «статьи на Хабре» достаточно указанного мной выше минимума — за ночь нагенерирует предостаточно для выбора. А такие машины в богатых районах около мусорного контейнера можно встретить.

Dolios 14 апр в 22:19

Мне интересно в том плане, что я вижу как формируется новый рынок и не понимаю в чем его экономика.

HomoLuden 4 мая в 17:52

Вот вам конкретный пример. Нужно сделать промо постер для помета собак. Обычно дизайнеры гуглят почтовый фон, поверх которого накладывают собак с градиентной альфа маской и с полупрозрачными прямоугольниками текстов. Весь постер - распадающийся винегрет элементов.

А с помощью SD можно бесшовно вписать собак прямо в пейзаж. Возможно статью мне стоит написать с описанием процесса, если интересно.

Dolios 4 мая в 18:17

Спасибо, интересно, мне всё интересно про нейросетки. Подписался на вас.

HomoLuden 4 мая в 17:56

Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий