mr-pickles 6 мая в 11:00

Невероятно, но факт: умножение матриц на GPU идёт быстрее на «предсказуемых» данных

Средний

9 мин

11K

Блог компании Wunder FundВысокая производительность*Алгоритмы*Серверное администрирование*

Перевод

+55

Комментарии 14

kbnrjlvfrfrf 6 мая в 11:10

Так-то уже давно используется тактика хранения предвычисленных значений для наиболее статистически частых выражений. Ещё был баг в первом Пентиуме когда в этой таблице хранилось ошибочное значение. С умножением на 1 и 0 наверно тоже применяются аппаратные оптимизации не тратить время и энергию впустую.

sci_nov 6 мая в 13:53

В случае zero_inputs умножались нулевые матрицы? Если так, то это заведомо неверный бенчмарк.

Melirius 6 мая в 14:39

Почему? Алгоритм-то data-agnostic.

sci_nov 6 мая в 14:48

А что значит data-agnostic?

leshabirukov 6 мая в 15:25

Значит, он не заглядывает внутрь тензоров.

Но вообще да, автору бы следовало доказать, что он исключил все другие возможные причины. Типа где-то вкралась техническая поэлементная операция, реализованная через таблицу предпросмотра, - и появляется кеш с ключами по данным, одинаковые данные - нет промахов.

sci_nov 6 мая в 15:33

Всё равно не пойму.

Melirius 6 мая в 16:36

Алгоритм не зависит от данных внутри матриц: шаги одинаковые полностью, какие бы числа там не были. В этом коренное отличие от сжатия данных, например.

-1

sci_nov 6 мая в 16:44

А, понял. Но компиляторы и процессоры сейчас это отдельные системы, которые могут творить чудеса)

-1

sci_nov 6 мая в 15:34

Это почти то же самое как проверить производительность и корректность алгоритма сжатия на нулевых (или даже просто константных) данных.

DenSigma 7 мая в 07:04

Я не специалист в gpu-вычислениях. Но может, причина проще? Может, микроархитектура gpu-процессоров предусматривает проверку переменных на нули, и аппаратное умножение при этом не выполняется, сразу возвращается нуль? Тепловыделение при этом снижается и тактовая частота повышается. При сокращенном времени выполнении отдельных элементов матрицы, время выполнения обсчета всей матрицы обуславливается самым медленным элементом.

Aak6 7 мая в 10:39

Я специально не тестировал, но заметил что у меня вычисления с целыми числами в вещественном формате проходят вроде как быстрее, чем если у них есть какой-то хвост после запятой. Всегда казалось это естественным.

vanxant 7 мая в 14:19

Может, микроархитектура gpu-процессоров предусматривает проверку переменных на нули, и аппаратное умножение при этом не выполняется, сразу возвращается нуль?

Нет, тогда бы не было эффекта от использования целых чисел (из-за которого и началось расследование).

Нули в младших битах (целых чисел) приводят к тому, что фактически происходит умножение не 52-битных чисел (для double), а скажем всего лишь 20-битных. Т.е. больше половины разрядов просто не используется и всегда содержит нули. А динамическая часть потребляемой мощности тратится именно на переключение транзисторов из нуля в 1.

TedBeer 8 мая в 13:12

В статье же есть тест, когда матрицы заполнены числами пи и производительность такая же как с нулями или единицами. Так что ваша теория не верна.

Sasha113 13 мая в 08:45

При умножение целочисленных значений особенно с не большой амплитудой, умножение может быть ускоренно в несколько раз. Например можно в железе выполнять 2 умножения int8*int16 на железе предназначеном для int16*int16.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий