Как стать автором
Обновить
82.97

Высокая производительность *

Методы получения высокой производительности систем

Сначала показывать
Порог рейтинга

infra.conf 4 июня: обсудим с разработчиками кейсы создания и эксплуатации высоконагруженных систем

Команда Yandex Infrastructure 4 июня проведёт конференцию про создание инфраструктуры и эксплуатацию высоконагруженных систем. Встретимся в Москве и в онлайн‑эфире, чтобы поговорить про платформенную разработку, базы данных и облачные технологии, тестирование и безопасность, ML‑инфраструктуру и опенсорс‑решения.

Только практика от крупных компаний: Авито, Иннотех, Альфа‑Банк, Selectel, СберМаркет и SberDevices, Postgres Pro, Лаборатория Касперского и др.

Среди уже объявленных спикеров:

  • Борис Литвиненко, Yandex Infrastructure: расскажет о том, как удобно жить на железе в 2К24 базовой инфраструктуре, о пути сетевого пакета и о специфике обслуживания этой части инфраструктуры. В финале вместе сделаем своё облако с DPDK и попытками преодолеть проблемы монолитной инфраструктуры.

  • Дарья Николаенко, Тинькофф: в докладе «Потребитель и железка. Где связь?» расскажет про неочевидные и хитросплетённые зависимости масштабной инфраструктуры и их влияние на выполнение и постановку рабочих задач, а также поделится опытом визуализации и систематизации инфраструктурных компонентов.

  • Виктор Корейша, Ozon Tech: расскажет о проектировании собственной S3 поверх Ceph, а также о проблемах, возникших при разработке, миграции и эксплуатации на реальной нагрузке. И, конечно, покажет пути решения и поделится результатами.

Участие бесплатно, следите за обновлениями программы и регистрируйтесь по ссылке.

Теги:
+6
Комментарии0

В Китае в продажу поступил ноутбук MSI Titan 18 Pro в версии 192 ГБ ОЗУ и SSD накопителем на 4 ТБ.

За производительность устройства отвечает 24-ядерный процессор Intel Core i9–14 900HX с 32 потоками, а также мощная видеокарта Nvidia GeForce RTX 4090. Энергопотребление системы достигает 250 Вт.

Ноутбук имеет 18» Mini‑LED экран с разрешением 3840×2400 пикселей и с частотой обновления изображения 120 Гц, а также охватом цветового пространства DCI‑P3 на 100%. Заявленная яркость экрана составляет 1000 нит.

Среди прочих особенностей отмечается наличие аккумулятора ёмкостью 99,9 Вт*ч, 6 динамиков, Wi‑Fi 7 и различных портов для подключения внешних устройств, в том числе двух USB‑C с поддержкой Thunderbolt 4, двух USB-A 3.2 Gen 2 и HDMI 2.1.

В Китае MSI Titan 18 Pro в версии на 192 ГБ и 4 ТБ продаётся за 39,6 тыс. юаней (около 500 тыс. рублей).

Теги:
+5
Комментарии3

1 мая стартует новый формат соревнований на HighLoad.Fun, который напомнит вам о первых HighLoad CUP от Mail.Ru в 2017 и 2018 годах.Смысл соревнования написать HTTP сервер на любом языке программирования который реализует API описанный с помощью Swagger'а, запаковать в Docker контейнер и загрузить в registry платформы, где произойдёт тестирование. Чьё решение быстрее и без ошибок обработает входящий поток запросов — победит.

HighLoad.Fun некомерческий продукт, я занимаюсь этим проектом уже несколько лет. У меня нет споносоров, поэтому больших призов не будет, но должно быть весело и интересно.

Ссылка на соревнование: https://highload.fun/timed_competitions/authserver

Теги:
+5
Комментарии0

Гендиректор Nvidia Дженсен Хуанг (Jensen Huang) лично доставил свой новый флагманский ускоритель DGX H200 в офис компании OpenAI в Сан-Франциско, подчеркнув тесную связь между двумя гигантами в отрасли искусственного интеллекта.

Хуанга встретили соучредитель OpenAI Грег Брокман и гендиректор компании Сэм Альтман.

DGX H200 – это новейший ускоритель ИИ-вычислений Nvidia, оснащенный 141 ГБ памяти HBM3e. Производитель позиционирует это решение как самый мощный ИИ-ускоритель Nvidia, знаменующий шаг вперёд в области технологий ИИ с производительностью в 1 экзафлопс.

Теги:
+4
Комментарии3

«Много ядер» не имеет смысла

Нашумевший в конце прошлого года своим выходом мощный процессор AMD Threadripper Pro 7995, оказывается, не оправдывает себя в реальной жизни. Здесь понимаем под этим обычные условия использования, т. е. нет специального навороченного охлаждения, обычный корпус, память в пределах разумного и т. д.

AMD Threadripper 7000
AMD Threadripper 7000

Вот тут описывается опыт использования в разных конфигурациях. Вкратце: из‑за поставленного ограничения на тепловыделение в 350 Вт процессор не использует всю имеющуюся у него мощь, так что работа всего на 16 ядрах оказывается равносильна работе на всех 96. Процессор просто сбрасывал скорость при достижении предельного тепловыделения. Нагрузка была в виде сборки всего проекта Хромиум. Плюс ко всему, потребовалось значительно больше памяти, для того, чтобы сборка в принципе работала на таком большом количестве ядер. Для использования всей мощности автору пришлось делать специальную конфигурацию машины.

В общем чип оправдывает себя только при использовании в специальных условиях.

По своему опыту могу сказать: на старенькой машинке Атлон II x4 (2009г) Хромиум собрался за ~40 часов.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии14

Инженеры из Калифорнийского университета тестируют способ, который может значительно ускорить работу компьютерных систем без необходимости улучшать оборудование. Проект поможет также снизить энергопотребление.

Метод исследования основан на процессе одновременной и гетерогенной многопоточности (SHMT). Он задействует различные типы процессоров, содержащиеся в современных компьютерах: графический, центральный и тензорный (для работы технологий ИИ).

Концепция SHMT используется, в частности, во время планирования — процесса, в котором система выбирает порядок и расположение задач, решая, какие операции должны выполняться на процессорах каждого типа.

Тестовая установка включала ЦП ARM Cortex-A57, GPU Nvidia и тензорный процессор Google Edge. Благодаря одновременной и гетерогенной многопоточности выполнение расчёта примера кода прошло в 1,95 раза быстрее, а потребление энергии сократилось на 51%.

«Укоренившиеся модели программирования ориентированы на использование только наиболее эффективных процессоров для каждой области кода, недостаточно используя вычислительную мощность гетерогенных компьютеров», — отметили исследователи в своей статье.

Учёные признали, что им предстоит преодолеть серьёзные проблемы, связанные с разделением вычислительных задач, которые будут выполняться разными типами процессоров, а затем объединением всего обратно без какого-либо замедления. По их оценкам, технологию SHMT не получится повсеместно внедрить в ближайшем будущем.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Какая облачная конфигурация нужна для работы 1С в связке с PostgreSQL и Microsoft SQL Server

При переезде 1С в облако клиенты часто озабочены выбором оптимальной конфигурации
При переезде 1С в облако клиенты часто озабочены выбором оптимальной конфигурации

По опыту, нередки 4 варианта:

  1. Сервер 1С и managed БД на разных ВМ. Получаем отказоустойчивость и хороший уровень изоляции. Но скорость коммуникации между серверами зависит от сети, особенно, если ВМ в разных зонах доступности.

  2. Сервер 1С и ВМ с БД на разных ВМ. У каждой из ВМ полный доступ к ресурсам, что даёт производительность для требовательных задач и возможности тюнинга.

  3. Сервер 1С и БД на одной ВМ. Вся обработка данных — на одной машине, что устраняет задержки сети.

  4. Сервер 1С и БД на одной ВМ, временные таблицы БД — на RAM‑диске. Так можно ускорить обработку данных, т.к. операции чтения/записи в RAM быстрее, чем на традиционных дисках. Это сокращает время отклика при выполнении операций на временных таблицах.

    Конфигурацию можно оптимизировать:

    • В Microsoft SQL вынести tempdb на RAM‑диск. Если допустимо, рассмотреть вынос других служебных таблиц.

    • Настроить параметры Delayed Durability, Max degree of parallelism, размер автоувеличения файлов БД, shared memory. Если важна персистентность, настроить периодический сброс данных, например, в ImDisk Virtual Disk Driver.

    • В PostgreSQL вынести временные таблицы на RAM‑диск для ускорения обработки, настроить nr_hugepages для сокращения расходов памяти.

    При оценке производительности этой конфигурации тест Гилёва показал более 42 баллов.

На вебинаре 12 марта вместе с «Первым Битом» разберём эти сценарии миграции в облако, дадим рекомендации. Подключайтесь.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

В новосибирском Академгородке запустили суперкомпьютер «Сергей Годунов», который назван в честь советского и российского математика с мировым именем.

Монтаж и тестирование системы выполнили специалисты из группы компаний РСК. Оборудование для реализации проекта суперкомпьютера было приобретено на грант, предоставленный Минобрнауки РФ и направленный на обновление приборной базы ведущих научных организаций, в рамках федерального проекта «Развитие инфраструктуры для научных исследований и подготовки кадров» нацпроекта «Наука и университеты».

Суперкомпьютер «Сергей Годунов» создан на основе передовой платформы «РСК Торнадо» с использованием жидкостного охлаждения. Каждый узел системы оснащён двумя процессорами Intel Xeon Ice Lake-SP, имеющими по 38 ядер и работающими на частоте 2,4 ГГц. В момент введения в эксплуатацию общая производительность кластера достигла 54,4 Тфлопс.

Планируется увеличить производительность более чем в два раза, до 120,4 Тфлопс. И.о. директора ИМ СО РАН Андрей Миронов отметил, что новый суперкомпьютер поможет существенно повысить эффективность научных исследований и будет способствовать развитию новых технологий.

Планируемые задачи для новой системы:

  • медицинская электроакустическая томография;

  • вычислительная аэрогидродинамика и оптимизация турбулентных потоков;

  • моделирование сценариев развития системы биосфера-экономика-социум;

  • решение обратных задач геофизики прямым методом на основе подхода Гельфанда — Левитана.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Дайджест продуктовых обновлений за январь 🦖

В начале года мы постарались сохранить немного праздничного настроения и выпустили несколько важных апдейтов. Среди них — свежие серверы на базе Mac mini®, обновленная версия Kubernetes 1.29: Mandala, улучшения в безопасности аккаунтов и другие фичи по заявкам.

Подробнее об апдейтах читайте в полной версии дайджеста 🔎

Чтобы оставаться в курсе новостей и пользоваться специальными предложениями, подписывайтесь на нашу рассылку 🖥

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Как внедрить телеметрию в on-premise-инфраструктуре

На предстоящий DevOpsConf 2024 выступлю с докладом по телеметрии и расскажу:
— Какие инструменты вам помогут в деле формирования, сбора, хранения и отображения данных телеметрии.
— Как выбрать тот или иной продукт и не наткнуться на несовместимость решений.
— Какой набор инструментов использовать, если вы работаете исключительно с on-premise инфраструктурой.
Материалы доклада помогут собрать решение для вашего случая.

Кому будет полезен доклад:
DevOps-инженерам и архитекторам.

Обо мне:
Ведущий DevOps-инженер Hilbert Team. Более 15 лет в IТ. Cоавтор курсов Yandex Cloud: «DevSecOps в облачном CI/CD», «Аутентификация и управление доступами», «Managed Service for ClickHouse», «Масштабирование нагрузки в K8s».

Если планируете посетить DevOpsConf, приходите 4 марта в 10:00 в Зал «Кейптаун».

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Компьютер двоичный, многоичный и аналоговый.

Все привыкли к двоичным. Гонка за разрядностью сделала нормой 64 разряда в двоичной системе. Однако также как и системы исчисления бывают разные - шестидесятеричная, десятичная, двадцатеричная, так и вычислительные машины могут иметь разное основание.
Вот например недавно на Хабре была статья про троичный компьютер.
С детальным разбором того, чем он интересен. https://habr.com/ru/companies/timeweb/articles/723404/

Но хранение в одной ячейке памяти не двух возможных значений, а больше (трех, десяти) должно бы сильно сократить физический размер компьютерной памяти.
Для восьмеричного компьютера в четыре раза. Если при этом сами вычисления останутся двоичными, то будет проблема передачи данных из памяти в вычислитель и обратно.

Троичный вычислитель уже делали. А такой, у которого больше доступных состояний? Надо уметь делать действия с числами, которые записаны не в виде 0 и 1 а как 0,1..7. Возможно ли это? Вполне. Можно, например, умножение реализовать на операционных усилителях с компаратором. Цифровой вычислитель имеет внутри аналоговый умножитель и компаратор для получения точных значений.

А если быстро нужно так, что можно пренебречь точностью? Тогда нужен аналоговый вычислитель. Такие вычислители могут давать потрясающие скорости.
И раньше они были даже механическими. Думаю скоро мы увидим аналоговые компьютеры. Ведь все вещественные числа в любом случае имеют ограниченную точность.

Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии2

«Яндекс» изучил поисковые запросы программистов и составил карту технических навыков, которые регулярно используют ML-разработчики. Этот проект показывает, какие ML-технологии и методы сейчас особенно популярны, как они связаны между собой и как менялся к ним интерес. 

Размер навыка на карте соответствует его популярности у ML-разработчиков. Положение навыков относительно друг друга определяется сходством контекста: чем чаще два навыка соседствуют с одними и теми же тегами на Stack Overflow, тем меньше расстояние между ними на карте.

Для оценки близости контекста в «Яндексе» рассчитали векторы совстречаемости каждого навыка со всеми остальными, затем нормализовали метрикой TF-IDF. Для укладки навыков на карте использовали алгоритм UMAP.

В дополнение к карте технических навыков «Яндекс» опубликовал рейтинги навыков, интерес к которым сильно вырос в 2023 году по сравнению с 2022 годом. Это десять самых актуальных библиотек и фреймворков и десять ML-технологий и методов. Большинство из них связаны с генеративными моделями и нейросетями для распознавания объектов.

Библиотеки и фреймворки:

  1. langchain;

  2. python-polars;

  3. faiss;

  4. sentence-transformers;

  5. huggingface-datasets;

  6. jax;

  7. stable-baselines;

  8. onnxruntime;

  9. huggingface-transformers;

  10. pytorch-geometric.

ML-технологии и методы:

  1. large-language-model;

  2. stable-diffusion;

  3. openai-api;

  4. gpt-3;

  5. fine-tune;

  6. generative-art;

  7. text-parsing;

  8. hdbscan;

  9. transformer-model;

  10. nlp-question-answering.

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии3

Президент РФ поручил до 1 марта 2024 года разработать и реализовать меры для увеличения вычислительных мощностей суперкомпьютеров в России. Перечень поручений опубликован на сайте Кремля.

«Разработать и реализовать комплекс мер, направленных на увеличение вычислительных мощностей суперкомпьютеров, находящихся в РФ, определив конкретные параметры увеличения этих мощностей», — говорится в публикации.

К 1 марта правительству РФ поручено разработать механизмы использования архивов государственных и муниципальных органов, библиотечных фондов в целях создания наборов данных. Ответственным назначен премьер-министр Михаил Мишустин.

В октябре 2023 года «Ведомости» со ссылкой на данные АНО «Цифровая экономика» сообщили, что семь российских суперкомпьютеров входят в мировой рейтинг топ-500. У США в нем 150 машин, у Китая — 134. Далее идут Германия с 36 суперкомпьютерами и Япония с 33. По состоянию на июнь 2023 года Россия занимала в рейтинге 12 место.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Ближайшие события

Вышла вторая редакция проекта PLB (Programming Language Benchmark) по тестированию производительности решения типовых задач на различных языках программирования. В ней измеряется производительность кода для умножения матриц и решения задачи расстановки 15-ферзей, а также дополнительно оценивает поиск решений в игре Судоку и определение пересечений двух массивов.

Код для тестирования PLB написан на 20 языках программирования. Наиболее высокую производительность показала реализация тестовых приложений на языке C (при компиляции в clang). На втором месте оказался язык Zig, на третьем Nim, на четвёртом Mojo. Далее примерно на одном уровне следуют D, Java, JavaScript-платформа Bun и Rust, а после них Go, Crystal и V.

Высокие результаты показали Node.js, Dart, Lua и C#. Хорошие показатели у Java и C# объясняются использованием отдельной стадии JIT-компиляции, в то время как в Dart, Bun, Node.js, Julia, LuaJIT, PHP, PyPy и Ruby3 (YJIT) JIT-компиляция выполняется на лету и затрагивает только часто выполняемый код. JavaScript-платформа Bun заметно обогнала Node.js. Относительно медленными оказались результаты у Julia и Swift.

Наихудшие показатели производительности выявлены у PHP, Ruby, Perl и CPython, при этом производительность PHP оказалась примерно в 4 раза выше, чем CPython.

Дополнение: В реализации на языках Rust, D и Julia внесены оптимизации, которые позволили Rust занять второе место, D - третье, Julia - 7, а V показал лучший результат в nqueen+matmul.

Источник: OpenNET.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Группа исследователей из компании Hugging Face и Университета Карнеги-Меллона опубликовала результаты анализа энергопотребления при выполнении различных моделей машинного обучения.

Наиболее энергозатратными оказались модели машинного обучения, обеспечивающие генерацию изображений, а наименее затратными — классификации текста. Средние показатели энергопотребления моделей генерации изображений примерно в 1500 раз выше, чем классификации текста, и в 60 раз выше генерации текста.

Например, выполнение 1000 итераций наиболее энергозатратной модели генерации изображений потребовало 11,49 кВт*ч энергии, что соответствует 950 зарядам аккумулятора смартфона, то есть одна генерация изображения по энергопотреблению соответствует примерно одной средней ежедневной зарядке смартфона (0,012 кВт*ч).

Потребление наиболее энергоэффективной модели генерации изображений составило 1,35 кВт*ч на 1000 итераций, что в 8 раз лучше наименее эффективной модели. Тем не менее, эти показатели значительно выше, чем у других видов моделей, например 1000 итераций наиболее эффективной модели генерации текста потребляет 0,042 кВт*ч, классификации изображений — 0,0068 кВт*ч, а классификации текста — 0,0023 кВт*ч.

Источник: OpenNET.

Теги:
Рейтинг0
Комментарии0

Недавно к нам обратился клиент, у которого потенциально 2 млн пользователей и ему нужно разработать стриминговый сервис, где 10К-20К пользователей могут смотреть медиа-контент в разрешении 4К онлайн.

Фильм 4К весит 5 гб, если 10К пользователей одновременно его смотрят, то это большая нагрузка на хранилище данных. Сложность в том, чтобы сбалансировать трафик на сервис, чтобы система не перегружалась, а пользователи не испытывали дискомфорта.

Чтобы этого добиться, нужно написать ПО таким образом, чтобы плеер или серверная часть отдала контент порционным пользователям. Так мы распределим нагрузку.

Для хранения контента на 2 млн человек, потребуется от 300-400 ТБ устойчивого хранилища. Нужно построить системы хранения данных.

Нужна защита хранилища, если какой-то жесткий диск выйдет из строя, чтобы не потерять лицензионный контент.

Когда 10 тыс. человек запрашивают одно видео или хотя бы два-три видео, это легко решается кешированием. А если эти 10 тыс. смотрит разный контент, то стандартная СХД не справится. Скорость не позволит находить это на жестких дисках.

В реализации нужно:

— Построить архитектуру хранения и обслуживания клиентов СХД с высоким уровнем IOPS — количество запросов, которые приходят к системе хранения данных за секунду. Чем ровнее запросы из разных секторов жестких дисков, тем сложнее и дольше приходится обрабатывать их сервера.

— Построить балансировщики, которые обрабатывают большое количество разного контента на обычных HDD дисках и отказоустойчивых хранилищах.

Теги:
Всего голосов 14: ↑13 и ↓1+12
Комментарии4

Qualcomm утверждает, что процессор Snapdragon X Elite превзойдёт Apple, Intel и AMD. Чипы будут построены по 4-нм техпроцессу и получат пропускную способность памяти 136 ГБ/с. 

Qualcomm утверждает, что Snapdragon X Elite превзойдёт несколько процессоров Intel Core i7 в тесте Geekbench 6, который измеряет многопоточную производительность. Диаграммы показывают, что чип X Elite превосходит AMD Ryzen 9 7940HS в тестах графического процессора с неоднозначной «относительной производительностью».

Qualcomm также утверждает, что её чип обеспечит «на 50% более быструю пиковую многопоточную производительность», чем Apple M2. У X Elite на 50% больше ядер, чем M2, но он потребляет гораздо больше энергии. 

Qualcomm также анонсировала новую технологию под названием Snapdragon Seamless. Это «кроссплатформенная технология, которая позволяет устройствам Android, Windows и Snapdragon, использующим другие операционные системы, обнаруживать друг друга и обмениваться информацией.

Теги:
Рейтинг0
Комментарии0

Осознанно управляя дыханием – увеличивая длительность/интенсивность вдохов или, наоборот, выдохов -- можно изменять состояние нервной системы. Такие изменения могут иметь как немедленный, так и длительный, эффект. Если делать акцент на:

  • Вдохах -> возбуждаться (речь не только и не столько о сексуальном возбуждении).

  • Выдохах -> успокаиваться.

  • Нет акцента -> баланс между возбуждениеми спокойствием.

                Простое понимание этого незамысловатого правила помогает в реальных жизненных ситуациях: всего пара-тройка минут осознанного дыхания по подходящей для конкретного момента схеме часто приводит нервную систему в нужное состояние. Самое тяжелое -- вспомнить об этом (и это не шутка).

 

Несколько примеров распространенных и проверенных в ходе научных исследований дыхательных упражнений.

Вот несколько примеров распространенных и проверенных в ходе научных исследований дыхательных упражнений.
Физиологический вздох -> доминирует выдох -> снижается пульс -> снижает стресс, улучшает настроение, улучшает сон.
Дыхание квадратом (Box Breathing) -> вдох и выдох равны -> выравнивает пульс -> снижает стресс, успокаивает, улучшает сон.
Циклическая гипервентиляция -> доминирует выдох -> повышает пульс -> улучшает концентрацию, повышает внимание и желание действовать, выброс адреналина.

Этот пост – тизер к более обширному материалу. Комментируйте, ваши комменты очень помогут.

Теги:
Рейтинг0
Комментарии0

Вклад авторов