Администрирование баз данных *

Все об администрировании БД

Создаём надёжные API для бэкенда при помощи конечных автоматов: подробное руководство

7 мин

6.8K

Блог компании Издательский дом «Питер»Высокая производительность*Тестирование IT-систем*Алгоритмы*Администрирование баз данных*

Перевод

Я — бэкенд-разработчик, поэтому мне довелось по достоинству оценить, насколько важны конечные автоматы при построении надёжных систем, которые хорошо масштабируются. Конечные автоматы отлично подходят для моделирования сложной бизнес-логики и автоматизации переходов между состояниями. В этом посте будет разобрано, что представляют собой конечные автоматы, в чём их польза для бэкенд-разработки, и как с их помощью решать распространённые задачи.

Что такое конечные автоматы?

Конечный автомат — это математическая модель, описывающая состояние системы. Автомат состоит из множества состояний, переходов между этими состояниями и действиями, связанными с такими переходами. В любой момент времени система находится в одном из определённых состояний, а переходы инициируются при наступлении конкретных событий или условий.

Конечные автоматы часто используются в разработке программ для моделирования сложных потоков задач. С помощью конечных автоматов можно чётко и структурированно определить поведение системы. Тогда о системе становится проще рассуждать, её удобнее отлаживать и поддерживать.

Читать дальше →

+10

PatientZero 26 апр в 11:15

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

Средний

17 мин

Веб-разработка*Администрирование баз данных*Хранение данных*

Обзор

Перевод

О нашем девятимесячном пути к горизонтальному шардингу Postgres-стека Figma и о возможности обеспечения (почти) бесконечной масштабируемости.

Вертикальное разбиение было относительно простым и важным инструментом масштабирования, позволившим нам быстро добиться существенных улучшений. Кроме того, оно стало важным этапом на пути к горизонтальному шардингу.

С 2020 года стек баз данных Figma вырос почти в сотню раз. Это хорошая проблема, ведь она означает, что наш бизнес расширяется. Но в то же время она стала причиной технических сложностей. В течение последних четырёх лет мы усиленно старались не отставать от прогресса и избегать потенциальных проблем, связанных с ростом. В 2020 году у нас работала единственная база данных Postgres, которая хостилась на самом большом физическом инстансе AWS, но к концу 2022 года мы уже создали распределённую архитектуру с кэшированием, репликами для чтения и десятком вертикально разделённых баз данных. Мы разбили группы связанных таблиц (например, «Figma files» или «Organizations») на отдельные вертикальные разделы, что позволило нам обеспечить удобство инкрементального масштабирования и оставить достаточно пространства для дальнейшего роста.

+18

d3lavar 26 апр в 09:00

Как и почему мы построили Единую историю операций на Citus DB

Простой

6 мин

1.1K

Блог компании ГазпромбанкАдминистрирование баз данных*Хранилища данных*

Кейс

Доступ к единой истории операций — функция, которую сегодня ожидают видеть пользователи любого современного интернет-банкинга. В приложениях Газпромбанка функция существует уже много лет, но некоторое время назад мы решили существенно её переработать. В этой статье я расскажу, что мы поменяли, как и почему мы решили это сделать, а также почему мы гордимся результатом.

Сразу оговорюсь, что не буду углубляться в технические детали и остановлюсь на подходе, который мы решили использовать. Иначе есть риск что статья превратится в километровое полотнище. А если возникнут вопросы, то либо отвечу на них в комментах, либо аккумулирую и попробую разобрать в следующей статье.

Ilya12c 25 апр в 15:59

ClearML Data Management

15 мин

1.7K

Блог компании Magnus TechData Mining*Администрирование баз данных*Машинное обучение*Искусственный интеллект

Туториал

Очевидный для ML-инженера факт: если на вход модели подать мусор — на выходе тоже будет мусор. Это правило действует всегда, независимо от того, насколько у нас крутая модель. Поэтому важно понимать, как ваши данные будут храниться, использоваться, версионироваться и воспроизведутся ли при этом результаты экспериментов. Для всех перечисленных задач есть множество различных инструментов: DVC, MLflow, W&B, ClearML и другие. Git использовать недостаточно, потому что он не был спроектирован под требования ML. Но есть инструмент, который подходит для версионирования данных и не только — это ClearML. О нем я сегодня и расскажу.

Читать дальше →

+23

Digital_League 25 апр в 15:07

Делаем резервное копирование кластера ClickHouse: простая инструкция

4 мин

1.8K

Блог компании Лига Цифровой ЭкономикиIT-инфраструктура*Восстановление данных*Администрирование баз данных*Хранение данных*

Делаем резервное копирование кластера ClickHouse: простая инструкция

Меня зовут Леонид Блынский и я администратор баз данных в Лиге Цифровой Экономики. В этой небольшой статье расскажу, как я делаю резервное копирование кластера ClickHouse размером 20 ТБ.

Документация по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом.

asuleykin 25 апр в 13:27

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Средний

10 мин

930

Open source*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

Кейс

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

RukInDaHouse 25 апр в 13:11

Это база: нюансы работы с Redis. Часть 2, репликация

Средний

11 мин

Блог компании NixysСистемное администрирование*NoSQL*Администрирование баз данных*DevOps*

Обзор

Всем привет, на связи Пётр, инженер компании Nixys. В прошлой статье мы разобрали основные концепции Redis. Теперь рассмотрим базовую репликацию Redis и настроим эту БД на высокий уровень отказоустойчивости.

+15

MaxRokatansky 24 апр в 14:11

Оптимизация запросов в ClickHouse с помощью создания цепочки материализованных представлений

10 мин

979

Блог компании OTUSАдминистрирование баз данных*

Перевод

В ClickHouse материализованные представления (materialized views) являются механизмом, автоматически выполняющим запросы к исходным таблицам при поступлении новых данных.

Материализованное представление (МП) - это специальный тип таблицы, содержащей результат выполнения запроса к исходным данным. Этот результат фактически представляет собой кэшированное представление данных из исходных таблиц. Одной из ключевых особенностей МП в ClickHouse является их автоматическое обновление. При поступлении новых данных в исходные таблицы МП обновляется, автоматически пересчитываясь в соответствии с определенным запросом.

aozeritsky 24 апр в 10:00

Эволюция обработки данных: от MapReduce к стриминговому движку

7 мин

4.4K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureSQL*Администрирование баз данных*Хранение данных*

Кейс

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

+35

qlever 22 апр в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

4.3K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

Sivchenko_translate 22 апр в 17:48

Сравнение технологий WebSockets, Server-Sent-Events, Long-Polling, WebRTC и WebTransport

16 мин

8.1K

Веб-разработка*Программирование*Серверная оптимизация*Администрирование баз данных*Исследования и прогнозы в IT*

Перевод

При работе с современными веб-приложениями реального времени незаменима возможность отправлять события с сервера на клиент. Именно этой необходимостью продиктовано то, что за годы работы было изобретено несколько методов для этой цели, каждый с собственным набором достоинств и недостатков. Первоначально единственным вариантом был длинный опрос. Затем в качестве альтернативы появились веб-сокеты — более надёжное решение для двунаправленной коммуникации. Вслед за веб-сокетами появились события, отправляемые сервером (SSE), более простой метод, обеспечивающий однонаправленную связь от сервера к клиенту. Забегая вперёд, сейчас разрабатывается ещё и протокол WebTransport, который может тем более изменить ландшафт этой области, обеспечивая более эффективный и гибкий подход, располагающий к масштабированию. В некоторых нишевых случаях можно присмотреться и к технологии WebRTC, предназначенной для работы с событиями в направлении сервер-клиент.

В этой статье мы подробно разберём данные технологии, сравним их производительность, подчеркнём их достоинства и недостатки, а также порекомендуем, что делать в различных практических случаях, расскажем, как принимать информированные решения при создании веб-приложений реального времени. Эта статья — экстракт моего совокупного опыта, приобретённого в ходе реализации протокола репликации RxDB, обеспечивающего совместимость с различными технологиями серверной части.

+22

northartbar 21 апр в 21:12

Использование миграций баз данных в Go

Простой

6 мин

4.1K

SQL*Администрирование баз данных*Go*

Перевод

Недавно мы столкнулись с необходимостью найти библиотеку для удобной работы с базами данных. В проекте было принято решение не использовать ORM, а вместо этого применить миграции. Так как я работал только с ORM, мне, как и автору статьи, было мало знакомо понятие миграций баз данных. В поисках информации о миграциях и популярных решениях, я наткнулся на эту статью. Перевод статьи я оставил ниже. Возможно, она будет вам полезна. Буду признателен, если вы сможете поделиться библиотеками, которые используете.

Maxilect 19 апр в 07:40

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Средний

6 мин

2.1K

Блог компании MaxilectСистемное администрирование*Администрирование баз данных*Хранилища данных*DevOps*

Туториал

В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.

В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.

Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.

+12

mojojojo 17 апр в 09:25

Безопасный Continuous Deployment БД по принципам DB-First

Средний

12 мин

3.1K

PostgreSQL*Java*Haskell*Администрирование баз данных*Системы сборки*

Туториал

В статье рассматривается Continuous Deployment для БД с бесшовными релизами за счёт обратно-совместимых обновлений и автоматизации проверок совместимости с помощью подхода DB-First.

alexmusyka 15 апр в 12:42

Потенциальные проблемы с автоинкрементным ключом. MySQL <8.0, PostgreSQL

Простой

6 мин

MySQL*PostgreSQL*SQL*Администрирование баз данных*

Перевод

В данной публикации я поделюсь двумя основными причинами, по которым я предпочитаю избегать использования автоинкрементных полей в PostgreSQL и MySQL в будущих проектах. Вместо этого я предпочитаю использовать UUID-поля, за исключением случаев, когда есть очень веские аргументы против этого подхода.

+11

AlexSerbul 15 апр в 10:00

Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24

Средний

9 мин

1.5K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBАдминистрирование баз данных*Резервное копирование*Облачные сервисы*

Кейс

Меня зовут Александр, я руковожу направлением больших данных в Битрикс24. Клиенты нашего сервиса хранят миллиарды файлов: от документов до фотографий, — а моя команда предоставляет возможность строить бизнес-аналитику на основе этого множества данных. И нам важно позаботиться об их сохранности.

Более 10 лет назад мы продумали необходимую нам схему репликации объектного хранилища в облаке. Затем файлы клиентов потребовалось перенести в другое облако, и нам очень хотелось также перенести все наши наработки в режиме «Ctrl+C, Сtrl+V».

В статье расскажу, как мы организовали резервирование данных в парадигме слабого связывания и как перенесли эту схему в Yandex Cloud без потери важных нам деталей.

+17

Maksvelis 12 апр в 15:37

Выжимаем максимум из PostgreSQL

Средний

14 мин

15K

Блог компании SelectelPostgreSQL*IT-инфраструктура*Администрирование баз данных*

Обзор

Привет, Хабр! Меня зовут Максим, я работаю тестировщиком оборудования в Selectel Lab. В лаборатории мы занимаемся тестированием нового оборудования для дата-центров. О том, как мы измеряли производительность PostgreSQL на разных конфигурациях — под катом!

Читать дальше →

+63

ph_piter 9 апр в 18:33

Книга «SQL. Pocket guide, 4-е изд.»

7 мин

4.6K

Блог компании Издательский дом «Питер»MySQL*SQL*Администрирование баз данных*Профессиональная литература*

Привет, Хаброжители!

Если вы аналитик или инженер по обработке данных и используете SQL, популярный карманный справочник станет для вас идеальным помощником. Найдите множество примеров, раскрывающих все сложности языка, а также ключевые аспекты SQL при его использовании в Microsoft SQL Server, MySQL, Oracle Database, PostgreSQL и SQLite.

В обновленном издании Элис Жао описывает, как в этих СУБД используется SQL для формирования запросов и внесения изменений в базу. Получите подробную информацию о типах данных и их преобразованиях, синтаксисе регулярных выражений, оконных функциях, операторах PIVOT и UNPIVOT и многом другом.

Читать дальше →

+14

samokhvaloff 9 апр в 16:06

Разработка автоматизированной очереди для сдачи лабораторных работ

Простой

3 мин

2.3K

PHP*CSS*SQL*HTML*Администрирование баз данных*

Из песочницы

Учеба в политехе заключается в сдаче лабораторных работ. Буквально. Очень редко бывает такое, что на парах мы чему-то учимся, зачастую все завязано на самообучении. Грубо говоря, вот вам методичка, разбирайтесь сами, через неделю дедлайн.

В связи с этим мы столкнулись с очередями на сдачу этих лабораторных. Сначала просто писали в общий чат, кто каким будет в очереди (например, "я первый", "я вторая", "я третий" и т.д.). Далее решили создать расшаренную таблицу в гугле для формирования очередей. Однако долго она тоже не прожила, так как со временем появились "умники", которые стали ставить себя первыми в очереди, сдвигая остальных вниз. Потом общий доступ для таблицы закрыли, и было принято решение для записи на сдачу писать старосте, он, в свою очередь, будет добавлять студентов в список. Но староста группы не может быть постоянно на связи, иными словами, оперативно добавиться в очередь было просто невозможно.

В связи с этим я задумался над созданием автоматизированной очереди. В качестве стека основных технологий выбрал HTML5+CSS3 для фронтенда, PHP для бэкенда. В качестве СУБД был выбран phpMyAdmin (SQL-DB). В первую очередь, конечно, необходимо было продумать структуру базы данных. Предметная область информационной системы уже была сформулирована: "Очередь на сдачу лабораторных работ с возможностью записи по отдельным дисциплинам, удаления своей записи. Учет истории создания записи, удаления записей, включая время записи. Возможность смены пароля, просмотра профиля." Даталогическая модель БД была построена в MySQL Workbench 8.0 CE в нотации IDEF1X.

Tom_Rench 9 апр в 15:09

Интеграция Grist и Metabase

Средний

11 мин

1.3K

Блог компании AGIMAPython*SQL*Администрирование баз данных*

Туториал

Привет! Меня зовут Александр Ежков, я Backend-разработчик в AGIMA. Занимаюсь созданием и поддержкой внутренних сервисов для компании. А конкретно сейчас — нашей DWH-системой. Мы построили ее из Open-source продуктов. В этой статье расскажу, какие продукты мы используем, какие хитрости придумали для работы с ними как вся система работает вместе.

+18

2 3 ...

67 68

Администрирование баз данных *

Создаём надёжные API для бэкенда при помощи конечных автоматов: подробное руководство

Что такое конечные автоматы?

Новости

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

Как и почему мы построили Единую историю операций на Citus DB

ClearML Data Management

Делаем резервное копирование кластера ClickHouse: простая инструкция

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Это база: нюансы работы с Redis. Часть 2, репликация

Оптимизация запросов в ClickHouse с помощью создания цепочки материализованных представлений

Эволюция обработки данных: от MapReduce к стриминговому движку

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Сравнение технологий WebSockets, Server-Sent-Events, Long-Polling, WebRTC и WebTransport

Использование миграций баз данных в Go

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Ближайшие события

Безопасный Continuous Deployment БД по принципам DB-First

Потенциальные проблемы с автоинкрементным ключом. MySQL <8.0, PostgreSQL

Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24

Выжимаем максимум из PostgreSQL

Книга «SQL. Pocket guide, 4-е изд.»

Разработка автоматизированной очереди для сдачи лабораторных работ

Интеграция Grist и Metabase

Вклад авторов

Работа