Как стать автором
Обновить
32.02

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как и почему мы построили Единую историю операций на Citus DB

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

Доступ к единой истории операций — функция, которую сегодня ожидают видеть пользователи любого современного интернет-банкинга. В приложениях Газпромбанка функция существует уже много лет, но некоторое время назад мы решили существенно её переработать. В этой статье я расскажу, что мы поменяли, как и почему мы решили это сделать, а также почему мы гордимся результатом.

Сразу оговорюсь, что не буду углубляться в технические детали и остановлюсь на подходе, который мы решили использовать. Иначе есть риск что статья превратится в километровое полотнище. А если возникнут вопросы, то либо отвечу на них в комментах, либо аккумулирую и попробую разобрать в следующей статье.

Читать далее
Всего голосов 4: ↑6 и ↓-2+8
Комментарии2

Новости

Как настроить ETL с json’ами в Apache NiFi

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.5K

Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи.

Что делает наша команда

Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию.

Описание задачи

У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить.

Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато. 

Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации.

Читать далее
Всего голосов 12: ↑13.5 и ↓-1.5+15
Комментарии5

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров951

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии10

Яндекс Data Proc для ML: ускоряем Embedding на Spark

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров789

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

Читать далее
Всего голосов 2: ↑3 и ↓-1+4
Комментарии0

Истории

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.3K

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее
Всего голосов 5: ↑7 и ↓-2+9
Комментарии1

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Время на прочтение9 мин
Количество просмотров4.3K

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.1K

В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.

В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией. 

Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.

Читать далее
Всего голосов 9: ↑10.5 и ↓-1.5+12
Комментарии2

Домашняя лаба. Как собрать домашнюю инфраструктуру мечты

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров22K

Мой первый опыт на Хабре получился не очень положительным, и, признаюсь, до сих пор смотря на комментарии и оценки, мне стыдно и больно где-то внутри.

Потому в имя исправления ошибок молодости решил написать серию статей о том, как дома собрать свою "идеальную" хранилку, или сервак, или мини облако. Поделюсь опытом, своими знаниями и пониманием, а также мыслями, которые могут помочь выполняя похожую задачу для себя.

Читать далее
Всего голосов 18: ↑12 и ↓6+6
Комментарии40

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6K

Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...

Читать далее
Всего голосов 10: ↑7.5 и ↓2.5+5
Комментарии21

Как бизнес-аналитику выстроить работу в проектах DWH (Data Warehouse). Структура работ

Время на прочтение6 мин
Количество просмотров3.9K

Привет, аналитики!

В прошлый раз мы разобрались, как бизнес-аналитику наладить взаимодействие со стейкхолдерами и превратить их противоречивые требования в единую систему.

Сегодня я хочу поговорить о дальнейшей работе аналитика в проектах по созданию хранилищ данных (DWH). Как пройти весь путь от сбора требований до внедрения готового решения, сохраняя баланс интересов бизнеса и ИТ.

Мы уже выяснили потребности пользователей и достигли консенсуса по целям системы. Теперь предстоит воплотить эти требования в реальное DWH. И здесь нас ждет не меньше подводных камней, чем на этапе согласования.

Как избежать недопонимания между бизнесом и ИТ в ходе проектирования? Как убедиться, что разработанное решение действительно решает задачи заказчика? И как помочь пользователям безболезненно перейти на новую систему?

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии9

Что такое Data Service и почему он может быть вам полезен

Время на прочтение8 мин
Количество просмотров2.1K

Привет, Хабр! На связи группа экспертов по управлению данными из МТС.
А именно: Патрисия Кошман — руководитель группы (управление метаданными) и Аксинья Ласкова — эксперт по практикам качества данных.

Сервисы МТС собирают огромное количество данных разных типов и качества, начиная с информации об оборудовании сети и заканчивая данными о кинопроизводстве. Естественно, эти данные нужно хранить, обрабатывать и находить им применение.

Как это происходит у нас — рассказали под катом!

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Ликбез по методологиям проектирования хранилищ данных

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.9K

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

Читать далее
Всего голосов 8: ↑5 и ↓3+2
Комментарии8

Новая линейка СХД АЭРОДИСК ENGINE AQ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург

Как дисциплина управления мастер-данными влияет на продажи

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров704

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии1

Оптимизируем параметры запуска приложения Spark. Часть первая

Время на прочтение5 мин
Количество просмотров14K

Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.

Для чего это вообще нужно

Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».

В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.

Читать далее
Всего голосов 18: ↑17.5 и ↓0.5+17
Комментарии1

Jackett + Synology Download Station

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.4K

Есть желание добавить в Synology Download Station возможность искать по 613 торрент трекерам? Хочется видеть, какие именно торренты будут загружены? Хочется чтобы оно работало и в мобильном приложении?

Тогда прошу под кат!
Всего голосов 7: ↑6 и ↓1+5
Комментарии14

Почему люди не делают бэкапы?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров15K
Есть у меня вузовский товарищ Сашка. Математик, физик, а теперь и разработчик (умело монетизирует мозги), умный до безобразия. Ещё в университете он проявлял патологическую собранность в походах: чего бы ни понадобилось, всё было у него в рюкзаке. Год за годом он погружался в тему жизнеобеспечения всё глубже — и вот в ковидные времена общество получило выживальщика, продуманного до мелочей. Это тот случай, когда тушёнка, сгущёнка, йодид калия, триста способов разжечь костёр, землянка в пригородном лесу уже выкопана и меблирована обставлена по последнему слову выживания. Так вот, этот разработчик, математик, физик и человек, желающий во что бы то ни стало сохраниться вместе с тихоходками, с полгода назад истерически кричал мне в трубку, что у него «стёрся» проект длиной в год. Причина истерики проста: он не сделал бэкап. И это могла быть курьёзная байка, но таких — сотни и тысячи. Это люди, которые доверяют какому-то авосю свой труд, свои силы, свой опыт, свои деньги, данные, судьбы своих компаний. А авось почему-то оказывается ненадёжным.


Это всё чёрная кошка виновата, а не бэкапы там какие-то несделанные

Почему так происходит? Предлагаю рассмотреть 9 возможных причин.
Читать дальше →
Всего голосов 58: ↑55 и ↓3+52
Комментарии90

Нескучная стеганография, или как мы зашифровали секретные ключи пользователей в джипегах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4K

Рассказываем, как использовать методы стеганографии и шифрования в децентрализованных сервисах на IPFS. Исключаем риски, связанные с централизованным хранением логинов и паролей. Используем метод LSB, «наименьший значащий бит». Внутри статьи — примеры кода на C# и алгоритме AES для шифрования и расшифровки. 

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии4

ClickHouse как бэкенд для Prometheus

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.5K

Привет! Меня зовут Михаил Кажемский, я Lead DevOps в IT‑интеграторе Hilbert Team. В последнее время к нам часто обращаются заказчики, которым нужна помощь с организацией хранения долгосрочных метрик в российских облаках. Так как для многих эта задача сейчас актуальная, в данной статье мы с моим коллегой Денисом Бабичевым решили рассказать, как мы используем мощные возможности ClickHouse для эффективного долгосрочного хранения метрик Prometheus. В статье вы найдете рекомендации по использованию инструмента и описание альтернативных решений, таких как Thanos, Grafana Mimir и Victoria Metrics.

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии2

HDD, SSD или NVMe: что выбрать для виртуального сервера (тесты внутри)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров13K


В сегодняшней статье разберём настройку одного из параметров конфигурации при заказе виртуального выделенного сервера. Речь пойдёт о типе накопителя, который будет использоваться для виртуалки. Попробуем вместе разобраться, чем виды накопителей отличаются друг от друга, и на что может повлиять тот или иной выбор.
Читать дальше →
Всего голосов 42: ↑37 и ↓5+32
Комментарии65
1
23 ...

Вклад авторов