Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

GlobalSign_admin 11 мая в 21:07

Приватные ссылки — в публичном доступе

3 мин

5.1K

Блог компании GlobalSignИнформационная безопасность*Антивирусная защита*Хранилища данных*Облачные сервисы*

Популярные сканеры на вирусы и вредоносные URL вроде urlscan.io, Hybrid Analysis и Cloudflare radar url scanner хранят у себя большое количество ссылок, которые прошли через сканер. Но оказалось, что эти сервисы также хранят большое количество частных и приватных ссылок:

совместно используемые файлы в облачных хранилищах (например, Dropbox, iCLoud, Sync, Egnyte, Ionos Hidrive, AWS S3);
инструменты NAS с облачным подключением (например, Western Digital Mycloud);
корпоративные коммуникации (Slido, Zoom, Onedrive, Airtable и др.);
ссылки для сброса пароля, ссылки для входа Oauth.

Так происходит в основном по двум причинам: или сами пользователи по ошибке передают приватные ссылки в сканер, или неправильные настройки сканеров выдают ссылки из писем и т. д.

Читать дальше →

+14

SergeyProkhorenko 8 мая в 22:01

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Средний

14 мин

5.2K

Высокая производительность*Анализ и проектирование систем*IT-стандарты*Big Data*Хранилища данных*

Аналитика

Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.

Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.

Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.

Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".

Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.

Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации

+14

AvramovMax 6 мая в 11:35

Подборка внешних жёстких дисков и SSD-накопителей

Простой

12 мин

5.8K

Блог компании FirstVDSХранение данных*Хранилища данных*Компьютерное железоНакопители

Обзор

Сегодня, когда объёмы данных постоянно растут, а терять их становится всё критичнее, использование внешнего накопителя часто становится необходимостью. У каждого из нас есть файлы, которыми мы дорожим — от рабочих документов до фотографий с домашними питомцами. При этом у жёстких дисков есть срок службы и вероятность отказа в самый неподходящий момент. У меня был подобный опыт с накопителем Seagate и ошибкой «муха СС». С тех пор я в обязательном порядке дублирую все важные файлы в облако и ещё на один диск.

Взглянуть на накопители

imzorin 3 мая в 10:38

Цикл статей о Greenplum. Часть 1. GP под капотом

Средний

6 мин

3.6K

Блог компании Axenix (ex-Accenture)PostgreSQL*SQL*Хранилища данных*Data Engineering*

Обзор

Всем привет!

Как вы знаете, многие поставщики ПО ушли с российского рынка ввиду введённых санкций и многие компании столкнулись с необходимость заняться импортозамещением в кратчайшие сроки. Не стал исключением и наш заказчик. Целевой системой, на которое было принято решение мигрировать старое хранилище, стал Greenplum (далее GP) от компании Arenadata.

Этой статьей мы запускаем цикл материалов посвященных Greenplum. В рамках цикла мы разберем, как вообще устроен GP и как выглядит его архитектура. Постараемся выделить must have практики при работе с данным продуктом, а также обсудим, как можно спроектировать хранилище на GP, осуществлять мониторинг эффективности работы и многое другое. Данный цикл статей будет полезен как разработчикам БД, так и аналитикам.

+19

d3lavar 26 апр в 09:00

Как и почему мы построили Единую историю операций на Citus DB

Простой

6 мин

1.3K

Блог компании ГазпромбанкАдминистрирование баз данных*Хранилища данных*

Кейс

Доступ к единой истории операций — функция, которую сегодня ожидают видеть пользователи любого современного интернет-банкинга. В приложениях Газпромбанка функция существует уже много лет, но некоторое время назад мы решили существенно её переработать. В этой статье я расскажу, что мы поменяли, как и почему мы решили это сделать, а также почему мы гордимся результатом.

Сразу оговорюсь, что не буду углубляться в технические детали и остановлюсь на подходе, который мы решили использовать. Иначе есть риск что статья превратится в километровое полотнище. А если возникнут вопросы, то либо отвечу на них в комментах, либо аккумулирую и попробую разобрать в следующей статье.

EvSV 25 апр в 14:00

Как настроить ETL с json’ами в Apache NiFi

Простой

9 мин

1.7K

Блог компании билайнApache*Big Data*Хранилища данных*Data Engineering*

Туториал

Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения схожей задачи.

Что делает наша команда

Команда работает с данными по рекрутингу — с любой аналитикой, которая необходима персоналу подбора сотрудников. У нас есть различные внешние или внутренние источники, из которых с помощью NiFi или Apache Spark мы забираем данные и складируем к себе в хранилище (по умолчанию Hive, но есть еще PostgreSQL и ClickHouse). Этими же инструментами мы можем брать данные из хранилищ, создавать витрины и складывать обратно, предоставлять данные внутренним клиентам или делать дашборды и давать визуализацию.

Описание задачи

У нас есть внешний сервис, на котором рекрутеры работают с подбором. Сервис может отдавать данные через свою API, а мы эти данные можем загружать и складировать в хранилище. После загрузки у нас появляется возможность отдавать данные другим командам или работать с ними самим. Итак, пришла задача — нужно загрузить через API наши данные. Дали документацию для загрузки, поехали. Идем в NiFi, создаем пайплайн для запросов к API, их трансформации и складывания в Hive. Пайплайн начинает падать, приходится посидеть, почитать документацию. Чего-то не хватает, JSON-ы идут не те, возникают сложности, которые нужно разобрать и решить.

Ответы приходят в формате JSON. Документации достаточно для начала загрузки, но для полного понимания структуры и содержимого ответа — маловато.

Мы решили просто загружать все подряд — на месте разберемся, что нам нужно и как мы это будем грузить, потом пойдем к источникам с конкретными вопросами. Так как каждый метод API отдает свой класс данных в виде JSON, в котором содержится массив объектов этого класса, нужно построить много таких пайплайнов с обработкой разного типа JSON’ов. Еще одна сложность — объекты внутри одного и того же класса могут отличаться по набору полей и их содержимому. Это зависит от того, как, например, сотрудники подбора заполнят информацию о вакансии на этом сервисе. Этот API работает без версий, поэтому в случае добавления новых полей информацию о них мы получим только либо из данных, либо в процессе коммуникации.

+15

asuleykin 25 апр в 13:27

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Средний

10 мин

1.3K

Open source*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

Кейс

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

Siphon 23 апр в 14:15

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

1.5K

Python*Apache*Хранение данных*Хранилища данных*Data Engineering*

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

qlever 22 апр в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

4.6K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

Maxilect 19 апр в 07:40

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Средний

6 мин

2.2K

Блог компании MaxilectСистемное администрирование*Администрирование баз данных*Хранилища данных*DevOps*

Туториал

В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.

В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.

Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.

+12

ghostklart 18 апр в 14:37

Домашняя лаба. Как собрать домашнюю инфраструктуру мечты

Простой

10 мин

22K

Тестирование IT-систем*Серверное администрирование*Хранилища данных*

Ретроспектива

Recovery Mode

Мой первый опыт на Хабре получился не очень положительным, и, признаюсь, до сих пор смотря на комментарии и оценки, мне стыдно и больно где-то внутри.

Потому в имя исправления ошибок молодости решил написать серию статей о том, как дома собрать свою "идеальную" хранилку, или сервак, или мини облако. Поделюсь опытом, своими знаниями и пониманием, а также мыслями, которые могут помочь выполняя похожую задачу для себя.

avshkol 18 апр в 01:15

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Средний

10 мин

6.2K

Big Data*Математика*Хранилища данных*Исследования и прогнозы в IT*Data Engineering*

Мнение

Перевод

Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...

Viktoria_Rein 15 апр в 20:42

Как бизнес-аналитику выстроить работу в проектах DWH (Data Warehouse). Структура работ

6 мин

4.2K

Хранилища данных*Карьера в IT-индустрии

Привет, аналитики!

В прошлый раз мы разобрались, как бизнес-аналитику наладить взаимодействие со стейкхолдерами и превратить их противоречивые требования в единую систему.

Сегодня я хочу поговорить о дальнейшей работе аналитика в проектах по созданию хранилищ данных (DWH). Как пройти весь путь от сбора требований до внедрения готового решения, сохраняя баланс интересов бизнеса и ИТ.

Мы уже выяснили потребности пользователей и достигли консенсуса по целям системы. Теперь предстоит воплотить эти требования в реальное DWH. И здесь нас ждет не меньше подводных камней, чем на этапе согласования.

Как избежать недопонимания между бизнесом и ИТ в ходе проектирования? Как убедиться, что разработанное решение действительно решает задачи заказчика? И как помочь пользователям безболезненно перейти на новую систему?

aksinia_laskova 11 апр в 15:31

Что такое Data Service и почему он может быть вам полезен

8 мин

2.3K

Блог компании МТСBig Data*Хранилища данных*История IT

Привет, Хабр! На связи группа экспертов по управлению данными из МТС.
А именно: Патрисия Кошман — руководитель группы (управление метаданными) и Аксинья Ласкова — эксперт по практикам качества данных.

Сервисы МТС собирают огромное количество данных разных типов и качества, начиная с информации об оборудовании сети и заканчивая данными о кинопроизводстве. Естественно, эти данные нужно хранить, обрабатывать и находить им применение.

Как это происходит у нас — рассказали под катом!

PB_Academy 9 апр в 11:26

Ликбез по методологиям проектирования хранилищ данных

Простой

2 мин

9.2K

Big Data*Хранение данных*Хранилища данных*

Из песочницы

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

AERODISK 8 апр в 05:08

Новая линейка СХД АЭРОДИСК ENGINE AQ

Простой

6 мин

1.4K

Блог компании АЭРОДИСКСистемное администрирование*IT-инфраструктура*Хранение данных*Хранилища данных*

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

Slipeer 5 апр в 08:39

Как дисциплина управления мастер-данными влияет на продажи

Средний

4 мин

752

Блог компании Magnit TechАнализ и проектирование систем*Хранение данных*Хранилища данных*

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам.

centerco 4 апр в 18:09

Оптимизируем параметры запуска приложения Spark. Часть первая

5 мин

14K

Блог компании билайнBig Data*Хранилища данных*Data Engineering*

Кейс

Привет! Меня зовут Андрей Чучалов, я работаю в билайне, и в этом посте я расскажу про оптимизацию параметров запуска приложений в Spark, поиск проблем и повышение производительности. Разберем запуск приложений Spark в базовой и расширенной версиях, покажу методы расчёта основных параметров работы приложения для производительности и эффективности использования доступных ресурсов кластера. Бонусом — о том, как всё это привязано к деньгам, и где сэкономить можно, а где — не стоит.

Для чего это вообще нужно

Спараметризировать приложение — это не такая уж грандиозная задача, а вот попытаться понять взаимосвязь эффективности работы приложения со стоимостными параметрами такой работы — это уже сложнее. Тут вам пригодится своеобразное «боковое зрение».

В рассказе и на примерах я буду исходить из того, что у нас по умолчанию процесс ETL-обработки данных правильно, с самой программой всё ОК и она корректно спроектирована. И оборудование в составе кластера тоже рабочее и достаточное для запуска приложения. Это позволит говорить именно о влиянии параметров на эффективность.

+17

DeXPeriX 1 апр в 13:21

Jackett + Synology Download Station

Простой

2 мин

5.7K

Системное администрирование*Хранилища данных*Управление медиа*Умный дом

Туториал

Есть желание добавить в Synology Download Station возможность искать по 613 торрент трекерам? Хочется видеть, какие именно торренты будут загружены? Хочется чтобы оно работало и в мобильном приложении?

Тогда прошу под кат!

ru_vds 31 мар в 16:00

Почему люди не делают бэкапы?

Простой

6 мин

15K

Блог компании RUVDS.comРезервное копирование*Хранение данных*Хранилища данных*

Дайджест

Есть у меня вузовский товарищ Сашка. Математик, физик, а теперь и разработчик (умело монетизирует мозги), умный до безобразия. Ещё в университете он проявлял патологическую собранность в походах: чего бы ни понадобилось, всё было у него в рюкзаке. Год за годом он погружался в тему жизнеобеспечения всё глубже — и вот в ковидные времена общество получило выживальщика, продуманного до мелочей. Это тот случай, когда тушёнка, сгущёнка, йодид калия, триста способов разжечь костёр, землянка в пригородном лесу уже выкопана и ~~меблирована~~ обставлена по последнему слову выживания. Так вот, этот разработчик, математик, физик и человек, желающий во что бы то ни стало сохраниться вместе с тихоходками, с полгода назад истерически кричал мне в трубку, что у него «стёрся» проект длиной в год. Причина истерики проста: он не сделал бэкап. И это могла быть курьёзная байка, но таких — сотни и тысячи. Это люди, которые доверяют какому-то авосю свой труд, свои силы, свой опыт, свои деньги, данные, судьбы своих компаний. А авось почему-то оказывается ненадёжным.

Это всё чёрная кошка виновата, а не бэкапы там какие-то несделанные

Почему так происходит? Предлагаю рассмотреть 9 возможных причин.

Читать дальше →

+52

2 3 ...

56 57

Хранилища данных *

Приватные ссылки — в публичном доступе

Новости

Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562

Подборка внешних жёстких дисков и SSD-накопителей

Цикл статей о Greenplum. Часть 1. GP под капотом

Истории

Как и почему мы построили Единую историю операций на Citus DB

Как настроить ETL с json’ами в Apache NiFi

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Как мы переносили базу Clickhouse между географически удаленными дата-центрами

Домашняя лаба. Как собрать домашнюю инфраструктуру мечты

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Как бизнес-аналитику выстроить работу в проектах DWH (Data Warehouse). Структура работ

Ближайшие события

Что такое Data Service и почему он может быть вам полезен

Ликбез по методологиям проектирования хранилищ данных

Новая линейка СХД АЭРОДИСК ENGINE AQ

Как дисциплина управления мастер-данными влияет на продажи

Оптимизируем параметры запуска приложения Spark. Часть первая

Jackett + Synology Download Station

Почему люди не делают бэкапы?

Вклад авторов