Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Хранение данных*Хранилища данных*Финансы в IT

Amazon планирует вложить $148 млрд в центры обработки данных в течение следующих 15 лет, чтобы справиться со спросом на приложения с искусственным интеллектом и другие цифровые услуги. Компания стремится сохранить своё влияние на рынке облачных услуг, где ей принадлежит доля примерно вдвое больше второго игрока — Microsoft.

В 2024 году рост продаж Amazon Web Services возобновился после прошлогоднего спада, поэтому Amazon стремится обеспечить землю и электричество для своих дата-центров. Компания намерена расширить существующие ЦОДы в Северной Виргинии и Орегоне, а также построить новые в Миссисипи, Саудовской Аравии и Малайзии.

Amazon создаёт собственные ИИ-инструменты, чтобы конкурировать с ChatGPT от OpenAI, а также сотрудничает с другими компаниями для поддержки ИИ-услуг на своих серверах. В результате Amazon рассчитывает получить десятки миллиардов долларов доходов, связанных с ИИ.

Однако Amazon, Microsoft и другие компании сталкиваются с проблемой нехватки электроэнергии, а также выступлениями жителей штатов, которые жалуются на шум серверных ферм.

Теги:

YandexCloudEditor

18 мар в 13:005.8K

Блог компании Yandex Cloud & Yandex InfrastructureХранение данных*Хранилища данных*КонференцииОблачные сервисы*

Как организовать в облаке безопасное хранилище данных, запустить собственные ML-модели и системы скоростной аналитики — обсудим на Union All

20 марта в Москве и онлайн состоится большая конференция Yandex Cloud для руководителей дата‑проектов и дата‑офисов, а также разработчиков и архитекторов баз данных.

Программа Union All будет посвящена технологиям и эффективным решениям для работы с данными: от создания корпоративных хранилищ в облаке до монетизации данных в конкретных отраслях.

Вместе с приглашёнными докладчиками мы обсудим:

возможности работы с YandexGPT и запуск собственных ML‑моделей;
безопасное хранение данных в облаке;
новые возможности сервиса для визуализации данных DataLens.

Будем рады встрече уже в эту среду на площадке «Синема Парк Мосфильм» и в прямом эфире. Подробная программа и регистрация открыты на сайте Union All.

Теги:

KlimenkoIv

8 мар в 21:416.5K

Apache*Хранилища данных*Data Engineering*Визуальное программирование*

Когда строишь потоки обработки в Apache Nifi в основном требуется результат записать в базу данных. Бывают случаи, когда запись в целевую таблицу не проходит по причине несоответствия данных в записи и полей в таблице. Это возникает в случае, если на источнике размер поля увеличился, либо изменился порядок знаков после занятой, либо вы ожидаете "uniqueidentifier" а приходит пустая строка.

Ситуаций много, а решение обычно одно - локализовать ошибку, найти поле, которое не соответствует S2T, внести корректировки в таблицы, либо дополнить трасформации. В случае, если полей в записи две три, понять причину не сложно. Когда же их много приходится тратить время на разбор записи по отдельным полям и проверку каждого потенциального источника ошибки.

Для этого предлагаю скрипт для ScriptedTransformRecord, позволяющий разобрать запись на массив записей, каждая из которых содержит только одно значение, остальные проставляются "null".

results = []

fields = record.getRawFieldNames()
schema = record.getSchema()
fields.each{key -> {
    log.debug("Got key: ${key}")
    nMap = new java.util.HashMap<String, Object>()
    log.debug("create map")
    nMap.put(key,record.getValue(key))
    log.debug("Put to map value")
    newrecord = new org.apache.nifi.serialization.record.MapRecord(schema, nMap)
    log.debug("Сreate new record with field ${key}")
    results.add(newrecord)
}}

results

Полезные ссылки:

Сообщество Apache Nifi в Телеграм
Репозиторий с основными скриптами сообщества

Теги:

YandexCloudEditor

16 фев в 11:305K

Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Хранилища данных*Распределённые системы*

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

создавать инсталляцию Greenplum на облачной платформе и работать с ней;
использовать особенности СУБД для эффективной работы с Managed Greenplum;
правильно писать и оптимизировать запросы с учетом специфики Greenplum;
разбираться в архитектуре Greenplum;
проектировать оптимальную физическую модель данных.

О программе:

Обучение рассчитано на 50–80 часов.
Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.
Все материалы доступны бесплатно.

Теги:

CrXf_17

24 ноя 2023 в 12:011.6K

SQL*Администрирование баз данных*Хранение данных*Хранилища данных*Tarantool*

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

🔠Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_3)

Транзакции: В более новых версиях Tarantool была добавлена поддержка механизма транзакций. Транзакции позволяют группировать несколько операций в единую атомарную операцию, что обеспечивает целостность данных.
Разрешение конфликтов: Tarantool предоставляет механизм разрешения конфликтов при работе с репликацией и шардингом. Возможности разрешения конфликтов включают автоматическое разрешение конфликтов на основе временных меток и возможность управления конфликтами пользовательским кодом.

t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных)

Теги:

Wakeonlan

22 сен 2023 в 17:452.1K

Хранение данных*Хранилища данных*Облачные сервисы*

Яндекс почта для организации сказала, что "Скоро сервисы организации перейдут в режим просмотра" и предложила три тарифа на выбор БАЗОВЫЙ ОПТИМАЛЬНЫЙ РАСШИРЕННЫЙ

а вы знали, что менеджеру надо сказать: "Я ЗНАЮ ПРО ЗАКРЫТЫЙ ТАРИФ "СТАРТОВЫЙ", для тех кто еще никакой тариф не подключал, там будет только почта, но будет в 2 раза дешевле Базового?

Вот такие они ....

Теги:

IgnatChuker

11 сен 2023 в 14:551.5K

Хранилища данных*

ГК «Астра» и ГК Key Point подписали соглашение о сотрудничестве. В рамках соглашения, планируется проведение пилотных проектов по построению инфраструктуры центров обработки данных на базе технологических решений участников. Подписание соглашения состоялось в рамках Восточного экономического форума, проходящего во Владивостоке с 10 по 13 сентября 2023 года. Об этом рассказали информационной службе Хабра в пресс‑службе ГК «Астра».

С 2021 года ГК Key Point занимается проектом по созданию региональной сети дата‑центров. В первую очередь проекта был создан ЦОД уровня надёжности Tier III на 440 стоек во Владивостоке, запущенный в эксплуатацию в феврале 2023 года. Сейчас идёт строительство второй очереди проекта, всего в проекте создание 35 объектов на 10 тысяч стоек. Из этих объектов 4 ЦОДа будут размером от 400 до 1,2 тысячи стоек. Кроме Владивостока, в города, где будут находиться ЦОДы, вошли Новосибирск, Екатеринбург и Ставрополь. Также ЦОДы меньшим количеством, от 50 до 400 стоек, заявлены в других не озвученных городах России.

По словам представителей ГК «Астра», в этих ЦОДах инфраструктура создана на основе серверной OC Astra Linux, комплекса средств виртуализации «Брест» и ПО для администрирования IT‑инфраструктур ALD Pro.

Теги: