Как стать автором
Обновить
112.92

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Совместно с Игорем Котенковым подготовили для себя и для вас Бинго-карточку на предстоящую трансляции OpenAI, чтоб было интереснее наблюдать!


Что именно покажут на презентации не уточнялось, но по словам Sam. A.:
`not gpt-5, not a search engine, but we've been hard at work on some new stuff we think people will love! feels like magic to me`

В твиттере много отсылок к слову "magic" и слухов по поводу голосового помощника, модели связанной со звуком.

В своем канале я оставлю короткую выдержку новостей и о какой магии говорят в openai!

Теги:
+2
Комментарии0

Подборка статей для Research MLE


Не так давно я для себя понял, насколько важно читать научные статьи в ML, но сталкиваешься с тем что только 20% статей дадут тебе 80% результата. В своем Notion я собрал небольшую подборку самых интересных и полезных статей по LLM и RecSys. (которая кстати пополняется)

NLP:
Там есть как классические статейки от w2v, attention, transformers, gpt, gpt2, ...
Так и популярные или не так давно вышедших peft, llama, reft

RecSys:
Стараюсь пополнять интересными статейками от топовых лабораторий Meta, Deezer, Spotify, Netflix, X, ... Или годными статья из NIPS или ACM

На некоторые из этих статей я собираюсь писать обзорчики на Habr, кстати недавно вот написал про персонализированный Cold Start в Deezer. Про некоторые я выложу просто Summary в свой телеграм канал или сделаю конспект в Notion.

Если вдруг вам захочется пополнить этот банк статей, то можете закинуть свои идеи вот сюда.

Теги:
+3
Комментарии0

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

🧑🏻‍🏫Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

🔻 Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
🔻 С какими вызовами мы столкнулись при написании коннектора и как их решили.
🔻 Цифры и результаты: что у нас получилось в итоге.
🔻 Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

👉🏻Регистрация на вебинар доступна по ссылке зашитой в это предложение👈🏻

Теги:
+3
Комментарии0

Сборник полезных инструментов для работы с Big Data 🔥

Apache Druid - это аналитическая база данных реального времени, обеспечивающая низкую задержку запросов, высокий параллелизм, возможность многопользовательского доступа и мгновенную видимость потоковых данных. Druid позволяет нескольким конечным пользователям одновременно получать данные из хранилища без ущерба для производительности.

Apache Drill - это инструмент, который позволяет пользователям запрашивать разнообразные данные из множества источников в различных форматах, включая Hadoop-файлы, журналы сервера, базы данных NoSQL и облачные хранилища объектов.

HPCC Systems - это платформа обработки больших данных, основанная на открытом исходном коде и представляющая собой кластер компьютеров, спроектированный для обработки и управления большими объемами данных.

Apache Iceberg - это открытый формат таблицы, который облегчает управление данными в озерах путем отслеживания информации в файлах в таблицах, а не в каталогах. Исходно созданный Netflix для работы с петабайтными таблицами, Iceberg стал проектом Apache и широко используется в продакшене.

Apache Kylin - это распределенное хранилище информации и аналитическая платформа для больших данных, предоставляющая OLAP-аналитику для обработки огромных массивов данных на базе технологий Apache, таких как Hadoop, Hive, Parquet и Spark.

Kylin — это распределенное хранилище информации и аналитическая платформа для больших данных. 

В своем канале я тестирую эти инструмент, welcome.

Теги:
0
Комментарии0

Новые открытые модели LLM от Apple.


Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода

- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения

- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и  подробная информации о каждой из них:

- OpenELM-270M

- OpenELM-450M

- OpenELM-1_1B

- OpenELM-3B

- OpenELM-270M-Instruct

- OpenELM-450M-Instruct

- OpenELM-1_1B-Instruct

- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet

hf: https://huggingface.co/apple/OpenELM

abs: https://arxiv.org/abs/2404.14619

Здесь мы публикуем новые открытые модели и разбираем их.

Теги:
+3
Комментарии0

Оценка стоимости обучения большинства популярных моделей из отчета Stanford 2024 AI Index Report на 500 страниц.

Здесь сравнивается стоимость обучения различных моделей:

- Оriginal Transformer в 2017 году: $930

- GPT-3: $4.3M

- GPT-4: $78.4M

- Gemini Ultra: $191.4M

Новая модель Llama-3, обучение которой обошлось Meta в $100M, оказалась дороже, чем GPT-4.

Полный отчет.

Полный список репозиториев ИИ с открытым исходным кодом

Теги:
+5
Комментарии0

Нейросети без цензуры: какие LLM ответят на любые вопросы

FuseChat-7B-VaRM. Хороший вариант для общения, без цензуры и ограничений. По сути, это три чат-бота, объединенных в один, каждый со своими особенностями. Это значит, что пользователь получает интересные беседы независимо от того, о чем хочет поговорить.

  • Chimera-Apex-7B. Создана для обычных разговоров и генерации не совсем обычных идей. Хороший приятель для мозгового штурма, который не боится быть немного диким. Все еще находится в стадии разработки, так что еще можно ждать сюрпризов.

  • Dolphin-2.8-experiment26-7b. Это тонкая настройка экспериментальной модели, которая зарекомендовала себя как лучшая с 7 млрд параметров. Это как усовершенствованная версия модели, в которой устранены все недостатки и оптимизирована производительность.

  • Nous-Hermes-2-Mistral-7B-DPO. Эта модель представляет собой значительное улучшение: она демонстрирует повышенную производительность в различных бенчмарках по сравнению со своими предшественниками. Особого внимания заслуживает ее применение в средах без цензуры. Сфокусирована на предоставлении качественных ответов, основанных на данных, что делает ее отличным кандидатом для тех, кто ищет продвинутые, неограниченные возможности LLM.

  • UNA-TheBeagle-7b-v1. Обучена на наборе данных The Bagel с использованием прямой оптимизации предпочтений (DPO) и UNA. Модель основана на нейро-чате Intel.

  • Nous Hermes 2 — SOLAR 10.7B. Новая модель от Nous Research.

  • Полный список моделей.

Теги:
+1
Комментарии0

Google наносит ответный удар по совместному проекту Microsoft и OpenAI

  • Недавно Microsoft и OpenAI объявили о своем грандиозном совместном проекте стоимостью $100 млрд, цель которого - создание сверхмощного ИИ-суперкомпьютера и гигантского центра обработки данных для обучения суперумных моделей ИИ. Этот амбициозный план обещает совершить настоящий прорыв в области ИИ и укрепить позиции Microsoft и OpenAI как лидеров индустрии.

  • Но в игру решил вступить Google DeepMind с довольно дерзким ходом: обесценить инвестиции конкурентов созданием открытой, распределённой по всему миру системы обучения сверхумных ИИ — DiPaCo (Distributed Path Composition).

  • Суть DiPaCo заключается в распределенном обучении нейронных сетей, используя все доступные вычислительные ресурсы по всему миру. Эта технология позволит масштабировать нейронные сети до невероятных размеров без ограничений, присущих централизованным системам. Это как торрент в мире нейронок.

  • Успех DiPaCo может не только поставить под сомнение эффективность многомиллиардных инвестиций Microsoft и OpenAI, но и изменить саму парадигму развития искусственного интеллекта. Этот проект способен демократизировать доступ к обучению сверхумных моделей и в целом разрушить монополию этих гигантов в области нейросетей, что может привести к стремительному прогрессу в области ИИ.

  • С тем, как это работает, можно ознакомиться в исследовании Google DeepMind.

Теги:
Всего голосов 9: ↑6 и ↓3+3
Комментарии1

Новая открытая LLM модель, которая превосходит все открытые модели с ошеломляющими 132 миллиардами параметров.

Компания Databricks только что представила DBRX, новую модель большого языка с открытым исходным кодом (LM) с ошеломляющими 132 миллиардами параметров.
Модель превосходит  все открытые модели на большинстве бенчмарков.

Вот что вам нужно знать 👇

  • DBRX - это новая бесплатная модель искусственного интеллекта с 132 миллиардами параметров.

  • Может обрабатывать до 32 000 токенов одновременно.

  • Обучен на 12 триллионах токенов.

  • Точное следование инструкциям.

  • С открытым исходным кодом на GitHub.

  • Интегрирован с HuggingFace.

  • Оптимизирован для систем NVIDIA.

  • Расширенная настройка с поддержкой Docker.

  • Github: https://github.com/databricks/dbrx

  • HF: https://huggingface.co/databricks/dbrx-base

  • Demo: https://huggingface.co/spaces/databricks/dbrx-instruct

  • Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html

  • Больше открытых моделей: https://t.me/ai_machinelearning_big_data/

Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии0

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк. 

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Приглашаем вас на вебинар, посвященный Apache Kafka – одной из самых популярных систем обработки потоков данных. Он будет интересен тем, кто интересуется разработкой программного обеспечения, архитектурой распределенных систем или просто хочет узнать больше о Kafka.

Содержание вебинара:
•  архитектура Apache Kafka;
•  ключевые сценарии использования;
•  работа с Kafka при помощи консольных клиентов;
•  написание базового клиента на языке программирования Java.

Дата: 29.02.2024
Время: 18:00 по МСК

Спикер вебинара: Михаил Благов – эксперт в области обработки данных и Big Data, тимлид с опытом работы более 10, из них 5 в области обработки данных и Big Data (Hadoop, Kafka, Spark).

Регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

  • создавать инсталляцию Greenplum на облачной платформе и работать с ней;

  • использовать особенности СУБД для эффективной работы с Managed Greenplum;

  • правильно писать и оптимизировать запросы с учетом специфики Greenplum;

  • разбираться в архитектуре Greenplum;

  • проектировать оптимальную физическую модель данных.

О программе:

  • Обучение рассчитано на 50–80 часов.

  • Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.

  • Все материалы доступны бесплатно.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0
BI Прожарка 2024
BI Прожарка 2024

Мы решили запустить проект по очистке BI игроков от лишнего маркетинга. Мы не будем глубоко расписывать плюсы платформ и наличие фичей, постараемся сосредоточиться на минусах с точки зрения бизнес-пользователя, ИТ сотрудника и безопасника.

Наша цель - акцентировать внимание вендоров на закрытие этих минусов. Рынок должен получать качественный отечественный продукт в понятные рынку сроки.

В наше поле зрение в этом году попадут такие платформы, как: Форсайт, Luxms, Alfa BI, Analytics Workspace, PIX BI, Visiology 3, Insight, Yandex DL, Modus.

Графика выпуска постов у нас не будет, мы постараемся делать один обзор в месяц, может быть чаще. Сейчас в нашей команде есть достаточное количество экспертов, которые знают эти продукты и/или имеют доступ к экспертам, которые очень хорошо знают эти платформы изнутри. Естественно, все это DataBanksy, никаких имен, только выводы и факты.

Как мы будем собирать информацию? Митапы, конференции, вебинары, телеграмм каналы, общение с клиентами, личный опыт, отзывы в интернет, мнения конкурентов, мнения экспертов, рейтинги и т. п. Источников достаточно для того, чтобы сделать определенные выводы. Можно написать нам и прислать свою точку зрения, мы постараемся ее учесть. Ну и контрольная закупка, будте готовы к этому господа вендоры🤗

Материальное вознаграждение нам не интересно. Наша цель - сделать мир BI прозрачным для Вас! Проведем очистку данных о вендорах 2024!

3, 2, 1 начинаем…

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область
Если бы Гартнер стал русским…февраль 2024
Если бы Гартнер стал русским…февраль 2024

Мы уже писали большой текст про рейтинги и наше отношение к ним, но начало года стало очень горячим, начали обсуждать свежие рейтинги от интернет изданий и частных экспертов, выпускать подкасты и зазывать на круглые столы ( «везде инфа сотка конечно же»). И мы решили дать рынку свою картину на сегодня, ответив на вопрос - как выглядел бы Гартнер в России в 2024 году.

Естественно мы понижаем планку для всех участников, чтобы соблюсти масштаб. Пока никто даже близко не приблизился к лидерам по Гартнеру, но работы проделали действительно много. По лидерам в нашей версии можем точно сказать, что у них иксы в скорости разработки продукта. У них отличный агрессивный маркетинг! Главное, чтобы вся эта гонка не превратилась в грязную игру, когда клиентам начинают лить дезу про конкурента.

Мы выделяем 4 платформы лидера на сегодня: Модус, Визиолоджи ( извините ребята, но пока только 2 версия!), PIX BI и дедушку Форсайт. Считаем, что к ним может ворваться AW в обозримой перспективе, Барс со своими историческими заходами в рынок точно найдет пару знатных клиентов и ребята раскроют свой потенциал.

Догоняет лидеров Яндекс DL, но пока там свой сегмент рынка с моделью аля Гугл. Люкс мс и Альфу относим в сектор Визионеров. Первые идут больше путем замены оракла. Вторые работаю с крупным бизнесом, кстати в годовом отчете от люксов ни одного нового имени не прозвучало. Жаль.

Остальные платформы пока в нишевых. Надо больше витаминов кушать в этом году им.

Осенью посмотрим, что изменится в рынке!

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

🧑‍💻 Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

🔎 О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Доброго времени суток, сообщество Хабра!

На днях вышла статья, где мной проводился анализ задач через API Codewars. Для тех, кто не успел ознакомиться, можно пройти по ссылке: https://habr.com/ru/articles/783326/

В данной статье был проведён опрос, результаты которого определили, что сообщество желает посмотреть решение задачи в GitHub.

Поэтому сюда прикрепляю ссылку GitHub репозитория с анализом статистических данных CodeWars: https://github.com/Dess1996/CodeWarsStat/blob/main/Katas.ipynb

Благодарю всех, кто принял участие в опросе.

До новых встреч!

Теги:
Рейтинг0
Комментарии0

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ
Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Теги:
Рейтинг0
Комментарии0

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

  1. Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!

  2. Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.

  3. Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.

    Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Переварил и делюсь ключевыми идеями Tristan Handy (CEO dbtLabs) о новом опыте работы с dbt

(выпуск My first week with the new dbt, рассылка Analytics Engineering Roundup)

Старт разработки без головной боли

Это замечательно и то, что нужно. Фокус аналитика - на создании аналитических приложений, а не на борьбу с зависимостями, version upgrades и поиск error codes на stackoverflow. Чем больше чистого времени у аналитика, тем больше результатов можно получить.

Я уже давно использую devcontainers и даже писал об этом для тех же целей - это бесплатно и не требует иметь лицензию dbtCloud.

Auto-deferral

Я давно использую defer в рамках CI tests (= прогон и тесты только изменяемых graph nodes). Теперь, в рамках dev это ускоряет процессы разрабтки на порядок.

Жаль, что удобно использовать это можно пока только в dbtCloud.

Из связанного, на ум сразу приходит фича Snowflake zero-copy clone.

Data Mesh

Коротко, это про то, чтобы DWH разделить на зоны ответственности и дать командам развивать интересующие их области самостоятельно, по их правилам.

Называйте это Microservices в Data.

Задействованы и технические аспекты (как это реализовать) и организационные (кто владеет ownership).

Это скорее релевантно крупным компаниям, в которых как минимум несколько отделов-ветвей заинтересованы в data services, у них есть свои ресурсы на разработку и устоявшиеся правила. По моим оценкам, доля таких компаний среди пользователей dbt пока не очень велика. Но это тренд!

Теги:
Рейтинг0
Комментарии0

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

Теги:
Рейтинг0
Комментарии0
1

Вклад авторов

Работа

Data Scientist
61 вакансия