Big Data *

Большие данные и всё о них

Программирование*Big Data*Машинное обучение*Искусственный интеллектNatural Language Processing*

Совместно с Игорем Котенковым подготовили для себя и для вас Бинго-карточку на предстоящую трансляции OpenAI, чтоб было интереснее наблюдать!

Что именно покажут на презентации не уточнялось, но по словам Sam. A.:
`not gpt-5, not a search engine, but we've been hard at work on some new stuff we think people will love! feels like magic to me`

В твиттере много отсылок к слову "magic" и слухов по поводу голосового помощника, модели связанной со звуком.

В своем канале я оставлю короткую выдержку новостей и о какой магии говорят в openai!

Теги:

odmin227

8 мая в 00:018.3K

Big Data*Машинное обучение*Карьера в IT-индустрииИскусственный интеллектNatural Language Processing*

Подборка статей для Research MLE

Не так давно я для себя понял, насколько важно читать научные статьи в ML, но сталкиваешься с тем что только 20% статей дадут тебе 80% результата. В своем Notion я собрал небольшую подборку самых интересных и полезных статей по LLM и RecSys. (которая кстати пополняется)

NLP:
Там есть как классические статейки от w2v, attention, transformers, gpt, gpt2, ...
Так и популярные или не так давно вышедших peft, llama, reft

RecSys:
Стараюсь пополнять интересными статейками от топовых лабораторий Meta, Deezer, Spotify, Netflix, X, ... Или годными статья из NIPS или ACM

На некоторые из этих статей я собираюсь писать обзорчики на Habr, кстати недавно вот написал про персонализированный Cold Start в Deezer. Про некоторые я выложу просто Summary в свой телеграм канал или сделаю конспект в Notion.

Если вдруг вам захочется пополнить этот банк статей, то можете закинуть свои идеи вот сюда.

Теги:

ITSumma

7 мая в 11:314.2K

Блог компании ITSummaBig Data*Data Engineering*

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

🧑🏻‍🏫Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

🔻 Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
🔻 С какими вызовами мы столкнулись при написании коннектора и как их решили.
🔻 Цифры и результаты: что у нас получилось в итоге.
🔻 Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

👉🏻Регистрация на вебинар доступна по ссылке зашитой в это предложение👈🏻

Теги:

linuxacademy

2 мая в 10:485K

Python*Data Mining*Big Data*Машинное обучение*

Сборник полезных инструментов для работы с Big Data 🔥

Apache Druid - это аналитическая база данных реального времени, обеспечивающая низкую задержку запросов, высокий параллелизм, возможность многопользовательского доступа и мгновенную видимость потоковых данных. Druid позволяет нескольким конечным пользователям одновременно получать данные из хранилища без ущерба для производительности.

Apache Drill - это инструмент, который позволяет пользователям запрашивать разнообразные данные из множества источников в различных форматах, включая Hadoop-файлы, журналы сервера, базы данных NoSQL и облачные хранилища объектов.

HPCC Systems - это платформа обработки больших данных, основанная на открытом исходном коде и представляющая собой кластер компьютеров, спроектированный для обработки и управления большими объемами данных.

Apache Iceberg - это открытый формат таблицы, который облегчает управление данными в озерах путем отслеживания информации в файлах в таблицах, а не в каталогах. Исходно созданный Netflix для работы с петабайтными таблицами, Iceberg стал проектом Apache и широко используется в продакшене.

Apache Kylin - это распределенное хранилище информации и аналитическая платформа для больших данных, предоставляющая OLAP-аналитику для обработки огромных массивов данных на базе технологий Apache, таких как Hadoop, Hive, Parquet и Spark.

Kylin — это распределенное хранилище информации и аналитическая платформа для больших данных.

В своем канале я тестирую эти инструмент, welcome.

Теги:

Golangcoder

24 апр в 10:344K

Open source*Big Data*Машинное обучение*Искусственный интеллект

Новые открытые модели LLM от Apple.

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода

- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения

- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M-Instruct

- OpenELM-450M-Instruct

- OpenELM-1_1B-Instruct

- OpenELM-3B-Instruct

• gitHub: https://github.com/apple/corenet

• hf: https://huggingface.co/apple/OpenELM

• abs: https://arxiv.org/abs/2404.14619

Здесь мы публикуем новые открытые модели и разбираем их.

Теги:

Machinelearning_Ai

22 апр в 09:585.7K

Python*Big Data*Машинное обучение*Искусственный интеллект

Оценка стоимости обучения большинства популярных моделей из отчета Stanford 2024 AI Index Report на 500 страниц.

Здесь сравнивается стоимость обучения различных моделей:

- Оriginal Transformer в 2017 году: $930

- GPT-3: $4.3M

- GPT-4: $78.4M

- Gemini Ultra: $191.4M

Новая модель Llama-3, обучение которой обошлось Meta в $100M, оказалась дороже, чем GPT-4.

▪Полный отчет.

▪Полный список репозиториев ИИ с открытым исходным кодом

Теги:

linuxacademy

19 апр в 10:094.5K

Big Data*Машинное обучение*Искусственный интеллект

Нейросети без цензуры: какие LLM ответят на любые вопросы

FuseChat-7B-VaRM. Хороший вариант для общения, без цензуры и ограничений. По сути, это три чат-бота, объединенных в один, каждый со своими особенностями. Это значит, что пользователь получает интересные беседы независимо от того, о чем хочет поговорить.

Chimera-Apex-7B. Создана для обычных разговоров и генерации не совсем обычных идей. Хороший приятель для мозгового штурма, который не боится быть немного диким. Все еще находится в стадии разработки, так что еще можно ждать сюрпризов.
Dolphin-2.8-experiment26-7b. Это тонкая настройка экспериментальной модели, которая зарекомендовала себя как лучшая с 7 млрд параметров. Это как усовершенствованная версия модели, в которой устранены все недостатки и оптимизирована производительность.
Nous-Hermes-2-Mistral-7B-DPO. Эта модель представляет собой значительное улучшение: она демонстрирует повышенную производительность в различных бенчмарках по сравнению со своими предшественниками. Особого внимания заслуживает ее применение в средах без цензуры. Сфокусирована на предоставлении качественных ответов, основанных на данных, что делает ее отличным кандидатом для тех, кто ищет продвинутые, неограниченные возможности LLM.
UNA-TheBeagle-7b-v1. Обучена на наборе данных The Bagel с использованием прямой оптимизации предпочтений (DPO) и UNA. Модель основана на нейро-чате Intel.
Nous Hermes 2 — SOLAR 10.7B. Новая модель от Nous Research.
Полный список моделей.

Теги:

Golangcoder

5 апр в 12:136.6K

Big Data*Машинное обучение*Искусственный интеллект

Google наносит ответный удар по совместному проекту Microsoft и OpenAI

Недавно Microsoft и OpenAI объявили о своем грандиозном совместном проекте стоимостью $100 млрд, цель которого - создание сверхмощного ИИ-суперкомпьютера и гигантского центра обработки данных для обучения суперумных моделей ИИ. Этот амбициозный план обещает совершить настоящий прорыв в области ИИ и укрепить позиции Microsoft и OpenAI как лидеров индустрии.

Но в игру решил вступить Google DeepMind с довольно дерзким ходом: обесценить инвестиции конкурентов созданием открытой, распределённой по всему миру системы обучения сверхумных ИИ — DiPaCo (Distributed Path Composition).
Суть DiPaCo заключается в распределенном обучении нейронных сетей, используя все доступные вычислительные ресурсы по всему миру. Эта технология позволит масштабировать нейронные сети до невероятных размеров без ограничений, присущих централизованным системам. Это как торрент в мире нейронок.
Успех DiPaCo может не только поставить под сомнение эффективность многомиллиардных инвестиций Microsoft и OpenAI, но и изменить саму парадигму развития искусственного интеллекта. Этот проект способен демократизировать доступ к обучению сверхумных моделей и в целом разрушить монополию этих гигантов в области нейросетей, что может привести к стремительному прогрессу в области ИИ.
С тем, как это работает, можно ознакомиться в исследовании Google DeepMind.

Теги:

Develp10

28 мар в 09:105.1K

Big Data*Машинное обучение*

Новая открытая LLM модель, которая превосходит все открытые модели с ошеломляющими 132 миллиардами параметров.

Компания Databricks только что представила DBRX, новую модель большого языка с открытым исходным кодом (LM) с ошеломляющими 132 миллиардами параметров.
Модель превосходит все открытые модели на большинстве бенчмарков.

Вот что вам нужно знать 👇

DBRX - это новая бесплатная модель искусственного интеллекта с 132 миллиардами параметров.
Может обрабатывать до 32 000 токенов одновременно.
Обучен на 12 триллионах токенов.
Точное следование инструкциям.
С открытым исходным кодом на GitHub.
Интегрирован с HuggingFace.
Оптимизирован для систем NVIDIA.
Расширенная настройка с поддержкой Docker.
Github: https://github.com/databricks/dbrx
HF: https://huggingface.co/databricks/dbrx-base
Demo: https://huggingface.co/spaces/databricks/dbrx-instruct
Docs: https://docs.databricks.com/en/machine-learning/foundation-models/index.html
Больше открытых моделей: https://t.me/ai_machinelearning_big_data/

Теги:

ITSumma

21 мар в 14:175.2K

Блог компании ITSummaBig Data*

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:

IBS_habrablog

26 фев в 16:366.1K

Блог компании IBSBig Data*

Приглашаем вас на вебинар, посвященный Apache Kafka – одной из самых популярных систем обработки потоков данных. Он будет интересен тем, кто интересуется разработкой программного обеспечения, архитектурой распределенных систем или просто хочет узнать больше о Kafka.

Содержание вебинара:
•  архитектура Apache Kafka;
•  ключевые сценарии использования;
•  работа с Kafka при помощи консольных клиентов;
•  написание базового клиента на языке программирования Java.

Дата: 29.02.2024
Время: 18:00 по МСК

Спикер вебинара: Михаил Благов – эксперт в области обработки данных и Big Data, тимлид с опытом работы более 10, из них 5 в области обработки данных и Big Data (Hadoop, Kafka, Spark).

Регистрация по ссылке.

Теги:

YandexCloudEditor

16 фев в 11:305K

Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Хранилища данных*Распределённые системы*

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

создавать инсталляцию Greenplum на облачной платформе и работать с ней;
использовать особенности СУБД для эффективной работы с Managed Greenplum;
правильно писать и оптимизировать запросы с учетом специфики Greenplum;
разбираться в архитектуре Greenplum;
проектировать оптимальную физическую модель данных.

О программе:

Обучение рассчитано на 50–80 часов.
Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.
Все материалы доступны бесплатно.

Теги:

DataBanksy

10 фев в 09:505.1K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Визуализация данных*Читальный зал

Мы решили запустить проект по очистке BI игроков от лишнего маркетинга. Мы не будем глубоко расписывать плюсы платформ и наличие фичей, постараемся сосредоточиться на минусах с точки зрения бизнес-пользователя, ИТ сотрудника и безопасника.

Наша цель - акцентировать внимание вендоров на закрытие этих минусов. Рынок должен получать качественный отечественный продукт в понятные рынку сроки.

В наше поле зрение в этом году попадут такие платформы, как: Форсайт, Luxms, Alfa BI, Analytics Workspace, PIX BI, Visiology 3, Insight, Yandex DL, Modus.

Графика выпуска постов у нас не будет, мы постараемся делать один обзор в месяц, может быть чаще. Сейчас в нашей команде есть достаточное количество экспертов, которые знают эти продукты и/или имеют доступ к экспертам, которые очень хорошо знают эти платформы изнутри. Естественно, все это DataBanksy, никаких имен, только выводы и факты.

Как мы будем собирать информацию? Митапы, конференции, вебинары, телеграмм каналы, общение с клиентами, личный опыт, отзывы в интернет, мнения конкурентов, мнения экспертов, рейтинги и т. п. Источников достаточно для того, чтобы сделать определенные выводы. Можно написать нам и прислать свою точку зрения, мы постараемся ее учесть. Ну и контрольная закупка, будте готовы к этому господа вендоры🤗

Материальное вознаграждение нам не интересно. Наша цель - сделать мир BI прозрачным для Вас! Проведем очистку данных о вендорах 2024!

3, 2, 1 начинаем…

Теги:

DataBanksy

8 фев в 22:068.1K

Анализ и проектирование систем*Big Data*Визуализация данных*Исследования и прогнозы в IT*Читальный зал

Если бы Гартнер стал русским…февраль 2024

Мы уже писали большой текст про рейтинги и наше отношение к ним, но начало года стало очень горячим, начали обсуждать свежие рейтинги от интернет изданий и частных экспертов, выпускать подкасты и зазывать на круглые столы ( «везде инфа сотка конечно же»). И мы решили дать рынку свою картину на сегодня, ответив на вопрос - как выглядел бы Гартнер в России в 2024 году.

Естественно мы понижаем планку для всех участников, чтобы соблюсти масштаб. Пока никто даже близко не приблизился к лидерам по Гартнеру, но работы проделали действительно много. По лидерам в нашей версии можем точно сказать, что у них иксы в скорости разработки продукта. У них отличный агрессивный маркетинг! Главное, чтобы вся эта гонка не превратилась в грязную игру, когда клиентам начинают лить дезу про конкурента.

Мы выделяем 4 платформы лидера на сегодня: Модус, Визиолоджи ( извините ребята, но пока только 2 версия!), PIX BI и дедушку Форсайт. Считаем, что к ним может ворваться AW в обозримой перспективе, Барс со своими историческими заходами в рынок точно найдет пару знатных клиентов и ребята раскроют свой потенциал.

Догоняет лидеров Яндекс DL, но пока там свой сегмент рынка с моделью аля Гугл. Люкс мс и Альфу относим в сектор Визионеров. Первые идут больше путем замены оракла. Вторые работаю с крупным бизнесом, кстати в годовом отчете от люксов ни одного нового имени не прозвучало. Жаль.

Остальные платформы пока в нишевых. Надо больше витаминов кушать в этом году им.

Осенью посмотрим, что изменится в рынке!

Теги:

ITSumma

8 фев в 05:276.9K

Блог компании ITSummaАдминистрирование баз данных*Big Data*Data Engineering*

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

🧑‍💻 Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

🔎 О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:

DessDaz1996

29 дек 2023 в 12:166.3K

Python*Big Data*

Доброго времени суток, сообщество Хабра!

На днях вышла статья, где мной проводился анализ задач через API Codewars. Для тех, кто не успел ознакомиться, можно пройти по ссылке: https://habr.com/ru/articles/783326/

В данной статье был проведён опрос, результаты которого определили, что сообщество желает посмотреть решение задачи в GitHub.

Поэтому сюда прикрепляю ссылку GitHub репозитория с анализом статистических данных CodeWars: https://github.com/Dess1996/CodeWarsStat/blob/main/Katas.ipynb

Благодарю всех, кто принял участие в опросе.

До новых встреч!

Теги:

DataBanksy

27 дек 2023 в 16:417.6K

Анализ и проектирование систем*Big Data*Визуализация данных*Читальный зал

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Теги:

DataBanksy

22 дек 2023 в 15:175.9K

Big Data*Визуализация данных*Читальный зал

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!
Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.
Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.
Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

Теги:

kzzzr

7 дек 2023 в 18:256.8K

Big Data*Data Engineering*

Переварил и делюсь ключевыми идеями Tristan Handy (CEO dbtLabs) о новом опыте работы с dbt

(выпуск My first week with the new dbt, рассылка Analytics Engineering Roundup)

Старт разработки без головной боли

Это замечательно и то, что нужно. Фокус аналитика - на создании аналитических приложений, а не на борьбу с зависимостями, version upgrades и поиск error codes на stackoverflow. Чем больше чистого времени у аналитика, тем больше результатов можно получить.

Я уже давно использую devcontainers и даже писал об этом для тех же целей - это бесплатно и не требует иметь лицензию dbtCloud.

Auto-deferral

Я давно использую defer в рамках CI tests (= прогон и тесты только изменяемых graph nodes). Теперь, в рамках dev это ускоряет процессы разрабтки на порядок.

Жаль, что удобно использовать это можно пока только в dbtCloud.

Из связанного, на ум сразу приходит фича Snowflake zero-copy clone.

Data Mesh

Коротко, это про то, чтобы DWH разделить на зоны ответственности и дать командам развивать интересующие их области самостоятельно, по их правилам.

Называйте это Microservices в Data.

Задействованы и технические аспекты (как это реализовать) и организационные (кто владеет ownership).

Это скорее релевантно крупным компаниям, в которых как минимум несколько отделов-ветвей заинтересованы в data services, у них есть свои ресурсы на разработку и устоявшиеся правила. По моим оценкам, доля таких компаний среди пользователей dbt пока не очень велика. Но это тренд!

Теги:

DataBanksy

29 ноя 2023 в 12:181.9K

Анализ и проектирование систем*Big Data*Визуализация данных*

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

Теги:

Big Data *

Ближайшие события

Вклад авторов

Работа