Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

Rubcov

3 мая в 16:054.5K

Блог компании Magnus TechData Mining*Машинное обучение*Искусственный интеллектData Engineering*

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

Теги:

linuxacademy

2 мая в 10:485K

Python*Data Mining*Big Data*Машинное обучение*

Сборник полезных инструментов для работы с Big Data 🔥

Apache Druid - это аналитическая база данных реального времени, обеспечивающая низкую задержку запросов, высокий параллелизм, возможность многопользовательского доступа и мгновенную видимость потоковых данных. Druid позволяет нескольким конечным пользователям одновременно получать данные из хранилища без ущерба для производительности.

Apache Drill - это инструмент, который позволяет пользователям запрашивать разнообразные данные из множества источников в различных форматах, включая Hadoop-файлы, журналы сервера, базы данных NoSQL и облачные хранилища объектов.

HPCC Systems - это платформа обработки больших данных, основанная на открытом исходном коде и представляющая собой кластер компьютеров, спроектированный для обработки и управления большими объемами данных.

Apache Iceberg - это открытый формат таблицы, который облегчает управление данными в озерах путем отслеживания информации в файлах в таблицах, а не в каталогах. Исходно созданный Netflix для работы с петабайтными таблицами, Iceberg стал проектом Apache и широко используется в продакшене.

Apache Kylin - это распределенное хранилище информации и аналитическая платформа для больших данных, предоставляющая OLAP-аналитику для обработки огромных массивов данных на базе технологий Apache, таких как Hadoop, Hive, Parquet и Spark.

Kylin — это распределенное хранилище информации и аналитическая платформа для больших данных.

В своем канале я тестирую эти инструмент, welcome.

Теги:

slavius

12 апр в 12:093K

Data Mining*

С понедельника на сайте лондонской биржи металлов висела плашка «Due to a technical issue the latest market data values have not been updated». Данные о торгах за прошлый день или не отображались, или отображались с ошибкой. В частности, были заменены местами значения в столбцах Bid и Offer в Trading summary по Non‑ferrous metal. В настоящее время сообщения об ошибке нет, данные отображаются верно. Если кто‑то использует данные с сайта LME.com — проверьте правильность данных за эту неделю.

Теги:

ArtemBoiko

9 апр в 17:235.4K

Работа с 3D-графикой*Data Mining*CAD/CAM*Unity*Unreal Engine*

CAD (BIM) Revit и IFC в Unreal Engine, Unity, Oculus — визуализация, рендеринг, метаверсии и игровой дизайн

🌊 Стандартный рендеринг в CAD (BIM) программах часто не дотягивает до качества визуализации, но игровые движки, такие как Unreal Engine и Unity, произвели революцию в архитектурной и дизайнерской визуализации. Эти движки предлагают быстрый рендеринг и интуитивно понятные настройки света, материалов и геометрии, которые значительно улучшают процесс визуализации. Теперь клиенты могут изучать виртуальные модели зданий, взаимодействуя с такими элементами, как освещение и мебель, в режиме реального времени, что улучшает их понимание и вовлеченность. Unreal Engine позволяет проводить метаверсии, превращая 3D-виртуальные миры в крупные социальные центры.

🌑 Unreal Engine позволяет создавать интерактивные приложения 3D, дополненной (AR) и виртуальной (VR) реальности из 3D CAD (BIM) моделей.
🌑 Визуализацию или симуляцию движения автомобилей и людей можно настроить буквально в несколько кликов. Погода и время также легко настраиваются
🌑 Бесплатные движки позволяют подключать алгоритмы искусственного интеллекта, которые наглядно позволяют воспроизводить симуляции в реальных сценах, а не на бумаге
🌑 Используя Unity и инструментарий ML-Agents, ты можешь создавать ИИ-среды, которые будут физически, визуально и когнитивно насыщенными
🌑 С помощью Unity Machine Learning Agents больше не нужно"кодировать" эмерджентное поведение, а можно научить интеллектуальных агентов "учиться",

Теги:

CrXf_17

24 ноя 2023 в 11:581.8K

SQL*Data Mining*NoSQL*Data Engineering*Tarantool*

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

🔠Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_2)

Replication: Tarantool предлагает механизм репликации, который позволяет создавать реплики базы данных для обеспечения отказоустойчивости и масштабируемости. Репликация Tarantool основана на механизме репликации мастер-слейв (master-slave) и поддерживает асинхронное и синхронное реплицирование.
Sharding: Tarantool поддерживает горизонтальное масштабирование с помощью шардинга данных. Шардинг позволяет распределить данные по нескольким узлам-серверам, что позволяет обрабатывать большие объемы данных и повышает производительность.
Индексы: Tarantool предоставляет различные типы индексов для оптимизации запросов и обеспечения быстрого доступа к данным. Включая хеш-индексы, деревья и индексы, основанные на отсортированных списках.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:

CrXf_17

6 ноя 2023 в 01:073.7K

Data Mining*Математика*Машинное обучение*Статистика в ITData Engineering*

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

🔠Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;
Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);
Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

https://t.me/DenoiseLAB

Теги:

CrXf_17

5 ноя 2023 в 17:573.1K

Data Mining*Big Data*Математика*Машинное обучение*Data Engineering*

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

🔠Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:

CrXf_17

5 ноя 2023 в 17:383.5K

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

🔠Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:

Oksenija

10 авг 2023 в 12:243K

Data Mining*Big Data*Математика*Визуализация данных*Машинное обучение*

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:

CloudMTS

12 мая 2023 в 13:002.8K

Data Mining*

25 мая 2023 года в офлайн + онлайн формате состоится Дата Саммит «Вселенная Ваших данных». Это мероприятие, посвященное вопросам цифровой трансформации и управления данными. На Дата Саммите вы сможете узнать, как предсказывать появление «черных лебедей», как с помощью данных оперативно принимать эффективные решения. #CloudMTS — официальный партнер мероприятия.

Участие бесплатное.

На саммите вы сможете:

из первых рук узнать о лучших практиках российских компаний на базе отечественных технологий;
услышать мнение экспертов о перспективах российской цифровой трансформации на основе данных;
посетить демо-зону решений по управлению данными и выставку технологических партнеров.

Регистрация по ссылке.