Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

AntonSoroka 7 мая в 09:40

CADE — интересный способ поиска аномалий в многомерных данных

Простой

8 мин

569

Python*Data Mining*Машинное обучение*Статистика в IT

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

dvgureev 5 мая в 18:08

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Простой

4 мин

1.3K

Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Сравниваем между собой качество 6 различных токенайзеров, включая новейший OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:

Ищем ответ на вопрос: В чем сила? в сборнике афоризмов и цитат.

Рассматриваются модели

text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small
intfloat/multilingual-e5-large
ai-forever/ruBert-large
ai-forever/sbert_large_mt_nlu_ru

P.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов).

+15

ZonD80 3 мая в 13:15

Как Apple на самом деле следит за вами

Простой

12 мин

31K

Информационная безопасность*Data Mining*

Из песочницы

✏️ Технотекст 2023

По счастливой случайности я оказался резидентом Евросоюза, а значит, на меня также распространяется GDPR. Он позволяет мне запросить копию информации, которая хранится обо мне у всяких разных компаний. Я решил сделать это у Apple, и был неприятно удивлен.

Apple старается собирать как можно меньше данных.

+131

146

Debug_all 3 мая в 08:01

Карты, деньги, ELK. Или как айтишник деньги считал

18 мин

7.7K

Python*Data Mining*DevOps*Финансы в IT

Кейс

Привет, Хабр! Вот уже 7 с половиной лет я веду учет своих личных финансов в одном из многочисленных приложений. Всё это время оно неплохо закрывало базовые потребности в моменте, но с годами захотелось глубже проанализировать свою накопленную микро-бигдату и просмотреть на картину в целом. Желательно, в буквальном смысле: воспринимать информацию в виде визуализаций, диаграмм и дашбордов мне проще.

Поэксперементировав, я за несколько вечеров собрал себе решение на довольно нестандартной для таких целей платформе – Kibana. Как по мне, получилось неплохо. По горячим следам я описал этот кейс в своем англоязычном Твиттере и поделился им же в одном русскоязычном сообществе. Угадайте, откуда какой первый комментарий:

– А [зачем], собственно?
– Интересное решение! Я евангелист из Эластик – не хочешь на митапе выступить?

Выступить и правда было бы интересно. И в процессе подготовки презентации родилась эта статья. В ней я поделюсь своим опытом и подходом к личным финансам, расскажу о техническом стеке и воспроизведу по шагам процесс его трансформации. А также расскажу о том, как накопить и погасить технический долг, найти баланс, перестать беспокоиться и начать жить (но это не точно).

А зачем, собственно?

+10

slivka_83 29 апр в 18:34

Подбор гиперпараметров RAG-системы с помощью Optuna

Средний

16 мин

2.2K

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

+11

Guest11 27 апр в 17:43

Анализ мощности статистических критериев с использованием бакетизации

Средний

10 мин

1.7K

Python*Data Mining*Big Data*

Из песочницы

В данной статье рассматривается влияние бакетизации на мощность статистических критериев в условиях различных распределений данных и при разном объеме выборки. Особое внимание уделено зависимости мощности критерия от количества бакетов и размера выборки. Исследование предоставляет важные выводы для проектирования и анализа A/B тестирования и других форм экспериментальных исследований.

Не кладём все яйца в одну корзину

antipov_dmitry 27 апр в 16:11

AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?

Простой

5 мин

637

Data Mining*Big Data*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Многие компании в последнее время ввели должность «ИИ-тренера» (AI-тренера), при этом просто разметчики/ассесоры никуда не делись. Что это — просто красивая обертка нейминга над тем же самыми или что-то концептуально новое?

Давайте попробуем в этом разобраться и однозначно ответить на вопрос о различиях.

piero 27 апр в 15:12

Как мы в 2 раза ускорили решение MILP-проблем за счет ML

8 мин

1.2K

Блог компании ЦифраData Mining*Алгоритмы*Искусственный интеллектТранспорт

Многие задачи, с которыми мы имеем дело при цифровизации производства (неважно какого), – это задачи оптимизации: оптимизация производственного расписания, оптимизация цепочек поставок и размещения объектов, оптимизационное планирование и прочее. Многие из них сводятся к проблемам смешанного линейно-целочисленного типа (MILP – Mixed Integer Linear Problem). Конечно же мы хотим их решать быстрее и эффективнее, поэтому год назад начали разработку ML-модулей для этого. В этой статье мы познакомим вас с концептом одного такого модуля – для упрощения MILP методом обнуления переменных – и расскажем о том, насколько нам удалось с его помощью сократить время работы решателя.

Ilya12c 25 апр в 15:59

ClearML Data Management

15 мин

Блог компании Magnus TechData Mining*Администрирование баз данных*Машинное обучение*Искусственный интеллект

Туториал

Очевидный для ML-инженера факт: если на вход модели подать мусор — на выходе тоже будет мусор. Это правило действует всегда, независимо от того, насколько у нас крутая модель. Поэтому важно понимать, как ваши данные будут храниться, использоваться, версионироваться и воспроизведутся ли при этом результаты экспериментов. Для всех перечисленных задач есть множество различных инструментов: DVC, MLflow, W&B, ClearML и другие. Git использовать недостаточно, потому что он не был спроектирован под требования ML. Но есть инструмент, который подходит для версионирования данных и не только — это ClearML. О нем я сегодня и расскажу.

Читать дальше →

+23

ArtemBoiko 25 апр в 09:25

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Простой

5 мин

3.2K

Open source*Data Mining*CAD/CAM*Открытые данные*Data Engineering*

Мнение

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

diyor28 23 апр в 18:15

Как мы проанализировали 250,000 статей на VC, и поняли что делает посты успешными (возможно)

Простой

3 мин

1.9K

Python*Data Mining*Data Engineering*

Аналитика

Из песочницы

Привет, habr! 👋

Вы когда-нибудь задумывались, почему некоторые посты набирают тысячи просмотров, а другие остаются незамеченными? Ясно, что Content is King, но есть ли дополнительные факторы, которые влияют на успешность поста?

Мы решили не гадать, а действовать. 🔍

Соскрейпили все посты на VC, а затем посчитали корреляции, чтобы выяснить, что же на самом деле привлекает внимание аудитории.

-1

rusasv 23 апр в 14:00

«Где угодно работать, только не в локальных конторах» — у меня есть что сказать

9 мин

99K

Блог компании ОМК — ИТData Mining*Управление разработкой*Управление проектами*Управление персоналом*

23 года я работал в американских компаниях SAS и C3 AI. Это, если что, очень дорогой интеллектуальный анализ данных корпораций и производств. Причём SAS много лет занимал места с 1-го по 3-е в мире как лучший работодатель, поэтому некоторая избалованность присутствует. Последние полтора года до ухода C3 AI из России я работал в подразделении EMEA с непосредственным руководителем в Париже.

Все эти годы коллеги убеждали меня, что в отечественных компаниях работать нельзя: там хамство, бардак, сотрудников обманывают, не уважают и не ценят. За последние два года многие мои коллеги уехали за границу со словами: «Где угодно работать, только не в локальных конторах».

Я пошёл в отечественную компанию. И не просто в отечественную компанию, а в ОМК, то есть на группу заводов (а на заводах, «ну это же общеизвестно», всегда стоит большая очередь кандидатов за забором, и где типа айтишников не ценят, всё вокруг в солидоле и мазуте, и вообще).

Ладно, про лужи смазки — для некоторых цехов это отчасти правда: утечки бывают.

По остальному мне есть что сказать. Сразу поясню: меня никто не заставлял писать этот пост, никакие эйчары не приходили и не просили. Просто достали те, кто ноет. Хорош ныть!

Читать дальше →

+223

240

unffuunnyy 18 апр в 13:20

Potato Sorvor в $NOTCOIN или история одного реверса

Простой

7 мин

1.1K

Python*Data Mining*Алгоритмы*Реверс-инжиниринг*Криптовалюты

Из песочницы

Приветствую. Речь в статье пойдёт про мой опыт реверсинга и написания ботнета для $NotCoin.

Дело было вечером, делать было нечего, подружка села на заборе — и скинула мне ссылку на ноткоин в альфе.
Посмотрел, потыкал, недолго думая, я забыл про него на месяц.
И вот он уже набрал аудиторию и я подумал, что всё же стоит посмотреть что там да как.

Суть игры в одном слове: кликер.

И что же нужно делать?
— У тебя есть монетка, на неё нужно кликать, чем больше монет - тем лучше.

antipov_dmitry 12 апр в 09:17

Заменят ли LLM людей в разметке данных для AI?

Средний

7 мин

1.8K

Программирование*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Аналитика

Привет! Использование ИИ в разметке данных для него же — уже скорее необходимая потребность, нежели что-то удивительно новое. Разного рода экспериментами с авторазметкой данных нейронками мы занимаемся последние полгода и результаты — нравятся.

В данной статье я детально расскажу о нашем самом первом эксперименте с LLM в разметке данных для ИИ и proof-of-concept их годноты использования в реальных задачах, а в процессе попробую ответить на большой вопрос — так заменят ли LLM людей в разметке данных?

Давайте вооружимся GigaChat, chatGPT, Gemini и начнем!

beeline_cloud 10 апр в 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Средний

6 мин

3.6K

Блог компании beeline cloudВысокая производительность*Data Mining*Хранение данных*Машинное обучение*

Обзор

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

koanse 5 апр в 11:10

Business Intelligence — быстрый старт

Простой

4 мин

2.7K

Data Mining*C#*Визуализация данных*

Из песочницы

Все мы работаем в разных предметных областях, и бывает усложно уделить время знакомству с BI. Надеюсь, у Вас есть менее получаса на чтение этой статьи и знакомство с примером, а также есть желание провести графический BI анализ на .NET, в таком случае - добро пожаловать.

В этой статье мы создадим .NET приложение для визуализации исторических реальных BI данных компании IBM о стоимости акций на нью-йоркской бирже за последние дни, код примера.

С учетом опыта над зарубежными (MercerInsight) и отечественными (Visiology) BI продуктами, а также над оригинальными BI системами для крупных отечественных IT компаний, у меня, честно говоря, сложилось впечатление, что популярным решением для визуализации и чуть ли не стандартом де-факто являются HighCharts. Безусловно, есть альтернативы (даже условно CrystalReports, DevExpress и т.д.), в этой статье будут использованы именно HighCharts, мы увидим их особенности и преимущества. Также для простоты будет просто обычный JS, но обычно в реальных проектах используются HighCharts в связке с одним из TypeScript фронтендным фреймворком.

Создадим новый MVC .NET проект (например, .NET 8) из .NET CLI и добавим dev HTTPS сертификаты:

ProtoPlazmoid 4 апр в 14:04

Алгоритм ESG (Evolution of Social Groups). C#

Простой

6 мин

2.6K

Программирование*Data Mining*Алгоритмы*C#*Математика*

Из песочницы

Представляю вашему вниманию статью, посвященную авторскому алгоритму «Evolution of Social Groups» (ESG) C#. Этот уникальный метод оптимизации, основанный на взаимодействии социальных групп, открывает новые горизонты в области метаэвристики. В статье подробно рассматриваются основные принципы работы алгоритма, его преимущества и области применения. Присоединяйтесь, чтобы узнать больше о мире оптимизации и возможностях, которые он открывает. Поехали…

akurilov 2 апр в 08:50

Поиск в будущем

Средний

6 мин

1.3K

Мессенджеры*Поисковые технологии*Data Mining*Веб-аналитика*Социальные сети и сообщества

Обзор

Перевод

Привычный поиск, вроде Google, работает сугубо в прошлом. То есть любые результаты, которые вы можете увидеть - это то, что уже произошло. Кроме того, есть ещё дополнительные временные издержки на индексирование: дни или даже недели. Неплохо для исторических справок, но всегда слишком поздно для важных новостей.

Есть и другой путь - "перспективный" поиск. Суть его в том, чтобы получить результат в будущем. Лучше всего подходит для наблюдения за СМИ, поиска работы и других типов выгодных предложений.

egaoharu_kensei 1 апр в 20:20

Теоретические основы всех популярных алгоритмов машинного обучения и их реализация с нуля на Python

Сложный

1 мин

23K

Python*Data Mining*Машинное обучение*Учебный процесс в ITИскусственный интеллект

Туториал

В данной статье в виде ссылок представлены все популярные алгоритмы классического машинного обучения с их подробным теоретическим описанием и немного упрощённой реализацией с нуля на Python, отражающей основную идею. Помимо этого, в конце каждой темы указаны дополнительные источники для более глубокого ознакомления, а суммарное время прочтения статей ниже составляет более трёх часов!

+22

egaoharu_kensei 30 мар в 22:20

Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

Сложный

16 мин

12K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В данной статье рассмотрен не только принцип работы линейной регрессии с реализацией с нуля на Python, но а также описаны её модификации и проведён небольшой сравнительный анализ основных методов регуляризации. Помимо этого, в конце указаны дополнительные источники для более глубокого ознакомления.

+16

2 3 ...

97 98

Data Mining *

CADE — интересный способ поиска аномалий в многомерных данных

Новости

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Как Apple на самом деле следит за вами

Карты, деньги, ELK. Или как айтишник деньги считал

Истории

Подбор гиперпараметров RAG-системы с помощью Optuna

Анализ мощности статистических критериев с использованием бакетизации

AI-тренер, нейровоспитатель, ассесор, крауд и разметчик — кто все эти люди и в чем разница?

Как мы в 2 раза ускорили решение MILP-проблем за счет ML

ClearML Data Management

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Как мы проанализировали 250,000 статей на VC, и поняли что делает посты успешными (возможно)

«Где угодно работать, только не в локальных конторах» — у меня есть что сказать

Potato Sorvor в $NOTCOIN или история одного реверса

Ближайшие события

Заменят ли LLM людей в разметке данных для AI?

Векторные СУБД и другие инструменты для разработки ML-моделей

Business Intelligence — быстрый старт

Алгоритм ESG (Evolution of Social Groups). C#

Поиск в будущем

Теоретические основы всех популярных алгоритмов машинного обучения и их реализация с нуля на Python

Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

Вклад авторов

Работа