Magnus Tech, Москва / Статьи / Хабр

Профиль Статьи 23Посты 1Подписчики 64Сотрудники 5

ClearML Data Management

15 мин

Блог компании Magnus TechData Mining*Администрирование баз данных*Машинное обучение*Искусственный интеллект

Туториал

Очевидный для ML-инженера факт: если на вход модели подать мусор — на выходе тоже будет мусор. Это правило действует всегда, независимо от того, насколько у нас крутая модель. Поэтому важно понимать, как ваши данные будут храниться, использоваться, версионироваться и воспроизведутся ли при этом результаты экспериментов. Для всех перечисленных задач есть множество различных инструментов: DVC, MLflow, W&B, ClearML и другие. Git использовать недостаточно, потому что он не был спроектирован под требования ML. Но есть инструмент, который подходит для версионирования данных и не только — это ClearML. О нем я сегодня и расскажу.

Читать дальше →

+23

Rubcov 4 апр в 13:42

Размышления о высококачественных данных, собранных людьми

Сложный

19 мин

Блог компании Magnus TechМашинное обучение*Natural Language Processing*Data Engineering*

Перевод

Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность.

Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021).

Рисунок 1. Два направления обеспечения высокого качества данных.

Читать дальше →

+27

DewT-Mag 28 мар в 13:18

И к гадалке не ходи. Как и зачем мы предсказываем офлайн-продажи товаров

Средний

13 мин

1.2K

Блог компании Magnus TechData Mining*Алгоритмы*Машинное обучение*Управление продажами*

Кейс

Онлайн-ритейлеры и всевозможные маркетплейсы постоянно пересчитывают цены, придумывают хитрые акции и ставят эксперименты на пользователях. Но кто сказал, что в магазине у дома нельзя делать то же самое? Да, это сложнее, но зато интереснее и может принести больше пользы.

Мы разрабатываем системы управления ценообразованием для больших розничных сетей. В рамках этой задачи экспериментируем с предсказанием продаж в розничных офлайн-магазинах. Предлагаем вам узнать больше о подходах, которые используются в решении таких задач.