Как стать автором

Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

sashaeve 15 июн 2011 в 20:48

Результаты зарплатного опроса

2 мин

2.8K

Какое-то время назад я проводил анкетирование на тему зарплат разработчиков. Пришло время рассказать о полученных результатах.

Всего было заполнено около 1900 анкет разработчиками из более чем 300 городов, преимущественно из России и Украины.

В первую очередь хотелось бы поблагодарить всех добровольцев, которые не пожалели нескольких минут на заполнение анкеты и всех, кто поддержал инициативу на хабре.

Читать дальше →

+37

texamus 6 июн 2011 в 18:40

Tim Salimans o выигрыше в конкурсе предсказаний результатов шахматных партий от Kaggle

4 мин

4.2K

Перевод

Kaggle организует соревнования для людей, которые занимаются data mining. Сейчас открыты два конкурса. Один на 3 миллиона долларов, цель которого улучшить систему, по которой людей кладут в больницы. Второй — с призовым фондом 3000 долларов, чтобы улучшить измерения эллиптичности галактик, что позволит лучше измерить так называемую «темную материю» во вселенной.

Уже прошло около двух десятков конкурсов. О своем опыте участники делятся на блоге. Ниже — перевод поста Tim Salimans о его опыте участия в конкурсе предсказания результатов шахматных встреч на основе прошедших результатов.

Участникам конкурса предоставлялись результаты более 1,84 миллиона встреч более чем 54.000 шахматистов. Задача была предсказать результаты 100.000 игр между этими же шахматистами за следующие три месяца. В конкурсе приняли участие 189 команд.

Вот что Tim Salimans написал о том, как он его выиграл.

+4

sashaeve 2 июн 2011 в 16:32

Исследование рынка труда по разработке программного обеспечения

1 мин

1.6K

Многие мои публикации на хабре связаны с Data Mining и Data Extracting. Мне приятно, что они пользуются популярностью. В основном, это теоретические статьи с описанием методов, алгоритмов, но есть ряд практических статей.

В этот раз мне хотелось бы применить знания по обработке данных с практической пользой. Поэтому предлагаю всем желающим принять участие в анонимном опросе.

Лично мне интересны не статистические данные — медиана, средняя температура по больнице и т.д., а именно скрытые взаимосвязи. Например, «разработчик на Assembler менее склонен к переезду в другой город» или «Java программисты с 10 годами опыта считают, что 5-летние С++ разработчики получают больше».

Я не знаю, насколько неожиданными могут быть результаты такого исследования, но, думаю, попробовать стоит. О тулзах, алгоритмах и т.д. расскажу после обработки анкет.

В общем, если у вас есть несколько минут, потратьте их на заполнение этой анкеты.

Спасибо.

+39

alizar 27 мая 2011 в 13:21

Суперкомпьютер IBM Watson усвоил знания 2-го курса медицинского вуза

3 мин

12K

Блог компании IBMData Mining*

На прошлой неделе компания IBM подтвердила серьёзные намерения по развитию дата-майнинга, объявив о выпуске системы на Hadoop для хранения и анализа данных, а также о больших инвестициях в это направление. Разрабатывая софт на базе open source технологии, IBM официально гарантирует Hadoop свою защиту и покровительство.

На другом фронте дата-майнинга IBM демонстрирует ещё более значительные успехи. Разработчики суперкомпьютера IBM Watson (который способен отвечать на вопросы, разбираясь в массиве неструктурированных данных) продолжают накачивать его БД медицинской информацией. По их словам, уже сейчас компьютер усвоил всю информацию, которую должен знать студент медицинского колледжа. И это только начало обучения.

Читать дальше →

+52

alizar 11 мая 2011 в 16:45

Экономия бензина с помощью Google Prediction API

1 мин

3.5K

Исследователи из Ford начали тестировать новую функцию компьютерной системы управления, которая делает обоснованные предположения по будущему маршруту автомобиля и оптимизирует настройки. Выбор режима работы двигателя в некоторых случаях позволяет заметно уменьшить расход топлива.

Предсказание маршрута осуществляется на основе облачного сервиса Google Prediction API. На скриншоте видно слева, как просчитывается вероятность каждого маршрута.

Читать дальше →

+12

my2you 11 апр 2011 в 01:01

Web Private Detective 1.0

3 мин

846

Вступление

В прошлый раз мы Вам говорили о том, каким образом можно осуществить поиск персон в тексте. Подобные вещи оказываются очень полезными для аналитиков, которые каждый день следят за новостями и вынуждены мониторить присутствие той или иной персоны в СМИ. Самые большие проблемы начинаются если эта персона еще и локального значения, и в интернете можно найти достаточно много информации о ней. Но все равно информация о ней очень дисперсирована и не структурирована. С кем связана эта персона? С кем она чаще всего взаимодействует? В контексте каких тем персона чаще всего поднимается в интернете?

Не обязательно чтобы эта персона была человеком. Было бы неплохо введя, например, название сериала “X-Files” получить информацию о том, кто в нем играет, какие персонажи там главные, какие основные объекты фильма (ФБР например;) ) и т.д.

Развивая идею можно сказать, что очень замечательно бы было еще и иметь возможность мониторить все связи искомого объекта в реальном времени. А что? Не плохо было бы специалисту из отдела внутренней безопасности прийти на работу и увидеть извещение о том, что один из подопечных вдруг начал вести активную деятельность под своим “персональным” почтовым адресом на форуме конкурентов.
И хоть последний абзац пока для нас является, так сказать, RoadMap-ом, то первые два уже можно считать явью и реализованными хоть в какой-то мере.

Встречайте: Web Private Detective 1.0

+1

borges 8 апр 2011 в 10:29

Licenzero: ищем порно по цвету кожи

3 мин

9.7K

Маска по цвету кожи

Продолжаем описание классификатора порнографического видеоконтента, разработанного компанией Inventos (Licenzero, присутствующее в заголовке это не отдельная компания, а подразделение в компании Инвентос).

Детектор цвета кожи является одним из детекторов, при помощи которых мы классифицируем видео. Он не такой сложный, как детектор движения, или детектор фрагментов, можно даже сказать совсем простой. Вначале у нас была куча идей, связанных с цветом кожи в видео. Но попробовав самый простой подход к классификации, мы решили (возможно временно) на нем остановиться, поскольку полученные результаты нас вполне устроили. Итак.

Читать дальше →

+111

ilblackdragon 6 апр 2011 в 20:36

Data Mining Cup 2011

2 мин

3.7K

Хотелось бы рассказать про соревнованию по анализу данных, которое скоро начнется. Полная информация про него может быть найдена на официальном сайте. В соревновании могут участвовать только студенты, поэтому если Вы студент и Вас интересует анализ данных – то вы можете зарегистрироваться (email можно использовать обычный, а не университетский, если такого нет) и поучаствовать.
Дальше Вы найдете расписание конкурса, основные правила этого соревнования. Так же ссылку на условия предыдущих лет (для тренировки и тех, кто уже не студент).

Читать дальше →

+13

borges 4 апр 2011 в 10:31

Licenzero: простые движения

6 мин

7.2K

Двустороннее движение

Этим постом мы продолжаем цикл статей о том, как мы делали порнофильтр. Сейчас речь пойдет о попытке классифицировать порнографический контент по характерным движениям в кадре.

Началось это все как просто шутка из разговора. Ведь классифицировать порнографические движения довольно непросто — они слишком разные, чтобы найти в них что-то общее. Но мы попробовали, результат нас вполне устроил, и детектор движения занял свое место в общем классификаторе порнографического видеоконтента.

Читать дальше →

+66

ilblackdragon 29 мар 2011 в 01:25

Классификация и регрессия с помощью деревьев принятия решений

5 мин

73K

Из песочницы

Введение

В данной статье сделан обзор деревьев принятия решений (Decision trees) и трех основных алгоритмов, использующих эти деревья для построение классификационных и регрессионных моделей. В свою очередь будет показано, как деревья принятия решения, изначально ориентированные на классификацию, используются для регрессии.

Деревья принятия решений

Дерево принятия решений — это дерево, в листьях которого стоят значения целевой функции, а в остальных узлах — условия перехода (к примеру “ПОЛ есть МУЖСКОЙ”), определяющие по какому из ребер идти. Если для данного наблюдения условие истина то осуществляется переход по левому ребру, если же ложь — по правому.

Читать дальше →

+56

borges 25 мар 2011 в 11:18

Licenzero: порно детектед

3 мин

18K

Licenzero

У нас великолепная работа — нам платят за просмотр порнографических роликов. Ну а серьезнее, мы работаем в R&D отделе компании Inventos, которая занимается автоматической фильтрацией веб-контента: модерация, защита авторских прав и т. д. Перед нами была поставлена задача — построить систему для автоматического выявления роликов порнографического содержания. Здесь мы расскажем, как мы решали поставленную задачу.

Читать дальше →

+194

fedor_malyshkin 1 янв 2011 в 14:11

Графематический модуль. Выделение предложений

2 мин

5.3K

Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

Что такое предложение?

Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).

Читать дальше →

+13

my2you 25 дек 2010 в 00:55

Автоматизированный поиск фактов в тексте (метод «окон-фактов»)

5 мин

3.6K

Сегодня мы будем говорить о том, как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методе, к сожалению, достаточно мало информации, однако он остается одним из ключевых методов обработки информационных потоков. Более детально об анализе текста можно почерпнуть, например, тут. В общих чертах задача метода «Окон-фактов» сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом.

Читать дальше →

+6

tyomitch 17 окт 2010 в 17:43

Распознавание почтовых адресов

15 мин

24K

Дело началось с того, что одна небольшая английская компания решила рассылать рекламные листовки своим существующим и потенциальным клиентам.
Обнаружилась проблема: есть отдельная внутренняя база клиентов, делавших заказы по телефону; отдельная база веб-клиентов, делавших заказы на сайте; и несколько баз «потенциальных клиентов» от разных информаторов.
Тысячи клиентов попали сразу в несколько баз, или даже несколько раз в одну базу.
Если клиент, «засветившийся» пять раз, получит пять одинаковых рекламных листовок с немного отличающимся написанием имени или адреса, то эффект от такой кампании получится противоположный — не говоря уже о бессмысленных расходах на лишние листовки.
Как же отсеять повторы в списке рассылки?

Среди всех данных о клиенте самое однозначное, что его определяет — это почтовый индекс (postcode). Этого мало, но это хорошая отправная точка.

Читать дальше →

+59

Invision 29 сен 2010 в 20:20

Классификация данных методом опорных векторов

4 мин

148K

Из песочницы

Добрый день!

В данной статье я хочу рассказать о проблеме классификации данных методом опорных векторов (Support Vector Machine, SVM). Такая классификация имеет довольно широкое применение: от распознавания образов или создания спам-фильтров до вычисления распределения горячих аллюминиевых частиц в ракетных выхлопах.

Сначала несколько слов об исходной задаче. Задача классификации состоит в определении к какому классу из, как минимум, двух изначально известных относится данный объект. Обычно таким объектом является вектор в n-мерном вещественном пространстве

. Координаты вектора описывают отдельные аттрибуты объекта. Например, цвет c, заданный в модели RGB, является вектором в трехмерном пространстве: c=(red, green, blue).

Читать дальше →

+74

alizar 31 авг 2010 в 15:08

Нелинейный индекс качества жизни

1 мин

1.8K

Data Mining*Математика*

Александр Горбань (кафедра математики Лестерского университета, Великобритания) и Андрей Зиновьев (Институт Кюри, Франция) составили нелинейный индекс качества жизни в 171 странах мира.

Они взяли четыре стандартных индикатора из онлайновой базы данных Gapminder за 2005 год (ВВП на душу населения по паритету покупательской способности, ожидаемая продолжительность жизни для новорожденных, смертность на 1000 новорожденных, заболеваемость туберкулёзом на 100 тыс. населения) и проанализировали получившуюся структуру. В этом 4D-пространстве существует главная кривая, которая наилучшим образом проходит через «середину» набора данных. Соответственно, учёные спроецировали значения из таблиц на эту кривую и получили относительно объективный рейтинг стран, с учётом всех четырех индикаторов.

Читать дальше →

+1

Tutufa 30 авг 2010 в 17:09

Как информация меняет нашу жизнь, 10 примеров

6 мин

4.1K

Перевод

Социальный Лондон, проект Anil Bawa-Cavia, из University College London.

Доступность большого количества совершенно новых типов данных меняет коренным образом то как мы живем. Ниже приведено 10 примеров использования новой информации, которая меняет все, начиная от того как мы оцениваем войну, вплоть до способов доставки молока.

Торговля

Супермаркеты всегда следили за тем как покупатели совершают покупки, но в последние несколько лет количество и виды собираемой информации резко возросли. Tesco обладает большей частью акций в компании Dunnhumby Ltd, которая занимается дата майнингом и анализом информации, для большого количества компаний, занимающихся торговлей, включая: Coca-Cola, BT, Mars, Vodafone, и другие лидирующие бренды. Dunnhumby использует в своей работе информацию собранную с помощью клубных карт Tesco Clubcard, благодаря ей Tesco может прогнозировать когда люди пойдут за покупками, как они буду оплачивать свои покупки и даже количество калорий которое собираются потребить.
Dunnhumby недавно сообщил о 32 процентном росте операционной прибыли до £53.4 миллионов. Количество сотрудников компании выросло с 300, когда компания начинала в 2007, до 1250 в этом году. Информация собираемая Dunnhumby изменила то, как мы совершаем покупки.

Читать дальше →

+70

andreycha 11 авг 2010 в 10:52

Обзор алгоритмов кластеризации данных

10 мин

435K

Приветствую!

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен.
О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой «дипломный» стиль изложения к более публицистическому.

Читать дальше →

+74

alizar 26 июл 2010 в 13:30

Логи войны в Афганистане опубликованы на Wikileaks

2 мин

1.7K

Сегодня ночью на сайте Wikileaks.org опубликованы около 76 900 конфиденциальных файлов, посвящённых войне в Афганистане. Это массив информации в форматах CSV и SQL объёмом около 100 МБ, в котором ещё предстоит хорошенько разобраться. Судя по всему, источником файлов является база данных Командного центра армии США.

Газета The Guardian провела фильтрацию по инцидентам, в которых были убиты мирные жители: таких набралось 144 инцидента. Все случаи наложены на карту и собраны в таблицу XLS.

По подсчёту Channel 4, за время боевых действий с 2004 по 2009 годы погибло 1138 солдат NATO, 15506 врагов и 4232 мирных жителей.

Читать дальше →

+78

sashaeve 23 июл 2010 в 13:52

Подходы к извлечению данных из веб-ресурсов

4 мин

72K

В предыдущей статье мы рассмотрели основные понятия и термины в рамках технологии Data Mining. Сегодня более детально остановимся на Web Mining и подходах к извлечению данных из веб-ресурсов.

Web Mining — это процесс извлечения данных из веб-ресурсов, который, как правило, имеет больше практическую составляющую нежели теоретическую. Основная цель Web Mining — это сбор данных (парсинг) с последующим сохранением в нужном формате. Фактически, задача сводится к написанию HTML парсеров, и как раз об этом поговорим более детально.

Читать дальше →

+17

1 2 ...

98