Как стать автором
Обновить
101.75

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга

Мощь визуализации matplotlib

Вот такую красоту можно сделать с помощью matplotlib. Это визуализация гравюры немецкого художника Альбрехта Дюрера, изображающая индийского носорога, каким его представлял художник по доступным ему описаниям и рисункам в 1515.

Хотите научиться та к же: вот крутая бесплатная книга: "Научная визуализация: Python + Matplotlib"

Исходники книги c примерами кода лежат здесь.

Постер

Книга

Код из книги


Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии0
Вирус иммунодефицита человека первого типа
Вирус иммунодефицита человека первого типа

Пока интернет сходит с ума по нейросетям, я увлекся молекулярной визуализацией. Вот, например, вирус иммунодефицита человека первого типа. Альфагерпесвирус, Коксаки, гепатит С и так далее, смотрите по ссылке. Эта и другие иллюстрации созданы на основе данных электронной микроскопии, но это не единственный прием структурной биологии. В ход идут масс-спектрометрия, рентгеновская дифракция, ядерный магнитный резонанс — десятки технологий, с помощью которых можно реконструировать структуру молекулы. На выходе получается файл, описывающий взаимное расположение и взаимосвязи между атомами в пространстве. Если поколдовать над ним в трехмерном редакторе получится то, что вы видите.

Это не фотографически точные изображения, но они позволяют ученым строить гипотезы и делать верные выводы. Считалось, что биомолекулы слишком малы, чтобы рассмотреть их в деталях, но группа исследователей из Германии опубликовала методику съемки таких структур на световой микроскоп. Получается реально похоже. Напоминает тот самый снимок черной дыры. Мы вновь своими глазами видим нечто ранее недоступное, и, чтобы это стало реальностью, снова потребовалась уйма труда и алгоритмической магии.

Теги:
Всего голосов 5: ↑4 и ↓1+3
Комментарии5

Какой детектор радиации и для какой зоны радиоактивного загрязнения лучше выбрать. Как визуализировать мизерабельные радиоактивные загрязнения.

Перезаписал лекцию с ВДНХ. Теперь одновременно идёт и запись трансляции лекции, и справа на экране показываю дублированные материалы лекции из лекционного канала.

На смартфоне смотрите видео в горизонтальном формате. Ютуб позволяет приблизить экран зуммированием. Для разглядывания деталей материалов лекции зуммируйте экран. Напишите в комментариях, удобен ли такой формат лекции. Спасибо.

PS:

Цель устной части лекции:

Попробовать пообщаться в устном формате с широкой аудиторией (в том числе неподготовленной) на тему инструментального контроля радиационной обстановки своими руками как получается и тем, что есть под рукой, опираясь только и исключительно на "народные" нарративы, широко распространяемые в СМИ и сети интернет.

Цель письменной части лекции (материалы к лекции):

Дать информацию по размерностям, сопутствующим оговоркам и официальным публикациям профильных организаций.

Тырить материалы лекции и использовать в своих корыстных целях всячески приветствуется.

PPS: В список ключевых слов к этому посту я включил выражение "радиоактивное заражение". Это тоже ошибочный народный нарратив. Варианта "радиоактивное загрязнение" на Хабре просто нет. Выражение "Радиоактивное заражение" можно использовать (не без оговорок) как частный случай (очень узкий) "Радиоактивного загрязнения".

Теги:
Рейтинг0
Комментарии0

Сегодня DataBanksy побывал на онлайн мероприятии ребят из Analytics Workspace. По сути это компания из портфеля проектов Барс, там же, кстати, и альфа BI. Цель онлайн встречи - подвести итоги хакатона и рассказать о своей дорожной карте. В жюри позвали ребят из тусовки Russian BI Chat.

Если сделать короткое заключение, то:

  1. Дорожная карта есть, она краткосрочная. Все, что в долгосроке находится под грифом секретно со слов вендора.

  2. Идут в сторону self service. Под капотом апач линейка. Пытаются решить проблему с гибкими фильтрами, это кстати в качестве большого минуса отметил и клиент-спикер. Фильтры - это задача #1, исходя из объема информации от вендора. Интересно, смогут ли победить болезнь…

  3. Будут добавлять новые виджеты, делать дашборды под разные экраны (автоматом не масштабируется сейчас), пользовательские представления и другое.

  4. Отдельно рассказали о развитии ETL. Третий вендор который осознал, что нужно делать коннектор к Qvd, формат внутренней хранилки Qlik Sense. Понравилась идея с ETL Store, где можно делать свои блоки и делиться ими. Интересно будет посмотреть на работу отладчика с автоматическим поиском ошибок и выдачей рекомендаций.

  5. Не очень выглядел пассаж про работу со 150 млрд записей в неком ритейлере под нагрузочные тесты, как единственный вендор в РФ с такими метриками. Если речь шла про некий direct query, то так и говорите об этом. Дашборд на 150 млрд записей на одной ноде представить не можем!

  6. Пицца dashboard win!

Добавили AW к себе в поле зрения.

Теги:
Рейтинг0
Комментарии0
BI Прожарка 2024
BI Прожарка 2024

Мы решили запустить проект по очистке BI игроков от лишнего маркетинга. Мы не будем глубоко расписывать плюсы платформ и наличие фичей, постараемся сосредоточиться на минусах с точки зрения бизнес-пользователя, ИТ сотрудника и безопасника.

Наша цель - акцентировать внимание вендоров на закрытие этих минусов. Рынок должен получать качественный отечественный продукт в понятные рынку сроки.

В наше поле зрение в этом году попадут такие платформы, как: Форсайт, Luxms, Alfa BI, Analytics Workspace, PIX BI, Visiology 3, Insight, Yandex DL, Modus.

Графика выпуска постов у нас не будет, мы постараемся делать один обзор в месяц, может быть чаще. Сейчас в нашей команде есть достаточное количество экспертов, которые знают эти продукты и/или имеют доступ к экспертам, которые очень хорошо знают эти платформы изнутри. Естественно, все это DataBanksy, никаких имен, только выводы и факты.

Как мы будем собирать информацию? Митапы, конференции, вебинары, телеграмм каналы, общение с клиентами, личный опыт, отзывы в интернет, мнения конкурентов, мнения экспертов, рейтинги и т. п. Источников достаточно для того, чтобы сделать определенные выводы. Можно написать нам и прислать свою точку зрения, мы постараемся ее учесть. Ну и контрольная закупка, будте готовы к этому господа вендоры🤗

Материальное вознаграждение нам не интересно. Наша цель - сделать мир BI прозрачным для Вас! Проведем очистку данных о вендорах 2024!

3, 2, 1 начинаем…

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0
Если бы Гартнер стал русским…февраль 2024
Если бы Гартнер стал русским…февраль 2024

Мы уже писали большой текст про рейтинги и наше отношение к ним, но начало года стало очень горячим, начали обсуждать свежие рейтинги от интернет изданий и частных экспертов, выпускать подкасты и зазывать на круглые столы ( «везде инфа сотка конечно же»). И мы решили дать рынку свою картину на сегодня, ответив на вопрос - как выглядел бы Гартнер в России в 2024 году.

Естественно мы понижаем планку для всех участников, чтобы соблюсти масштаб. Пока никто даже близко не приблизился к лидерам по Гартнеру, но работы проделали действительно много. По лидерам в нашей версии можем точно сказать, что у них иксы в скорости разработки продукта. У них отличный агрессивный маркетинг! Главное, чтобы вся эта гонка не превратилась в грязную игру, когда клиентам начинают лить дезу про конкурента.

Мы выделяем 4 платформы лидера на сегодня: Модус, Визиолоджи ( извините ребята, но пока только 2 версия!), PIX BI и дедушку Форсайт. Считаем, что к ним может ворваться AW в обозримой перспективе, Барс со своими историческими заходами в рынок точно найдет пару знатных клиентов и ребята раскроют свой потенциал.

Догоняет лидеров Яндекс DL, но пока там свой сегмент рынка с моделью аля Гугл. Люкс мс и Альфу относим в сектор Визионеров. Первые идут больше путем замены оракла. Вторые работаю с крупным бизнесом, кстати в годовом отчете от люксов ни одного нового имени не прозвучало. Жаль.

Остальные платформы пока в нишевых. Надо больше витаминов кушать в этом году им.

Осенью посмотрим, что изменится в рынке!

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ
Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Теги:
Рейтинг0
Комментарии0

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

  1. Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!

  2. Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.

  3. Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.

    Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_14 (Часть_2)

  1. Регуляризация (Regularization): Использование методов регуляризации, таких как L1 или L2 регуляризация, может помочь снизить переобучение и улучшить стабильность модели. Регуляризация контролирует сложность модели и снижает чувствительность к малым изменениям в данных.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_11

🔠Вопрос_11: Какие есть альтернативы Affinity Propagation ?

  1. Агломеративная кластеризация (Agglomerative Clustering): Это иерархический метод кластеризации, который начинает с каждой точки данных в отдельном кластере и последовательно объединяет ближайшие кластеры, пока не достигнет заданного числа кластеров или критерия объединения. Агломеративная кластеризация может работать как с евклидовыми расстояниями, так и с другими метриками.

  2. Gaussian Mixture Models (GMM): Это статистическая модель, которая представляет каждый кластер как смесь нормальных распределений. GMM моделирует данные с помощью вероятностей и может обнаруживать скрытые кластеры и моделировать данные с разной формой распределения.

  3. Spectral Clustering: Этот алгоритм использует спектральные методы для преобразования данных в новое пространство и выполнения кластеризации. Он основан на вычислении собственных векторов матрицы сходства данных и последующем применении методов кластеризации на полученных спектральных коэффициентах.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных)

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_5

🔠Вопрос_5: Что означает термин "Variance Inflation Factor" и как он интерпритируется и есть ли ему аналоги ?

✔️Ответ:

"Variance Inflation Factor" (VIF) относится к статистическому показателю, используемому для измерения степени мультиколлинеарности в модели линейной регрессии. Мультиколлинеарность происходит, когда две или более независимые переменные в модели сильно коррелируют друг с другом, что может исказить результаты регрессии.

VIF равен 1, когда вектор предиктора ортогонален каждому столбцу матрицы проектирования для регрессии предиктора на другие ковариаты. В противном случае, если вектор предиктора не ортогонален всем столбцам матрицы проектирования для регрессии предиктора на другие ковариаты, VIF будет больше 1.

Интерпретация VIF следующая: если VIF предиктора равен 5.27 (корень из 5.27 = 2.3), это означает, что стандартная ошибка для коэффициента этого предиктора в 2.3 раза больше, чем если этот предиктор имел бы корреляцию 0 с другими предикторами в модели. VIF измеряет количество завышенных дисперсий, вызванных мультиколлинеарностью. 

В качестве аналога VIF можно рассмотреть "Tolerance Index" (TI), который также используется для измерения степени мультиколлинеарности в модели. TI также представляет собой отношение дисперсии оценок параметра к дисперсии модели.

https://t.me/DenoiseLAB

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_4

🔠Вопрос_4: Как проверить нормальность набора данных или признака?

✔️Ответ: Существует список проверок нормальности, они следующие:

  • W-тест Шапиро-Уилка:

    1. Рассчитывается выборочное среднее и ковариационная матрица выборки;

    2. Затем вычисляются статистики заказа (например, i-е наименьшее число в выборке) и ожидаемые значения из статистики заказа, выбранные из стандартного нормального распределения;

    3. Наконец, вычисляется W-статистика, которая сравнивается с критическим значением, полученным через моделирование Монте-Карло;

    4. Если W-статистика значима, то гипотеза о нормальном распределении данных отвергается, то есть данные, не следуют нормальному распределению;

  • Тест Мартинеса-Иглевича:

    1. Вычисляются квантили выборки;

    2. Эти квантили сравниваются с квантилями стандартного нормального распределения;

    3. Расстояние между квантилями выборки и стандартного нормального распределения вычисляется для каждого квантиля;

    4. Если все расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.

  • Тест Д'Агостино

    1. Вычисляются эксцесс и асимметрия выборки и эти значения сравниваются с ожидаемыми значениями для нормального распределения;

    2. Расстояние между вычисленными и ожидаемыми значениями вычисляется для каждого из них;

    3. Если оба расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.

    https://t.me/DenoiseLAB

    #work #coding #testing #optimization #ml #learning

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Мой проект DataBanksy стартовал довольно быстро и самое интересное, что я нашел единомышленников, которые готовы делиться с Вами своим опытом и знаниями в области аналитических систем. У нас теперь небольшая команда, но суммарная база знаний в области BI выросла кратно. По понятным причинам свои имена мы раскрывать не будем, поскольку рынок этот очень тесный, и наша правда может не нравится некоторым. Но! Нет задачи принижать качества той или иной платформы или восхвалять другую. Относитесь к нам, как просто к мнению группы людей, которые живут в мире BI уже очень давно. Будем и дальше писать для Вас, кому то уже начинает не нравиться наш текст и сразу после публикации мы получаем понижение в карме, но это нас только мотивирует продолжать говорить то, что мы думаем и нести знания в общество. Команда будет расти и будут новые DataBanksy в наших рядах.

Теги:
Рейтинг0
Комментарии0

Релиз Modus BI Cloud

В 2022 году многие BI-вендоры ушли с российского рынка. Малый и средний бизнес остались практически без привычных, полезных и недорогих инструментов аналитики.

Раньше я уже писал, что мы под эту задачу разрабатываем Modus BI Cloud – облачный сервис аналитики данных для малого и среднего бизнеса. Архитектура платформы построена на принципе low-code - пользователь может создавать отчеты, дашборды и аналитические панели любой сложности без навыков программирования. Базовая версия будет бесплатной.

Подробнее об архитектуре продукта я писал здесь

Рад сообщить, что 25 октября 2023 года продукт выйдет на рынок, а 26-го октября в 12:00 приглашаю на вебинар-презентацию с моими коллегами, где вы узнаете:

  • зачем вести аналитику, если у вас не огромная корпорация;

  • как Modus BI Cloud учитывает все особенности небольшого бизнеса;

  • все об архитектуре и функциональных возможностях low-code платформы;

  • как мы построили карту развития продукта;

  • об отличиях Modus BI и Modus BI Cloud.

Вебинар будет полезен аналитикам, представителям малого и среднего бизнеса и всем, кто ищет функциональное облачное BI-решение.

Участие по предварительной регистрации

Теги:
Рейтинг0
Комментарии0

Коллеги, сейчас раскрываю тему РФ рынка аналитических платформ. Есть несколько тем на будущие статьи. Хотел обратиться к Вам, что было бы интересно? Может быть будут интересные острые темы от Вас?

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 5: ↑4 и ↓1+3
Комментарии1