Как стать автором
Обновить
75.57

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

⚡️ PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом

PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).

PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.

Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🖥 GitHub

🟡 Arxiv (связанное с этим исследование)

Если интересуетесь машинным обучением и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#машинноеобучение #deeplearning



Теги:
+3
Комментарии0

Вышла невероятная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.

В нее можно закидывать огромные документы и модель всё проанализирует.

Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.

Поддерживает Cuda.

Github: https://github.com/mustafaaljadery/gemma-2B-10M

HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M

Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb

Если интересуетесь машинным обучением и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.


Теги:
+3
Комментарии0

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки 

Мощный метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Что же такое Гаусовские Сплаты, простыми словами:

Из видео извлекается облако точек, затем по облаку создается набор маленьких полупрозрачных гауссиан. Потом эти гауссианы оптимизируются доя тогог, чтобы после рендеринга с высокой точностью восстанавливать кадры.

Это не Nerual Radiance Field и здесь все рабоатет намного проще.

За счет простоты эта штука и обучается, и рендерится довольно быстро.

Deblur-GS обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, что подтверждается бенчмарками, как на синтетических, так и на реальных наборах данных.

Выглядит бомбезно.

▪Code: https://github.com/Chaphlagical/Deblur-GS

▪Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf

▪Project: https://chaphlagical.icu/Deblur-GS/

Если интересуетесь машинным обучением и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#машинноеобучение #deeplearning

Теги:
+2
Комментарии0

📌Artificial Analysis собрали топ 100 LLM в одном месте

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.

Параметры для оценивания LLM:

🟡Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;

🟡Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;

🟡Окно контекста: максимальное количество комбинированных входных и выходных токенов;

🟡Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;

🟡Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

Если хотите изучать машинное обучение, разбираться в LLM и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#llm

Теги:
0
Комментарии0

IBM выпустили самую совершенную модель для генерации кода

IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода

Все модели Granite Code выпущены под лицензией Apache 2.0. 

Модели Granite превосходят модели с открытым исходным кодом по всем параметрам. На рисунке показано, как Granite-8B-CodeBase превосходит Mistral-7B, LLama-3-8B и другие модели с открытым исходным кодом в трех задачах кодинга. Полные оценки можно найти здесь.

Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.

- Размер моделей варьируется от 3B до 34B параметров

- Обученных на 3-4 тыс. токенах, полученных из 116 языков программирования

Github: https://github.com/ibm-granite/granite-code-models

Paper: https://arxiv.org/abs/2405.04324

HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330

Если интересуетесь темой генерации кода и LLM, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#llm #codegeneration

Теги:
+1
Комментарии0

🌟 TrustLLM мощный инструмент для оценки ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM. 

TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для  оценки эффективности собственных моделей.

pip install trustllm

GitHub

Arxiv

Docs

Project

Если интересуетесь темой Chatgpt и LLM, здесь я публикую разбор свежих LLM моделей, статей и гайдов, кладешь полезной информации.

Теги: #машинноеобучение #datascience #llm

Теги:
+1
Комментарии0

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

🧑🏻‍🏫Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

🔻 Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
🔻 С какими вызовами мы столкнулись при написании коннектора и как их решили.
🔻 Цифры и результаты: что у нас получилось в итоге.
🔻 Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

👉🏻Регистрация на вебинар доступна по ссылке зашитой в это предложение👈🏻

Теги:
+3
Комментарии0

Вопросы и ответы с собеседований большая подборка

Большая, подборка вопросов и ответов с собеседований по ML, Data Science,Ai, статистике, теории вероятностей python, SQL. 

ML

▪100 вопросов c собесов по машинному обучению 2024

▪Сборник ответов с собесов по машинному обучению от FAANG, Snapchat, LinkedIn. 

▪Facebook. Вопросы по машинному обучению 2024 год

▪Google  руководство по прохождению собеса в 2024 году

Подготовка к собеседованию по ML: ответы на основные вопросы 

▪ 14 типичных вопросов с собеседования по ML

▪ Вопросы для собеседования на позицию ML-инженера

▪ Решения вступительных испытаний в ШАД

▪ Решения вступительных испытаний в ШАД архив

▪AI Interviews at Apple, OpenAI, Bloomberg & JP Morgan – What to Expect

▪Apple Machine Learning Engineer (MLE) Interview Guide

▪Junior ML-инженер | Выпуск 1 | Собеседование

▪Успешное собеседование в Яндекс  

▪Как я проходил собеседования на Machine Learning Engineer

NLP

▪100 вопросов и ответов для интервью по NLP

▪Топ-50 вопросов собеседований NLP 

▪ Вопросы по NLP 2024 года

▪ Еще 100 NLP вопросов

DS

▪Материалы для подготовки к интервью data science

▪ Вопросы/ответы DS

▪100 вопросов для подготовки к собесу Data Science

▪Временные ряды. Топ 50 вопросов

Python

▪100 вопросов для подготовки к собесу Python

▪ 50 вопросов по PyTorch

▪45 Вопросов с собеседований Pandas

▪400 самых популярных вопросов-ответов для Python-разработчика

▪100 вопросов видео

▪LeetCode Pandas

AI

▪30 вопросов промпт инжинирингу

SQL

▪Задачи с собеседований SQL

Полный список с разбором можно найти тут.

Теги:
+1
Комментарии0

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

Теги:
+3
Комментарии0

🔥 Если вы хотите погрузиться в  компьютерное зрение, вот ваш шанс с новым бесплатным курсом от hf.

Крутые спецы из сообщества huggingface объединились, чтобы создать курс, разработанный сообществом для всех желающих.

🖥️ Что в курсе:

🔹 Основы компьютерного зрения

🔹 Сверточные нейронные сети

🔹 Трансформеры

Генеративные Модели 

🔹 Обработка видео

🔹 3D , отображение сцены и реконструкции

🔹 Этика и CV

и многое другое...

📚 Курс

В своем канале я собрал 120 бесплатных курсов в различных областях машинного обучения и data science, присоединяйтесь.

#machinelearning #artificialintelligence #ai #datascience #машинноеоубчение #python

Теги:
+1
Комментарии0

Шпаргалка по машинному обучению

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше: 

❯ метод понижения размерности PCA

❯ ложноположительные, ложноотрицательные ошибки

❯ наивный Байесовский классификатор

❯ регрессионный анализ

❯ регуляризация

❯ архитектура, устройство, известные реализации нейронных сетей CNN

❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания.

Pdf
А здесь я собрал базу 1900 вопросов с собеседований data science, machine learning, cv, welcome

Теги:
+4
Комментарии0

Data Science разбор реальной задачи с собеседования. Прогнозирование оттока клиентов.

Разбор задания "Прогнозирование оттока клиентов"..

Это отличная задача с собеседования, потому что здесь рассматривается много понятий из Data Science, ML и аналитики:
— разведочный анализ данных EDA
— прогнозирование с помощью логистистической регрессии
— прогнозирование с помощью случайного леса
— k-means-кластеризация, построение дендрограммы
— построение корреляционной матрицы, работа с категориальными признаками

- csv файл с данными

- ноутбук

#python #machinelearning #машинноеобучени
#datascience #datascientist #аналитикаданных

Теги:
+4
Комментарии0

 Анонс альфа-релиза torch tune от Pytorch!

 Анонс альфа-релиза torch tune от Pytorch!

torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.

Она сочетает в себе рецепты тонкой настройки, которые можно взломать, экономят память и интегрируются в ваши любимые инструменты.

  • выгрузка и подготовки датасетов 

  • построения архитуктур с помощью разнообразных строительных блоков

  • квантизации моделей 

  • файнтюнинга и расстановки чекпоинтов

  • оценки моделей на классических бенчмарках

  • запуска локального инференса 

Начните файнтюнить уже сегодня!

https://github.com/pytorch/torchtune

https://pytorch.org/blog/torchtune-fine-tune-llms/

Теги:
+3
Комментарии0

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

🔥 Большой список open-source AI-моделей и не только

Это крутой список опенсорс проектов под любые задач.

⏩Полный список репозиториев ИИ с открытым исходным кодом размещен на сайте llama-police; список обновляется каждые 6 часов. 

⏩Большинство из них вы также можете найти в этом списке cool-llm-repos на GitHub.

А здесь 100% бесплатный курс, который поможет вам научиться писать код производственного уровня MLOps.

Enjoy)


Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии0

🦾 Обучите и запустите GPT-2 у себя на пк

Андрей Карпатый выпустил llm.c для CUDA  чуть больше тысячи строк чистого C кода без зависимостей, которые компилируются меньше чем за секунду.

llama.c – предыдущий проект Карпатого, позволяет запускать llama на любых умных устройствах, а llm.c теперь даёт возможность ещё и тренировать. 

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению 2024.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

Готовьтесь к своему следующему собеседованию по data science! Узнайте, какие вопросы могут вас ожидать и как лучше всего на них ответить, чтобы произвести впечатление на работодателя

В моем канале база с 1600 вопросами с собеседований Data Science.

Теги:
Всего голосов 8: ↑5 и ↓3+2
Комментарии1

⚡️ Это шокирует. Facebook* продает Netflix все ваши личные сообщения в Messenger

Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.

* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.

Компания продает ваши данные с целью получения прибыли.

Источник, шокирует , что никто не говорил об этом в течение последнего года.

Больше интересного из мира Анализа данных в моем канале.

Теги:
Всего голосов 16: ↑10 и ↓6+4
Комментарии1

💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно. 

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить  выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице  к верхнему регистру.

Больше гайдов по работе с Pyspark в моем канале.

Теги:
Всего голосов 7: ↑5 и ↓2+3
Комментарии1

Жизненный цикл модели в Data Science

Жизненный цикл модели в Data Science — это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения. 

Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ. 

Основные этапы:

  • Анализ данных. Задача этого шага – понять слабые и сильные стороны в имеющихся данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика.

  • Сбор данных. Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты. 

  • Нормализация данных. Этот шаг в процессе подготовки — это место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных.

  • Моделирование данных. Моделирование данных — это сложный процесс создания логического представления структуры данных. 

  • Конструирование признаков. Конструирование признаков состоит из учета, статистической обработки и преобразования данных для выбора признаков, используемых в модели.

    Подробнее

Теги:
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

Nvidia опубликовала в открытом доступе крутые бесплатные обучающие курсы

Nvidia опубликовала в открытом доступе бесплатные обучающие курсы для пользователей любого уровня подготовки по нейросетям и нейромоделям для понимания работы ИИ.

бесплатные ИИ курсы от Nvidia для
бесплатные ИИ курсы от Nvidia для

Теги:
Всего голосов 8: ↑7 и ↓1+6
Комментарии1
1