Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Open source*Python*Машинное обучение*Искусственный интеллектData Engineering*

⚡️ PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом

PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).

PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.

Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.

🖥 GitHub

🟡 Arxiv (связанное с этим исследование)

Если интересуетесь машинным обучением и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#машинноеобучение #deeplearning

Теги:

linuxacademy

11 мая в 11:066.9K

Open source*Python*Машинное обучение*Искусственный интеллектData Engineering*

Вышла невероятная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.

В нее можно закидывать огромные документы и модель всё проанализирует.

Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.

Поддерживает Cuda.

▪Github: https://github.com/mustafaaljadery/gemma-2B-10M

▪HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M

▪Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb

Теги:

Golangcoder

10 мая в 19:437.5K

Open source*Python*Машинное обучение*Искусственный интеллектData Engineering*

Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки

Мощный метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Что же такое Гаусовские Сплаты, простыми словами:

Из видео извлекается облако точек, затем по облаку создается набор маленьких полупрозрачных гауссиан. Потом эти гауссианы оптимизируются доя тогог, чтобы после рендеринга с высокой точностью восстанавливать кадры.

Это не Nerual Radiance Field и здесь все рабоатет намного проще.

За счет простоты эта штука и обучается, и рендерится довольно быстро.

Deblur-GS обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, что подтверждается бенчмарками, как на синтетических, так и на реальных наборах данных.

Выглядит бомбезно.

▪Code: https://github.com/Chaphlagical/Deblur-GS

▪Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf

▪Project: https://chaphlagical.icu/Deblur-GS/

#машинноеобучение #deeplearning

Теги:

Golangcoder

9 мая в 10:374.3K

Python*Программирование*Машинное обучение*Искусственный интеллектData Engineering*

📌Artificial Analysis собрали топ 100 LLM в одном месте

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.

Параметры для оценивания LLM:

🟡Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;

🟡Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;

🟡Окно контекста: максимальное количество комбинированных входных и выходных токенов;

🟡Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;

🟡Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

Если хотите изучать машинное обучение, разбираться в LLM и ИИ, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#llm

Теги:

Golangcoder

8 мая в 12:016.6K

Open source*Программирование*Машинное обучение*Искусственный интеллектData Engineering*

IBM выпустили самую совершенную модель для генерации кода

IBM выпустили Granite Code Models: семейство моделей Open Foundation для интеллектуального анализа и генерации кода

Все модели Granite Code выпущены под лицензией Apache 2.0.

Модели Granite превосходят модели с открытым исходным кодом по всем параметрам. На рисунке показано, как Granite-8B-CodeBase превосходит Mistral-7B, LLama-3-8B и другие модели с открытым исходным кодом в трех задачах кодинга. Полные оценки можно найти здесь.

Модели отлично справляются с задачами генерации кода, исправления багов объяснения кода, генерации документации к кода.

- Размер моделей варьируется от 3B до 34B параметров

- Обученных на 3-4 тыс. токенах, полученных из 116 языков программирования

▪Github: https://github.com/ibm-granite/granite-code-models

▪Paper: https://arxiv.org/abs/2405.04324

▪HF: https://huggingface.co/collections/ibm-granite/granite-code-models-6624c5cec322e4c148c8b330

Если интересуетесь темой генерации кода и LLM, здесь я публикую разбор свежих LLM и их разбор, статьи и гайды, кладезь полезной информации.

#llm #codegeneration

Теги:

Golangcoder

7 мая в 15:566.2K

Open source*Python*Машинное обучение*Искусственный интеллектData Engineering*

🌟 TrustLLM мощный инструмент для оценки ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.

TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.

pip install trustllm

▪GitHub

▪Arxiv

▪Docs

▪Project

Если интересуетесь темой Chatgpt и LLM, здесь я публикую разбор свежих LLM моделей, статей и гайдов, кладешь полезной информации.

Теги: #машинноеобучение #datascience #llm

Теги:

ITSumma

7 мая в 11:314.2K

Блог компании ITSummaBig Data*Data Engineering*

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

🧑🏻‍🏫Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

🔻 Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
🔻 С какими вызовами мы столкнулись при написании коннектора и как их решили.
🔻 Цифры и результаты: что у нас получилось в итоге.
🔻 Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

👉🏻Регистрация на вебинар доступна по ссылке зашитой в это предложение👈🏻

Теги:

Golangcoder

6 мая в 19:3311K

Python*Математика*Машинное обучение*Искусственный интеллектData Engineering*

Вопросы и ответы с собеседований большая подборка

Большая, подборка вопросов и ответов с собеседований по ML, Data Science,Ai, статистике, теории вероятностей python, SQL.

▪100 вопросов c собесов по машинному обучению 2024

▪Сборник ответов с собесов по машинному обучению от FAANG, Snapchat, LinkedIn.

▪Facebook. Вопросы по машинному обучению 2024 год

▪Google руководство по прохождению собеса в 2024 году

▪ Подготовка к собеседованию по ML: ответы на основные вопросы

▪ 14 типичных вопросов с собеседования по ML

▪ Вопросы для собеседования на позицию ML-инженера

▪ Решения вступительных испытаний в ШАД

▪ Решения вступительных испытаний в ШАД архив

▪AI Interviews at Apple, OpenAI, Bloomberg & JP Morgan – What to Expect

▪Apple Machine Learning Engineer (MLE) Interview Guide

▪Junior ML-инженер | Выпуск 1 | Собеседование

▪Успешное собеседование в Яндекс

▪Как я проходил собеседования на Machine Learning Engineer

NLP

▪100 вопросов и ответов для интервью по NLP

▪Топ-50 вопросов собеседований NLP

▪ Вопросы по NLP 2024 года

▪ Еще 100 NLP вопросов

▪Материалы для подготовки к интервью data science

▪ Вопросы/ответы DS

▪100 вопросов для подготовки к собесу Data Science

▪Временные ряды. Топ 50 вопросов

Python

▪100 вопросов для подготовки к собесу Python

▪ 50 вопросов по PyTorch

▪45 Вопросов с собеседований Pandas

▪100 вопросов видео

▪LeetCode Pandas

▪30 вопросов промпт инжинирингу

SQL

▪Задачи с собеседований SQL

Полный список с разбором можно найти тут.

Теги:

Rubcov

3 мая в 16:054.5K

Блог компании Magnus TechData Mining*Машинное обучение*Искусственный интеллектData Engineering*

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

Теги:

linuxacademy

2 мая в 14:138.1K

Open source*Python*Программирование*Машинное обучение*Data Engineering*

🔥 Если вы хотите погрузиться в компьютерное зрение, вот ваш шанс с новым бесплатным курсом от hf.

Крутые спецы из сообщества huggingface объединились, чтобы создать курс, разработанный сообществом для всех желающих.

🖥️ Что в курсе:

🔹 Основы компьютерного зрения

🔹 Сверточные нейронные сети

🔹 Трансформеры

Генеративные Модели

🔹 Обработка видео

🔹 3D , отображение сцены и реконструкции

🔹 Этика и CV

и многое другое...

📚 Курс

В своем канале я собрал 120 бесплатных курсов в различных областях машинного обучения и data science, присоединяйтесь.

#machinelearning #artificialintelligence #ai #datascience #машинноеоубчение #python

Теги:

linuxacademy

30 апр в 14:097.5K

Машинное обучение*Искусственный интеллектData Engineering*

Шпаргалка по машинному обучению

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:

❯ метод понижения размерности PCA

❯ ложноположительные, ложноотрицательные ошибки

❯ наивный Байесовский классификатор

❯ регрессионный анализ

❯ регуляризация

❯ архитектура, устройство, известные реализации нейронных сетей CNN

❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания.

▪ Pdf
А здесь я собрал базу 1900 вопросов с собеседований data science, machine learning, cv, welcome

Теги:

Develp10

28 апр в 18:357.4K

Python*Машинное обучение*Искусственный интеллектData Engineering*

Data Science разбор реальной задачи с собеседования. Прогнозирование оттока клиентов.

Разбор задания "Прогнозирование оттока клиентов"..

Это отличная задача с собеседования, потому что здесь рассматривается много понятий из Data Science, ML и аналитики:
— разведочный анализ данных EDA
— прогнозирование с помощью логистистической регрессии
— прогнозирование с помощью случайного леса
— k-means-кластеризация, построение дендрограммы
— построение корреляционной матрицы, работа с категориальными признаками

- csv файл с данными

- ноутбук

#python #machinelearning #машинноеобучени
#datascience #datascientist #аналитикаданных

Теги:

linuxacademy

17 апр в 11:404.8K

Python*Машинное обучение*Data Engineering*

Анонс альфа-релиза torch tune от Pytorch!

Анонс альфа-релиза torch tune от Pytorch!

torchtune - это библиотека, созданная на базе PyTorch для файнтюнинга LLM.

Она сочетает в себе рецепты тонкой настройки, которые можно взломать, экономят память и интегрируются в ваши любимые инструменты.

выгрузка и подготовки датасетов
построения архитуктур с помощью разнообразных строительных блоков
квантизации моделей
файнтюнинга и расстановки чекпоинтов
оценки моделей на классических бенчмарках
запуска локального инференса

Начните файнтюнить уже сегодня!

https://github.com/pytorch/torchtune

https://pytorch.org/blog/torchtune-fine-tune-llms/

Теги:

Golangcoder

12 апр в 11:212.8K

Машинное обучение*Искусственный интеллектData Engineering*

🔥 Большой список open-source AI-моделей и не только

Это крутой список опенсорс проектов под любые задач.

⏩Полный список репозиториев ИИ с открытым исходным кодом размещен на сайте llama-police; список обновляется каждые 6 часов.

⏩Большинство из них вы также можете найти в этом списке cool-llm-repos на GitHub.

А здесь 100% бесплатный курс, который поможет вам научиться писать код производственного уровня MLOps.

Enjoy)

Теги:

Golangcoder

11 апр в 09:403.7K

Машинное обучение*Искусственный интеллектData Engineering*

🦾 Обучите и запустите GPT-2 у себя на пк

Андрей Карпатый выпустил llm.c для CUDA чуть больше тысячи строк чистого C кода без зависимостей, которые компилируются меньше чем за секунду.

llama.c – предыдущий проект Карпатого, позволяет запускать llama на любых умных устройствах, а llm.c теперь даёт возможность ещё и тренировать.

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:

llm.c: 111 мс
PyTorch: 180 мс
torch.compile: 86 мс
тензорные ядра fp32: 26 мс
Github
Двухчасовой туториал по созданию GPT Tokenizer.

Теги:

Golangcoder

4 апр в 14:205.1K

Машинное обучение*Data Engineering*

Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению 2024.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

Готовьтесь к своему следующему собеседованию по data science! Узнайте, какие вопросы могут вас ожидать и как лучше всего на них ответить, чтобы произвести впечатление на работодателя

В моем канале база с 1600 вопросами с собеседований Data Science.

Теги:

Machinelearning_Ai

2 апр в 11:408.4K

Информационная безопасность*Открытые данные*Data Engineering*

⚡️ Это шокирует. Facebook* продает Netflix все ваши личные сообщения в Messenger

Facebook* продает Netflix все ваши личные сообщения в Messenger в обмен на историю просмотров, при этом Netflix платит им более 100 миллионов долларов за рекламу.

* принадлежит Meta, признанной в РФ экстремистской и запрещённой на территории страны.

Компания продает ваши данные с целью получения прибыли.

Источник, шокирует , что никто не говорил об этом в течение последнего года.

Больше интересного из мира Анализа данных в моем канале.

Теги:

Machinelearning_Ai

1 апр в 17:474.9K

Python*Машинное обучение*Data Engineering*

💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице к верхнему регистру.

Больше гайдов по работе с Pyspark в моем канале.

Теги:

Develp10

26 мар в 12:085.6K

Машинное обучение*Data Engineering*

Жизненный цикл модели в Data Science

Жизненный цикл модели в Data Science — это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.

Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.

Основные этапы:

Анализ данных. Задача этого шага – понять слабые и сильные стороны в имеющихся данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика.
Сбор данных. Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты.
Нормализация данных. Этот шаг в процессе подготовки — это место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных.
Моделирование данных. Моделирование данных — это сложный процесс создания логического представления структуры данных.
Конструирование признаков. Конструирование признаков состоит из учета, статистической обработки и преобразования данных для выбора признаков, используемых в модели.

Подробнее

Теги:

Develp10

24 мар в 13:278.8K

Машинное обучение*Искусственный интеллектData Engineering*

Nvidia опубликовала в открытом доступе крутые бесплатные обучающие курсы

Nvidia опубликовала в открытом доступе бесплатные обучающие курсы для пользователей любого уровня подготовки по нейросетям и нейромоделям для понимания работы ИИ.

Теги:

Data Engineering *

Ближайшие события

Вклад авторов