Как стать автором
Обновить
442.34

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Suno анонсировала новую версию нейросети для генерации музыки. Теперь модель машинного обучения может работать с готовыми звуковыми дорожками. К примеру, можно загрузить мелодию, сыгранную на фортепиано, и попросить переделать в звук в гитару или аккордеон. Кроме того, показали, как пользователь настучал бит, а нейросеть создала для него аккомпанемент и вокал.

Теги:
0
Комментарии0

Mistral представила нейросеть Codestral-22B, которая знает 80+ языков программирования. Codestral превосходит по производительности Llama-3, CodeLlama и даже GPT-4o, а также весит в три раза меньше.

Модель Codestral-22B умеет писать и рефакторить код, подсказывает наилучшие решения задач и даже паттерны проектирования. Её можно интегрировать в свои проекты с помощью API или просто использовать в VS Code. Нейросеть знает даже Fortran и COBOL.

Тест нейросети Codestral-22B доступен здесь или прямо в браузере.

Теги:
+8
Комментарии1

Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Решение оптимизировано для использования в диалоговых системах, таких как интерактивные помощники, и нацелено на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими людьми и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия.

При тренировке модели использовано около 40 тыс. часов речевых записей. По заявлению разработчиков, по своим возможностям формирования интонаций модель превосходит все ранее доступные открытые модели синтеза речи.

Для управления эмоциями при синтезе пока поддерживается только подстановка токенов, например, "[laugh]" для смеха. Для генерации полуминутной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Поддерживается синтез женским и мужским голосом на английском и китайском языках (для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке).

Модель ChatTTS опубликована под лицензией CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0) и имеет защиту от совершения мошеннических и криминальных действий.

Источник: OpenNET.

Теги:
+7
Комментарии0

Автор YouTube-канала Tamulur показал «обратный тест Тьюринга». Он представляет собой сцену, созданную в Unity, с несколькими ИИ-агентами, которые играют роль исторических личностей. Каждый агент управляется одной языковой моделью. Человек также играет за историческую личность.

По сюжету за проезд в поезде могут не платить только нейросети, поэтому агенты пытаются выяснить, кто из них человек. Агенты по кругу задают вопросы, задача человека — не выдать себя, отвечая на вопросы и задавая свои.

Теги:
+14
Комментарии0

Большой тщательно отобранный список  из более чем 50 учебников по машинному обучению

Список из более чем 50 учебников по машинному обучению, искусственному интеллекту, глубокому обучению, компьютерному зрению и т.д.  

Книги идут со ссылками для скачивания в PDF или в веб формате.

📚 BOOKS: https://franknielsen.github.io/Books/CuratedBookLists.html

А здесь можно найти огромный список бесплатных книг по программированию на различных языках, включая русский. 

Теги:
-1
Комментарии0

Дизайнерам на заметку. Разработчик подружил GPT-4o c Figma. Оцените мощь — модель генерирует детальные и оптимизированные интерфейсы с кучей слоёв и элементов, используя обычное ТЗ. Такого уровня нейронки добились впервые.

С этим плагином Figma будет дизайнить сама по себе — нужно лишь закинуть документ с описанием продукта и нужную библиотеку элементов.

Теги:
+4
Комментарии0

Глава стартапа xAI Илон Маск сообщил инвесторам о планах создания суперкомпьютера для новой версии чат-бота Grok, пишет Information. Бизнесмен заявил, что проект будет завершён к осени 2025 года.

Суперкомпьютер, называемый Маском «гигафабрикой вычислений», будет использовать десятки тысяч графических процессоров Nvidia H100. Для обучения Grok 2.0 применяют около 20 тыс. графических процессоров, а для новой итерации чат-бота потребуется в пять раз больше. Маск заверил инвесторов, что планируемый кластер графических процессоров будет минимум в четыре раза крупнее того объёма, который используют конкуренты xAI.

Сейчас Grok находится в версии 1.5, которая вышла в апреле. Разработчик указывает, что инструмент способен обрабатывать не только текст, но и визуальную информацию, включая фотографии, скриншоты, диаграммы и многое другое. В мае социальная сеть X начала выпускать сводки новостей, созданных при помощи ИИ на базе Grok, для премиальных пользователей.

Теги:
+6
Комментарии0

🔥 Ambient Diffusion — схема обучения ИИ-моделей на повреждённых данных

Исследователи из Техасского университета в Остине разработали инновационную схему обучения моделей на сильно поврежденных изображениях, метод получил название Ambient Diffusion. Для чего?

Последнее время то и дело возникают судебные иски — художники жалуются на незаконное использование их изображений. 

И Ambient Diffusion как раз позволяет ИИ-моделям не копировать изображения, а скажем «черпать вдохновение» из них.

В ходе исследования команда исследователей обучила модель Stable Diffusion XL на наборе данных из 3 000 изображений знаменитостей. Изначально было замечено, что модели, обученные на чистых данных, откровенно копируют учебные примеры. 

Однако когда обучающие данные были испорчены — случайным образом маскировалось до 90% пикселей, — модель все равно выдавала высококачественные уникальные изображения.

Возможности использования Ambient Diffusion выходят за рамки решения проблем с авторскими правами. По словам профессора Адама Кливанса, сотрудника проекта, «Ambient Diffusion может оказаться полезным и для научных и медицинских приложений.

Это касается практически любых исследований, где дорого или невозможно получить полный набор неповрежденных данных — от визуализации черных дыр до некоторых видов магнитно-резонансной томографии».

▶️ Подробнее

🟡 Arxiv

Еще больше интересного, кода, гайдов и моделей, для всех, кто любит машинное обучение можно найти в моем канале, welcome.

Теги:
+3
Комментарии0

⚡️ Вышла новая версия одного из лучших детектора объектов YOLOv10  

В YOLOv10  добавлена новая функция сквозного обнаружения объектов в реальном времени. Код выпущен под лицензией GNU GPL v3.0 

По сравнению с YOLOv9-C, YOLOv10-B имеет на 46% меньшую задержку и использует на 25% меньше параметров при той же производительности.

Github: https://github.com/THU-MIG/yolov10/

Статья: arxiv.org/pdf/2405.14458 

Demo:https://huggingface.co/spaces/kadirnar/Yolov10

Colab: https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-detection-on-custom-dataset.ipynb#scrollTo=SaKTSzSWnG7s

Начинаем тесты , как закончу опубликую результаты с своем канале, welcome.

Теги:
+1
Комментарии1

⚡️ Mistral-7B-v0.3 доступна на HuggingFace

 — pip install mistral_inference

Изменения в Mistral-7B-v0.3 по сравнению с предыдущими версиями:

 — Увеличен словарь до 32768 слов;

 — Добавлена поддержка более новой версии токенизатора v3;

 — Модель теперь поддерживает вызов функций;

 — Apache 2.0 лицензия.

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', '7B-v0.3')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Mistral-7B-v0.3", allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.model.v3"], local_dir=mistral_models_path)

А результатов бенчмарков нет. Видимо этот релиз больше про добавление возможности Function Calling, нежели улучшения общего перфоманса.

🤗 Hugging Face — Base Model

🤗 Hugging Face — Instruct Model

Если интересуетесь темой ИИ и нейросетей, здесь я разбираю и тестирую свежие модели, статьи и гайды, там куча полезной информации, заходите в гости,

Теги:
+4
Комментарии0

ИИ-помощник от Google предложил пользователю в ответ на запрос «сколько камней мне нужно есть?»‎ такой ответ: «по меньшей мере один маленький камень ежедневно»‎.

Ранее пользователь из США не смог приготовить пиццу так, чтобы сыр нормально
на ней держался. Gemini, встроенная в поиск Google, предложила ему
замешать в сыр клей для фиксации.

Теги:
+8
Комментарии1

ИИ-помощник от Google предложил пользователю поесть нетоксичного клея.

Пользователь из США не смог приготовить пиццу так, чтобы сыр нормально на ней держался. Gemini, встроенная в поиск Google, предложила ему замешать в сыр клей для фиксации.

Разгадка у казуса оказалась простая: нейросеть нашла ответ по этому запросу из поста какого-то тролля с Reddit 11-летней давности. Примечательно, что такие ИИ-ответы теперь идут в верху выдачи сервиса Google.

Теги:
+7
Комментарии3

В анализе видеопотока с помощью ИИ выделяют два подхода. Первый из них называется обработкой разреженного (sparse) видео. Он решает задачу предсказания одного результата по анализу видеофрагмента (массива кадров).

Второй подход решает задачу предсказания одного результата на кадр. Такую покадровую обработку называют анализом плотного (dense) видео. Модели ML для работы с плотным видео востребованы там, где требуется уловить кратковременные события и проанализировать быстрые изменения сцен.

❗️Существующие модели глубокого анализа видео (например, 3D CNNs) достигли впечатляющих результатов при обработке разреженного видео. Однако их адаптация к задачам плотного видео сопряжена с рядом проблем.

В частности, эти модели менее эффективны при работе с избыточными кадрами, с трудом улавливают временные корреляции на больших интервалах и неоправданно дороги в развёртывании.

Чтобы решить эти проблемы, коллектив исследователей из Белфаста (Ирландия) разработал TDViT — модель трансформера для обработки плотного видео с блоками временнóго расширения.

Эксперименты с наборами данных ImageNet VID и YouTube VIS показали, что TDViT эффективно извлекает пространственно-временны́е представления и ослабляет негативный эффект временнóй избыточности. Также иерархическая структура блоков позволяет моделировать динамику на больших временных интервалах.

Код TDViT открыт и доступен на GitHub

Теги:
+4
Комментарии0

Ближайшие события

Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
OTUS CONF: GameDev
Дата30 мая
Время19:00 – 20:30
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Mistral-7B-v0.3 доступна на HuggingFace

Изменения в Mistral-7B-v0.3 по сравнению с предыдущими версиями:

  • Увеличен словарь до 32768 слов;

  • Добавлена поддержка более новой версии токенизатора v3;

  • Модель теперь поддерживает вызов функций;

  • Apache 2.0 лицензия.

Hugging Face Base Model

Hugging Face Instruct Model

Теги:
+7
Комментарии0

Сервис «Сбера» GigaCode стал лучшим ИИ-сервисом по точности предсказывания кода разработки среди зарубежных аналогов. Тестирование проводилось на большом количестве файлов с кодом, сообщила пресс-служба «Сбера».

«Эксперты „Сбера“ провели обширное тестирование различных ИИ‑ассистентов разработчика на более чем 17 тыс. файлов с кодом, в ходе которого сервисам предлагалось продолжить фрагмент исходного кода, и производился замер того, насколько точно предсказывается его следующая строка. Результаты показали, что по интегральной доле верно предсказанного кода на языке Java сервис GigaCode показал результат на 2% лучше, чем GitHub Copilot, и на 3% и 6,5% лучше, чем Codeium и TabNine», — рассказал старший вице‑президент, руководитель блока «Технологическое развитие» «Сбера» Андрей Белевцев.

В процессе тестирования исследователями замерялась доля кода, предсказанного ИИ-ассистентами, при этом учитывались не только случаи полного совпадения строки, а также и случаи, в которых была удачно предсказана часть, принимались во внимание также частота и стабильность выдачи подсказок.

Сервис GigaCode помогает в режиме реального времени по фрагменту кода сгенерировать наиболее вероятные его продолжения непосредственно в среде
разработки. Решение поддерживает более 15 языков программирования (Java, Python, JavaScript, TypeScript, C/C++ и другие), а также совместимо со множеством редакторов и интегрированных сред (IDEA, PyCharm, VSCode, Jupyter и другие).

Теги:
+3
Комментарии2

Привет! Меня зовут Ильдар Ломов. Расскажу, чем занимаются ML-инженеры в Островке. Знаю об этом всё, я сам руководитель команды Data Science.

Сейчас портфель ML-проектов Островка —12 штук в нескольких направлениях: от продуктового ML (ранжирование, рекомендации), до больших языковых моделей

Состав команды стандартный: ML-инженер, бизнес-аналитик, проджект, продакт. Опционально тимлиды и разработчики.

Работа ML-инженера в Островке — посередине между стартапом с его моделью в jupyter-ноутбуке и корпорацией, где работа с сотнями моделей упорядочена, стандартизирована, вшита в интерфейсы. Можно поработать над серьезным проектом гибко с разнообразием инструментов.

Идеал — проактивный человек, который протащит проект от исследования до прода и покрытия метриками. Важно понимать все этапы проекта, иметь усиленный скилл хотя бы на одном из них, с остальным поможет команда.

Нужно уметь покрывать метриками, следить за проектом на проде, чтобы тот не потерял смысл из-за нестыковок в ТЗ. И работал так, как задумано

 Частые итерации, проверки гипотез и новых технологий дают нашему ML-инженеру больший кругозор в сравнении с крупными компаниями. Специалист растет с технической и бизнесовой сторон. 

Работа оценивается с точки зрения влияния на бизнес, инженер видит, как проекты прямо и понятно воздействуют на бизнес-метрики. 

Это то, что мы всегда хотим видеть в кандидатах, но на рынке такого не много. Чем виднее на собеседованиях, что человек понимает бизнес-сторону, тем больше он нам подходит.

Теги:
+5
Комментарии0

⚡️ SELF-DISCOVER — система для улучшения способности LLM рассуждать

Исследователи из Google DeepMind и Университета Южной Калифорнии представили революционный подход к повышению способности к рассуждению больших языковых моделей (LLM). Их новая система «SELF-DISCOVER», презентованная на этой неделе на arXiV и Hugging Face, обещает существенные улучшения в решении сложных задач рассуждениий, потенциально революционизируя производительность ведущих моделей, таких как GPT-4 от OpenAI и PaLM 2.

Система демонстрирует повышение производительности до 32% по сравнению с традиционными методами, такими как цепочка мыслей (CoT). Этот подход основан на том, что LLM самостоятельно раскрывают внутренние структуры рассуждений, присущие задачам, для решения сложных проблем, например таких, как критическое мышление или пошаговый анализ.

Имитируя человеческие стратегии решения проблем, эта система работает в два этапа. Первый этап включает в себя составление связной структуры рассуждений, свойственной задаче, с использованием набора атомарных модулей рассуждения и примеров задач. На втором этапе – во время декодирования, LLM следуют этой самообнаруженной структуре, чтобы прийти к окончательному решению.

В обширном тестировании различных задач на рассуждение, включая Big-Bench Hard, Thinking for Action и Math, предложенный подход неизменно превосходил традиционные методы.

Если интересуетесь темой МЛ и нейросетей, здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.

Теги:
+2
Комментарии0

ML против токсичности, чат‑бот «пИИрожок» — и ещё более 10 кейсов внедрения технологий машинного обучения на конференции ML2Business.

29 мая в 14:00 приглашаем на ML2Business — первую конференцию от Yandex Cloud, посвящённую кейсам применения GenAI, NLP, CV и других технологий ML.

Мы поговорим о сложностях внедрения моделей машинного обучения и способах интеграции ML в процессы компаний, а также об оценке реальной пользы для бизнеса. Будет интересно и полезно как ИТ‑руководителям, так и ML‑экспертам — присоединяйтесь к нам в пространстве LOFT#2 в Москве или подключайтесь онлайн.

В программе

  • как YandexGPT меняет привычные процессы работы колл‑центра;

  • зачем внедрять нейросети для категоризации запросов в техподдержку;

  • как улучшить качество сервиса для знакомств благодаря модерации контента с помощью ML‑технологий;

  • что умеют современные виртуальные рекрутёры с функцией RPA;

  • как чат‑боты помогают покупателям подбирать товары на основании их предпочтений;

  • как улучшить поиск информации по внутренней «википедии» с помощью ассистента на базе YandexGPT API и Yandex DataSphere;

    и ещё несколько практических примеров от компаний из разных отраслей.

Участники также могут поучаствовать в нетворкинге и тестировании ML‑сервисов в реальных бизнес‑сценариях на интерактивных площадках.

Участие бесплатное, количество мест ограничено. Регистрация открыта на сайте конференции.

Теги:
+9
Комментарии0

Google сообщила разработчикам, что начинает взимать плату за использование Gemini API. С 30 мая 2024 года платным становится доступ к Gemini 1.5 Pro, с 14 мая плата будет взиматься за использование Gemini 1.0 Pro.

Вместе с этим компания ещё раз напомнила про более доступный тариф Gemini 1.5 Pro. В рассылке для разработчиков подчёркивается, что платным становится только доступ к языковой модели через API, в Google AI Studio с нейросетями можно будет работать бесплатно.

Теги:
+4
Комментарии0

Очень подробный гайд по созданию лучшей открытой модели LLaMa-3 с нуля!

Крутой репозиторий, в котором реализована llama 3 с нуля  — подготовка данных и токенизация,умножение матриц с помощью multiple heads, позиционное кодирование (способ кодирования позиции слова внутри эмбеддинга), реализация механизма внимания и все остальное, здесь тщательно описано и объяснено.

Однозначный мастхэв и отличный репо для обучения, 3 к звезд за сутки⭐.

Если интересуетесь темой ИИ и нейросетей,  здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.

#технологии

#chatgpt #ai #искусственныйинтеллект

Теги:
+2
Комментарии0
1
23 ...

Вклад авторов

Работа

Data Scientist
78 вакансий