Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

slivka_83 29 апр в 18:34

Подбор гиперпараметров RAG-системы с помощью Optuna

Средний

16 мин

1.6K

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

Motoroller_love 28 апр в 17:15

LLM Leaderboard за апрель 2024

Простой

2 мин

3.5K

Open source*Python*Машинное обучение*Natural Language Processing*

Обзор

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

SergeyBPshenichnikov 27 апр в 10:21

Вербальные вычисления (VC) в доказательных DSS и NLP

Средний

13 мин

645

Семантика*Математика*Искусственный интеллектNatural Language Processing*

FAQ

С.Б. Пшеничников

В статье изложен новый математический аппарат вербальных вычислений в NLP (обработке естественного языка). Слова погружаются не в действительное векторное пространство, а в алгебру предельно разреженных матричных единиц. Вычисления становятся доказательными и прозрачными. На примере показаны развилки в вычислениях, которые остаются незамеченными при использовании традиционных подходов, а результат при этом может быть неожиданным.

Использование IT в обработке естественного языка (Natural Language Processing, NLP) требует стандартизации текстов, например, токенизации или лемматизации. После этого можно пробовать применять математику, поскольку она является высшей формой стандартизации и превращает исследуемые объекты в идеальные, например, таблицы данных в матрицы элементов. Только на языке матриц можно искать общие закономерности данных (чисел и текстов).

Если текст превращается в числа, то в NLP это сначала натуральные числа для нумерации слов, которые затем погружаются в действительное векторное пространство.

Возможно, следует не торопиться это делать, а придумать новый вид чисел более пригодный для NLP, чем числа для исследования физических явлений. Такими являются матричные гипербинарные числа. Гипербинарные числа - один из видов гиперкомплексных чисел.

Для гипербинарных чисел существует своя арифметика и если к ней привыкнуть, то она покажется привычнее и проще пифагорейской арифметики.

В системах поддержки принятия решений (DSS) текстами являются оценочные суждения и пронумерованная шкала вербальных оценок. Далее (как и в NLP) номера превращаются в векторы действительных чисел и используются как наборы коэффициентов средних арифметических взвешенных.

phillennium 26 апр в 14:04

Про ML по-серьёзному: что расскажут в докладах на I'ML

7 мин

1.4K

Блог компании JUG Ru GroupМашинное обучение*КонференцииИскусственный интеллектNatural Language Processing*

Слова «доклад про AI/ML» могут звучать словно очередной рассказ про будущее, где вкалывают роботы, а не человек. Такое мы все уже слышали сто раз.

Но на нашей онлайн-конференции I'ML всё будет иначе:
— Она рассчитана на тех, кто лично использует ML в проектах.
— Она не о далёком будущем, а о вопросах, актуальных уже здесь и сейчас.
— Она не об абстрактном («было бы здорово…»), а о конкретном: «как бороться с ML-галлюцинациями», «как рекомендовать размер одежды с помощью ML».
— Она не о том, как «нейросети отберут работу», а наоборот: о ML-работе, которую нейросети нам дали.

В общем, она не для желающих просто пофантазировать, а для специалистов, желающих эффективно работать.

А что именно там будет? До конференции остался месяц, и мы представляем Хабру её программу:

efreelancer 26 апр в 10:00

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

Средний

11 мин

2.2K

Python*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Приветствую, хабровчане!

Сегодня пятница, поэтому предлагаю немного пошалить и поговорить о слегка необычном, но весьма забавном проекте обучения нейросетевой модели на базе LLaMA2 7B, которая умеет превращать невинные предложения на русском языке в чуть более "токсичные" их версии.

Но обучать модель мы будем не абы как, а при помощи недавно вышедшего в свет проекта под названием TorchTune, так как надо ведь пробовать новые инструменты, иными словами, предлагаю соединить тему интересную с темой полезной.

Так что пристегнитесь, будет весело и слегка токсично!

+10

badcasedaily1 19 апр в 21:05

Пять лучших NLP инструментов для работы с русским языком на Python

Простой

5 мин

6.3K

Блог компании OTUSПрограммирование*Машинное обучение*Natural Language Processing*

Обзор

В этой статье рассмотрим пять лучших библиотек Python, предназначенных специально для работы с русским языком в контексте NLP. От базовых задач, таких как токенизация и морфологический анализ, до сложных задач обработки и понимания естественного языка.

+13

murat_apishev 19 апр в 16:57

Как учить большие языковые модели (теоретический туториал)

Средний

1 мин

5.3K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается.

Смотреть

dt_sicutglacies 19 апр в 12:21

Как общаться с базой знаний на естественном языке с помощью LLM и объективно оценить работу полученной системы

Простой

11 мин

3.5K

Блог компании DoubletappМашинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Привет, Хабр! Меня зовут Даниил, работаю в ML-отделе Doubletapp. В статье расскажу про особенности применения больших языковых моделей для оптимизации бизнес-процессов.

Большая языковая модель (LLM) — это тип языковой модели, который способен распознавать и генерировать осмысленные тексты, а также другие сложные типы данных (например, код). Такого рода модели обучаются на огромных массивах данных, чаще всего собранных из открытых источников.

Тем не менее LLM все еще имеют ряд проблем, одной из которых является галлюцинирование (придумывание фактов). Сложно винить модель за то, что она не знает, как устроен тот или иной процесс/продукт в вашей компании, и пытается придумать вразумительный ответ. Поэтому нужно подсказать LLM фактическую информацию, а она уже даст нам понятную человеку персонализированную реплику.

Такая система ответов на вопросы с использованием фактической информации называется RAG (Retrieval Augmented Generation).

Данная статья состоит из двух частей:

• мы рассмотрим построение RAG-системы на основе библиотеки langchain;

• объективно оценим работоспособность созданной системы, используя синтетические данные на русском языке с помощью фреймворка RAGAs.

+11

ArchitectSimbirSoft 19 апр в 11:09

«Ревизорро» в IT: тестируем суммаризацию текста в GigaChat и YandexGPT

Простой

7 мин

1.5K

Блог компании SimbirSoftИскусственный интеллектNatural Language Processing*

Мнение

После появления на рынке API для беседы с ChatGPT 3.5 каждый второй заказчик решения на основе машинного обучения (ML) хочет внедрить у себя ИИ, который может красиво и содержательно общаться на русском языке.

Меня зовут Екатерина, я IT-архитектор команды SimbirSoft, специалист по ML и поклонница всего, что связано с обработкой текстов на естественном языке (NLP). Сегодня будем разбираться в тонкостях решения одной из популярных на рынке задач – автоматического составления аннотаций. Для эксперимента мы использовали две GPT-подобных модели, «заточенных» на русский язык: GigaChat и YandexGPT. Заявленный потенциал систем тестировали на текстах трёх жанров: научном, научно-популярном и художественном. Что из этого получилось, расскажем в статье.

Материал будет полезен тем, кто следит за тенденциями развития машинного обучения на рынке и в целом интересуется внедрением больших языковых моделей (LLM) в ML-проектах – для оценки их возможностей «из коробки».

skillfactory_school 17 апр в 18:17

Как избирательное забывание помогает в обучении ИИ

Средний

4 мин

Блог компании SkillfactoryМашинное обучение*Natural Language Processing*

Обзор

Перевод

Удаление определенной информации в процессе обучения помогает моделям машинного обучения быстрее и лучше осваивать новые языки.

Группа ученых в области компьютерных наук придумала более гибкую модель машинного обучения. В чем особенность: модель должна периодически забывать кое-что из того, что знает. Новый подход не заменит огромные модели, но зато, возможно, подскажет нам, как именно они понимают естественный язык.

makeross 16 апр в 01:11

Векторные БД vs Точность — часть 1

Простой

6 мин

2.4K

Искусственный интеллектNatural Language Processing*

Кейс

Как я пытался собрать "по-быстрому" локальный RAG(retrieval augmentation generation), который будет находить термины из словаря Ожегова. На просторах интернетах все просто. Но на практике для моей задачи это оказалось не так. Точность...

Sivchenko_translate 15 апр в 17:34

На пути к 1-разрядным моделям машинного обучения

8 мин

Программирование*Математика*Машинное обучение*Natural Language Processing*

Перевод

В последнее время активно разрабатываются технологии экстремально малоразрядного квантования, например, BitNet и 1.58 bit. Они пользуются большим интересом в сообществе машинного обучения. Основная идея данного подхода заключается в том, что перемножение матриц с квантованными весами можно реализовать и умножения, что потенциально полностью меняет правила игры применительно к скорости вычислений и эффективности больших моделей машинного обучения.

Эта статья написана в схожем ключе, но нас наиболее интересует, возможно ли напрямую квантовать предобученные модели при экстремальных настройках, в том числе, при двоичных весах (0 и 1). Уже имеющиеся работы нацелены на обучение моделей с нуля. Но в открытом доступе сейчас достаточно много отличных предобученных моделей, таких как Llama2. Более того, обучение с нуля — это ресурсозатратная задача в пересчёте как на вычисления, так и на данные, поэтому такие подходы не слишком доступны в свободном сообществе.

В этой статье мы подробно разберём крайне малоразрядное (2 и 1-разрядное) квантование предобученных моделей с применением HQQ+. HQQ+ — это адаптация HQQ (полуквадратичного квантования), в которой для повышения производительности используется адаптер с низкой размерностью. Наши результаты показывают, что при обучении лишь небольшой части весов в верхней части HQQ-квантованной модели (даже одноразрядной) качество вывода значительно возрастает, такая модель может даже превосходить небольшие модели полной точности.

Модели находятся на Hugging Face: 1-разрядная, 2-разрядная.

+19

VokaMut 15 апр в 16:32

Тестируем AI на создании прикладного приложения

Средний

11 мин

1.6K

Веб-разработка*Искусственный интеллектNatural Language Processing*

Кейс

Всем привет, я Григорий Тумаков, CTO в Моризо Диджитал.

Недавно рассказал на Хабре, как мы в компании “потрогали” нейросети для прикладных задач разработки. Но там никаких серьезных выводов сделать не удалось.

Поэтому решил на этом не останавливаться. Если есть инструменты — их надо протестировать на какой-то реальной задаче.

Далее в статье наш опыт сравнения для прикладной задачи трех AI-инструментов: Phind, ChatGPT, Machinet.

+10

rmilovanov 12 апр в 08:01

Как мы тестировали большие языковые модели для модерации отзывов

10 мин

2.1K

Блог компании Magnit TechМашинное обучение*Искусственный интеллектNatural Language Processing*

Кейс

В приложении «Магнит: акции и доставка» можно оставлять отзывы на товары. Отзывы модерируются: мы публикуем те, которые считаем полезными для других покупателей, — они должны описывать потребительские свойства товара. Отклоняем все остальные: как правило, это жалобы на ценники, сервис в магазине, условия хранения либо просто нерелевантные тексты. Отзывы с жалобами обрабатывают службы поддержки и сервиса.

Рассказываем о том, как мы попробовали применять большие языковые модели, чтобы автоматизировать модерацию отзывов.

ph_piter 11 апр в 16:56

Книга «Разработка приложений на базе GPT-4 и ChatGPT»

11 мин

11K

Блог компании Издательский дом «Питер»Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Привет, Хаброжители!

Эта небольшая книга представляет собой подробное руководство для разработчиков на Python, желающих научиться создавать приложения с использованием больших языковых моделей. Авторы расскажут об основных возможностях и преимуществах GPT-4 и ChatGPT, а также принципах их работы. Здесь же вы найдете пошаговые инструкции по разработке приложений с использованием библиотеки поддержки GPT-4 и ChatGPT для Python, в том числе инструментов для генерирования текста, отправки вопросов и получения ответов и обобщения контента.

«Разработка приложений на базе GPT-4 и ChatGPT» содержит множество легковоспроизводимых примеров, которые помогут освоить особенности применения моделей в своих проектах. Все примеры кода на Python доступны в репозитории GitHub. Решили использовать возможности LLM в своих приложениях? Тогда вы выбрали правильную книгу.

Читать дальше →

NikitaMartynov 11 апр в 11:02

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Средний

15 мин

1.3K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

В октябре прошлого года мы выпустили SAGE — библиотеку для генеративной коррекции орфографии, которая включает в себя семейство предобученных трансформерных моделей, хаб с параллельными вручную размеченными датасетами и два алгоритма текстовой аугментации на основе намеренного искажения правописания.

С момента прошлого релиза мы улучшили качество наших моделей более чем на 10%, добавили правку знаков пунктуации и регистра, провели эксперименты по сжатию и ускорению полученных решений, добавили разметку пунктуации в датасеты и новые метрики в библиотеку, а нашу статью взяли на EACL 2024 в Мальте.

+18

snakers4 11 апр в 06:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

2.4K

Big Data*Открытые данные*Машинное обучение*ЗвукNatural Language Processing*

Обзор

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

+18

kuznetsoff87 10 апр в 12:12

OmniFusion 1.1: мультимодальность теперь и на русском

Сложный

7 мин

7.6K

Блог компании AIRIАлгоритмы*Обработка изображений*Искусственный интеллектNatural Language Processing*

В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам. Спустя несколько месяцев мы готовы представить обновление — OmniFusion 1.1 — SoTA на ряде бенчмарков (среди моделей схожего размера) и, более того, модель хорошо справляется со сложными задачами и понимает русский язык! Самое главное — всё выкладываем в открытый доступ: веса и даже код обучения.

Ниже расскажем об особенностях модели, процессе обучения и примерах использования. В первую очередь остановимся на архитектуре, а потом отдельно расскажем о проделанных экспериментах как в части архитектурных трюков, так и о работе с данными. Ну а несколько интересных кейсов на англ и русском языках можно посмотреть на палитре ниже.

+20

janvarev 8 апр в 11:01

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

Средний

10 мин

17K

Блог компании Timeweb CloudИскусственный интеллектNatural Language Processing*

Туториал

Несмотря на то, что сейчас ~~из каждого утюга~~ рекламируется доступ к ChatGPT и GPT-4, вообще говоря, в мире существует несколько больше разных поставщиков LLM (больших языковых моделей), и некоторые из которых могут гораааздо более эффективнее решать какие-то конкретные задачи.

Я уже полгода веду проект VseGPT.ru с доступом к разным LLM из России по OpenAI API (ну, и через вебчат). Львиная доля работы — подключение новых нейросетей. Сейчас их уже свыше 60, и каждую я попробовал хотя бы раз, ну, когда подключал.

Правда, сайт LLMExplorer, собирающий данные об опенсорс нейросетях с портала Hugging Face, говорит, что их там уже более 33 000 штук. М-да.

В общем, вероятно, я не знаю о текстовых сетках всё, но определенно знаю кое-что — хотя бы в пределах своего скромного опыта в 60 сеток. Так что кому интересно — прошу под кат.

Читать дальше →

+31

Nevergreenin 5 апр в 11:31

Превращаем голосовое сообщение в структурированную заметку

Простой

2 мин

1.7K

Мессенджеры*Python*Natural Language Processing*Голосовые интерфейсы*

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

-6

2 3 ...

35 36

Natural Language Processing *

Подбор гиперпараметров RAG-системы с помощью Optuna

Новости

LLM Leaderboard за апрель 2024

Вербальные вычисления (VC) в доказательных DSS и NLP

Про ML по-серьёзному: что расскажут в докладах на I'ML

Истории

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

Пять лучших NLP инструментов для работы с русским языком на Python

Как учить большие языковые модели (теоретический туториал)

Как общаться с базой знаний на естественном языке с помощью LLM и объективно оценить работу полученной системы

«Ревизорро» в IT: тестируем суммаризацию текста в GigaChat и YandexGPT

Как избирательное забывание помогает в обучении ИИ

Векторные БД vs Точность — часть 1

На пути к 1-разрядным моделям машинного обучения

Тестируем AI на создании прикладного приложения

Ближайшие события

Как мы тестировали большие языковые модели для модерации отзывов

Книга «Разработка приложений на базе GPT-4 и ChatGPT»

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

OmniFusion 1.1: мультимодальность теперь и на русском

GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

Превращаем голосовое сообщение в структурированную заметку

Вклад авторов