НТР, Москва - Разработка и внедрение отечественного ПО / Статьи / Хабр

Компания НТР временно не ведёт блог на Хабре

Статьи 14Посты

derunat 3 мая в 16:17

Как LLM учат понимать синтаксис

Средний

4 мин

2.6K

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).

Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей. При всей небезошибочности первого и при всех невероятных успехах последних. Например, человеку обычно не составляет труда однозначно трактовать двусмысленные фразы исходя из контекста. Более того, мы с удовольствием используем такие каламбуры в шутках разного качества. Из самого известного приходит на ум только “В Кремле голубые не только ели, но и пили” (предложите свои варианты в комментариях — будет интересно почитать). Есть ещё “казнить нельзя помиловать”, но эта двусмысленность разрешается запятой.

Самый известный пример в английском: “Time flies like an arrow; Fruit flies like a banana”.

Человек скорее всего после некоторых раздумий поймёт это как “Время летит как стрела, мухи любят банан” (хотя мне, например, понадобилось на это несколько секунд). Яндекс переводчик понимает эту фразу так: “Время летит как стрела, фрукты разлетаются как бананы”. Google translator демонстрирует зоологическую эрудированность: “Время летит как стрела; Фруктовые мушки, как банан”, а ChatGPT предлагает “Время летит как стрела; Мухи на фруктах летают как бананы”. В общем, никто не справился.

+11

derunat 23 апр в 11:44

N-граммная языковая модель в эпоху LLM — как устроена и зачем нужна

Средний

3 мин

1.4K

Блог компании НТР

Обзор

Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.

На N-граммы, пожалуй, действительно давно никто не обращал внимания. Техники масштабирования, выведшие трансформеры на заоблачные высоты, к ним не применяли. Но авторы статьи Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens обучили N-граммную модель на 1,4 триллиона токенов — это самая гигантская модель такой архитектуры. Она занимает 10 тебибайт, зато ей нужно всего 20 миллисекунд, чтобы подсчитать n-граммы, вне зависимости от того чему равно n. Самое интересное — возможные значения n.

derunat 12 апр в 13:31

LOCOST и SPECTRUM, два подхода к суммаризации

Средний

4 мин

556

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

derunat 9 апр в 12:14

Как устроен RAPTOR — новый подход для RAG, который понимает контекст сразу всей книги

Средний

4 мин

1.1K

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.

Примерно для этого в 2020 году предложили RAG (retrieval-augmented generation) методы. Есть и другая мотивация для RAG — после обучения LLM на большой базе данных возникает вопрос, что делать с обновлением этой самой базы. Дообучение — не беспроигрышный вариант, так как это не всегда удобно для гигантских объемов данных. В базовом подходе RAG база знаний нарезается на небольшие куски текста, chunks, в 100-1000 слов, которые в виде эмбеддингов хранятся, как правило, в векторной БД, пока не понадобятся. Запросы пользователя дополняются найденными чанками в качестве контекста и выглядят для модели как один большой запрос.

Так вот, большинство существующих RAG методов способны переварить только небольшое количество достаточно коротких и последовательных чанков. Это ограничивает возможность оперировать крупномасштабным контекстом. Возвращаясь к уроку литературы, если перед тем, как выдать ответ, прочитать несколько последовательных строф романа, этого явно будет недостаточно. Недавно вышедшая Стэнфордская статья RAPTOR: Recursive Abstractive Processing for Tree-organized Retrieval призвана решить эту проблему. Основная идея заключается в том, чтобы обобщать отдельные куски большого материала, затем обобщать обобщения и так дальше.

derunat 2 апр в 15:09

Что такое task contamination и почему one-shot и zero-shot заподозрили в нечестности

Средний

3 мин

614

Блог компании НТРМашинное обучение*Искусственный интеллект

Recovery Mode

Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

derunat 25 мар в 12:52

Весь мир — это модель, а LLM в нём — бэкенд

Сложный

4 мин

4.6K

Блог компании НТРМашинное обучение*

Обзор

Весь мир — это модель, а LLM в нём — бэкенд

На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун.

Как сделать, чтобы машины обучались настолько же эффективно, как люди или животные? Как машины могут обучиться репрезентациям и планировать действия на нескольких уровнях абстракции? Для этого, по мнению Лекуна, машине нужна такая же внутренняя модель мира, которая есть у животных. Когда в 2022 году он высказался о своем дальнейшем видении AI, вопросов было больше чем ответов. С тех пор концепция world model постепенно вошла в оборот, хотя до сих пор не совсем понятно, что же имеется в виду (совсем недавно Лекун дал что-то вроде формального определения модели мира — скрины ниже) Но тем не менее, что-то, что называют world model появляется.

derunat 20 мар в 15:57

Как графы знаний и LLM могут друг другу помочь

Средний

4 мин

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

Recovery Mode

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

+15

derunat 13 мар в 15:05

Диффузионные текстовые модели — между двух миров

Средний

3 мин

2.1K

Блог компании НТРИскусственный интеллект

Обзор

Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где‑то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

derunat 12 мар в 17:08

«Надо включать мозги, руки в ноги и что-то делать» — интервью с Мариной Аншиной об IT в индустрии в 2024

Простой

6 мин

17K

Блог компании НТР

Интервью

В конце прошлого года мы поговорили с цифровыми директорами и лидерами IT-индустрии для нашего тг-канала об IT в индустрии Цифровой директор. Нас интересовали надежды (и опасения) коллег на 2024 год в IT. Из-за чего в России страдает ввод в эксплуатацию решений, почему мода на технологии — это не всегда хорошо, и зачем айтишникам своя “клятва Гиппократа” — читайте в интервью с Мариной Аншиной, председателем Правления Российского Союза ИТ-директоров, президентом фонда ФОСТАС.

-13

derunat 7 мар в 13:46

Выбор данных, малые языковые модели и причём здесь Шмидхубер

4 мин

1.8K

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

Возможно, тут стоит вспомнить теорию Шмидхубера, который, как известно, всё придумал.

derunat 4 мар в 14:50

Цифровой клон свиньи — как фермы становятся умнее

Простой

1 мин

1.2K

Блог компании НТР

Кейс

Отслеживать состояние скота на фермах с помощью дистанционных методов становится мировой нормой. Или, по крайней мере, трендом.

В Южно-китайском сельскохозяйственном университете, например, научились определять вес свиней по камерам, установленным в коридоре перед убойным цехом. Модель компьютерного зрения определяет отдельных особей и оценивает вес по снимкам сверху. Главное, что всё это происходит не в закрытом загоне, а в движении — за 0,34 секунды.

derunat 26 фев в 11:10

Нео-РНН или Make RNNs great again

Средний

3 мин

823

Блог компании НТРМашинное обучение*Искусственный интеллект

Обзор

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

derunat 16 фев в 17:43

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Средний

5 мин

2.3K

Блог компании НТРИскусственный интеллект

Обзор

Накатившая волна LLM с правилом “чем больше, тем лучше” уже вызывала естественный запрос — хочется повысить эффективность не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше хитрых подходов, которые делают ставку не на размер. Мы разберем некоторые из них.

derunat 16 фев в 17:43

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Средний

5 мин

2.3K

Блог компании НТРИскусственный интеллект

Обзор