Как стать автором
Обновить

Компания НТР временно не ведёт блог на Хабре

Сначала показывать

Как LLM учат понимать синтаксис

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.6K

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?). 

Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей. При всей небезошибочности первого и при всех невероятных успехах последних. Например, человеку обычно не составляет труда однозначно трактовать двусмысленные фразы исходя из контекста. Более того, мы с удовольствием используем такие каламбуры в шутках разного качества. Из самого известного приходит на ум только “В Кремле голубые не только ели, но и пили” (предложите свои варианты в комментариях — будет интересно почитать). Есть ещё “казнить нельзя помиловать”, но эта двусмысленность разрешается запятой.

Самый известный пример в английском:  “Time flies like an arrow; Fruit flies like a banana”. 

Человек скорее всего после некоторых раздумий поймёт это как “Время летит как стрела, мухи любят банан” (хотя мне, например, понадобилось на это несколько секунд).  Яндекс переводчик понимает эту фразу так:  “Время летит как стрела, фрукты разлетаются как бананы”. Google translator демонстрирует зоологическую эрудированность: “Время летит как стрела; Фруктовые мушки, как банан”, а ChatGPT предлагает “Время летит как стрела; Мухи на фруктах летают как бананы”. В общем, никто не справился. 

Читать далее
Всего голосов 8: ↑8 и ↓0+11
Комментарии2

N-граммная языковая модель в эпоху LLM — как устроена и зачем нужна

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.4K

Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса. 

На N-граммы, пожалуй, действительно давно никто не обращал внимания. Техники масштабирования, выведшие трансформеры на заоблачные высоты, к ним не применяли. Но авторы статьи Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens обучили N-граммную модель на 1,4 триллиона токенов — это самая гигантская модель такой архитектуры. Она занимает 10 тебибайт, зато ей нужно всего 20 миллисекунд, чтобы подсчитать n-граммы, вне зависимости от того чему равно n. Самое интересное — возможные значения n. 

Читать далее
Всего голосов 6: ↑6 и ↓0+7
Комментарии1

LOCOST и SPECTRUM, два подхода к суммаризации

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров556

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Как устроен RAPTOR — новый подход для RAG, который понимает контекст сразу всей книги

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.1K

Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь. 

Примерно для этого в 2020 году предложили RAG (retrieval-augmented generation) методы. Есть и другая мотивация для RAG — после обучения LLM на большой базе данных возникает вопрос, что делать с обновлением этой самой базы. Дообучение — не беспроигрышный вариант, так как это не всегда удобно для гигантских объемов данных. В базовом подходе RAG база знаний нарезается на небольшие куски текста, chunks, в 100-1000 слов, которые в виде эмбеддингов хранятся, как правило, в векторной БД, пока не понадобятся. Запросы пользователя дополняются найденными чанками в качестве контекста и выглядят для модели как один большой запрос. 

Так вот, большинство существующих RAG методов способны переварить только небольшое количество достаточно коротких и последовательных чанков. Это ограничивает возможность оперировать крупномасштабным контекстом. Возвращаясь к уроку литературы, если перед тем, как выдать ответ, прочитать несколько последовательных строф романа, этого явно будет недостаточно.  Недавно вышедшая Стэнфордская статья RAPTOR: Recursive Abstractive Processing for Tree-organized Retrieval призвана решить эту проблему. Основная идея заключается в том, чтобы обобщать отдельные куски большого материала, затем обобщать обобщения и так дальше.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии2

Что такое task contamination и почему one-shot и zero-shot заподозрили в нечестности

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров614

Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Весь мир — это модель, а LLM в нём — бэкенд

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров4.6K

Весь мир — это модель, а LLM в нём — бэкенд

На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун. 

Как сделать, чтобы машины обучались настолько же эффективно, как люди или животные? Как машины могут обучиться репрезентациям и планировать действия на нескольких уровнях абстракции? Для этого, по мнению Лекуна, машине нужна такая же внутренняя модель мира, которая есть у животных. Когда в 2022 году он высказался о своем дальнейшем видении AI, вопросов было больше чем ответов. С тех пор концепция world model постепенно вошла в оборот, хотя до сих пор не совсем понятно, что же имеется в виду (совсем недавно Лекун дал что-то вроде формального определения модели мира — скрины ниже)  Но тем не менее, что-то, что называют world model появляется.

Читать далее
Всего голосов 7: ↑5 и ↓2+6
Комментарии2

Как графы знаний и LLM могут друг другу помочь

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4K

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат. 

Читать далее
Всего голосов 15: ↑15 и ↓0+15
Комментарии3

Диффузионные текстовые модели — между двух миров

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.1K

Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где‑то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

«Надо включать мозги, руки в ноги и что-то делать» — интервью с Мариной Аншиной об IT в индустрии в 2024

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров17K

В конце прошлого года мы поговорили с цифровыми директорами и лидерами IT-индустрии для нашего тг-канала об IT в индустрии Цифровой директор. Нас интересовали надежды (и опасения) коллег на 2024 год в IT. Из-за чего в России страдает ввод в эксплуатацию решений, почему мода на технологии — это не всегда хорошо, и зачем айтишникам своя “клятва Гиппократа” — читайте в интервью с Мариной Аншиной, председателем Правления Российского Союза ИТ-директоров, президентом фонда ФОСТАС.

Читать далее
Всего голосов 20: ↑3 и ↓17-13
Комментарии8

Выбор данных, малые языковые модели и причём здесь Шмидхубер

Время на прочтение4 мин
Количество просмотров1.8K

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.  

Возможно, тут стоит вспомнить теорию Шмидхубера, который, как известно,  всё придумал

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Цифровой клон свиньи — как фермы становятся умнее

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров1.2K

Отслеживать состояние скота на фермах с помощью дистанционных методов становится мировой нормой. Или, по крайней мере, трендом.

В Южно-китайском сельскохозяйственном университете, например, научились определять вес свиней по камерам, установленным в коридоре перед убойным цехом. Модель компьютерного зрения определяет отдельных особей и оценивает вес по снимкам сверху. Главное, что всё это происходит не в закрытом загоне, а в движении — за 0,34 секунды.

Читать далее
Всего голосов 7: ↑4 и ↓3+3
Комментарии2

Нео-РНН или Make RNNs great again

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров823

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других. 

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.3K

Накатившая волна LLM с правилом “чем больше, тем лучше” уже вызывала естественный запрос — хочется повысить эффективность не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше хитрых подходов, которые делают ставку не на размер. Мы разберем некоторые из них.

Читать далее
Всего голосов 7: ↑6 и ↓1+8
Комментарии0

Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.3K

Накатившая волна LLM с правилом “чем больше, тем лучше” уже вызывала естественный запрос — хочется повысить эффективность не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше хитрых подходов, которые делают ставку не на размер. Мы разберем некоторые из них.

Читать далее
Всего голосов 7: ↑6 и ↓1+8
Комментарии0