Как стать автором
Обновить
9.07

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Количество просмотров6.6K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее
Всего голосов 10: ↑3 и ↓7-4
Комментарии17

Новости

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Количество просмотров6.8K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее
Всего голосов 18: ↑19 и ↓-1+20
Комментарии24

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.7K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее
Всего голосов 6: ↑0 и ↓6-6
Комментарии3

Как правильно написать скрипт для виртуального ассистента

Время на прочтение6 мин
Количество просмотров1.3K

Здравствуйте! Меня зовут Михаил Абрамов, я работаю техническим писателем в МТС Exolve. Мы разрабатываем и тестируем цифровых ботов на платформе VoiceBox — это конструктор голосовых роботов.

Мы запустили этот проект в 2020 году. Он создавался для бизнеса, наших клиентов, которые хотели автоматизировать рутину, например, подтверждение брони, доставки, адреса и так далее.

Сразу предупрежу возможный негатив: наш сервис можно использовать только для звонков людям, которые готовы к этому звонку. Вы заказали пиццу и робот позвонил, сообщил номер заказа, проговорил все его позиции и время доставки. Словом, полезный робот.

Сегодня расскажу, как можно легко и просто разрабатывать скрипты звонков в графическом интерфейсе нашего конструктора.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Истории

В поисках оптимального места в доме для умной колонки с экраном «Станция Дуо Макс» от «Яндекса»

Время на прочтение5 мин
Количество просмотров4.2K

В публикации пойдёт речь об опыте использования гаджета, а также о поиске оптимального места в доме для умной колонки с экраном «Станция Дуо Макс» от «Яндекса». Оказалось, что не везде удобно установить устройство так, чтобы можно было часто и продуктивно работать с дополнительной экранной опцией колонки.

Читать далее
Всего голосов 11: ↑8 и ↓3+5
Комментарии19

Как написать ТЗ на разработку чат-бота или AI-ассистента

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.9K

 Привет, Хабр! Меня зовут Элина Тедеева, и я тимлид команды внедрения в команде Just AI. 

В идеальном мире разработка бота или голосового ассистента начинается с технического задания — именно оно должно определять все этапы: от идеи до реализации. О том, почему ТЗ нельзя пренебрегать, как его грамотно составить и какие подводные камни могут встретиться в процессе, я расскажу в этой статье.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии2

Робот, ты нелюдь! Статья, которая ничего не изменит

Время на прочтение5 мин
Количество просмотров6.3K

Я хорошо помню начало бума IVR в России: с появлением доступной IP-телефонии компании бросились заказывать и самостоятельно проектировать схемы голосовых меню. Казалось, найдена таблетка от всего: можно сокращать размер колл-центров, экономить время сотрудников и клиентов, не переживать за то, что клиент интроверт и изольёт свою боль на голову несчастного менеджера. А главное, стоит копейки! Но шло время и тропа технологической эволюции пошла туда же, куда и биологической: видовое разнообразие и освоение территорий. В общем, задолбали эти роботы! Но почему-то они продолжают оставаться в слепой зоне компаний, так активно ратующих за идеальный сервис.

Читать далее
Всего голосов 36: ↑34 и ↓2+32
Комментарии19

UI / UX — когда миллионы людей ошибаются

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров15K

UI-дизайн — это про то, как выглядит интерфейс, UX — про то как с ним работает пользователь. Хочется спросить — «Вы откуда это вообще взяли»? 

Читать далее
Всего голосов 25: ↑16 и ↓9+7
Комментарии59

Как GPT и голосовые ассистенты изменят работу со смартфонами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2K

В начале года мы уже стали свидетелями того, как AutoGPT, а затем GPT Engineer демонстрировали, что приложения на GPT способны совместно писать код и решать сложные задачи. Следующий этап — это автоматическое взаимодействие с приложениями с помощью голоса.

Сегодня мы рассмотрим свежую работу исследователей из Tencent, которые сделали прототип ассистента AppAgent для мобильных приложений. Этот ассистент способен учиться взаимодействовать с любыми приложениями, обеспечивая доступ к ним через голосовой интерфейс без необходимости интеграции с API или изменения пользовательского интерфейса. Теперь достаточно сказать: “Эй, банк, переведи 300 рублей Васе за обед на карту Сбера”, и AppAgent самостоятельно откроет ваше любимое банковское приложение, найдет друга и переведет ему деньги. Конечно, возможно пока приложение учится оно отправит не 300, а 3000 рублей и не Васе, а Пете, но прогресс не остановить и такое упрощение работы с девайсами наше будущее. Кстати, в статье утверждается, что на этапе прототипа уже достигнута точность (success rate) порядка 95%.

Добро пожаловать под КАТ за подробностями.

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии5

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.8K

Привет, Хабр! Меня зовут Коля Кремер, уже 4 года я работаю в команде мобильного приложения Маруси, где мы постоянно стараемся сделать так, чтобы с нашим помощником было удобно и интересно общаться. 

Я несколько раз начинал писать и откладывал этот ретроспективный пост, но потом к нему подключились ребята из нашей команды и помог довести его до публикации. Хочу поблагодарить Влада Голоднюка, старшего программиста, и Пашу Муханова, руководителя мобильной разработки, и рассказать сообществу Хабра о том, как мы отучили Марусю в приложении триггериться на себя и научили правильно слышать и понимать ваши запросы.

Читать далее
Всего голосов 27: ↑23 и ↓4+19
Комментарии4

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

Время на прочтение9 мин
Количество просмотров24K

Недавно на YaC 2023 мы показали нашу новую колонку — Станцию Дуо Макс. Это первая умная колонка Яндекса с сенсорным экраном и флагман в нашей новой категории устройств. Дуо Макс предложит пользователям как уже знакомые возможности других Станций, так и новые способы взаимодействия с Алисой. 

Под катом — не только подробности об устройстве и наше видение назначения экрана, но и несколько историй разработки. Например, вы узнаете, как экран влияет на акустику устройства и к каким неожиданным изменениям привела возможность повернуть его на 90 градусов. Расскажем про видеозвонки в Telegram и нейросетевой фокус. Ну и закончим пост историей о том, как мы приняли участие в отладке процессора.

Читать далее
Всего голосов 67: ↑61 и ↓6+55
Комментарии82

ТРИЗ в разговорном дизайне: как находить оптимальные решения при проектировании сложных сценариев

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.6K

Я проектирую сценарии голосовых помощников и периодически сталкиваюсь с нетривиальными проблемами. Их решение часто связано с издержками — то диалог получается слишком длинным, то ответ становится неестественным, то пользователь сваливается в бесконечный цикл уточнений и переспросов.

Устранить подобные противоречия помогают приёмы ТРИЗ — теории решения изобретательских задач. Вот только есть проблема: эти приёмы были сформулированы для решения инженерных задач, поэтому их использование в дизайне выглядит неуместным — как можно сделать бота пористым, изменить его агрегатное состояние или привести в колебательное движение?

Меня зовут Кирилл Богатов, я дизайнер разговорных продуктов в KODE. В этой статье я на примерах покажу, как адаптировал ТРИЗ для работы над голосовым навыком для Алисы. Материал будет полезен дизайнерам и любителям мозговых штурмов.

Читать далее
Всего голосов 16: ↑12 и ↓4+8
Комментарии48

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров29K

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более современному процессору и бо́льшему объёму оперативной памяти, Алиса в Станции Миди впервые стала понимать и выполнять голосовые команды умного дома локально, без интернета.

Сегодня коротко расскажем, какие задачи пришлось решить команде Алисы и умных устройств, чтобы у пользователей появилась возможность управлять Zigbee-совместимыми устройствами с помощью голоса и не зависеть при этом от удалённого сервера или провайдера.

Что важно: это полезно не только при проблемах со связью. Теперь Zigbee-устройства будут реагировать на команды быстрее даже при наличии хорошего интернета (чуть подробнее — в блоке про замеры скорости в конце поста).

Про локальный умный дом мы впервые заговорили весной этого года. Возможно, вы даже читали на Хабре статью о том, как мы научили наши колонки со встроенным Zigbee-модулем хранить и выполнять сценарии умного дома напрямую, без посредника в виде сервера. Но были ограничения: это работало только для тех сценариев, которые запускались по кнопке или таймеру. Потому что работа с голосовыми командами была доступна только через наше облако. Слишком уж тяжеловесной была это задача для железа. 

Читать далее
Всего голосов 53: ↑49 и ↓4+45
Комментарии78

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров22K

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового
Всего голосов 17: ↑15 и ↓2+13
Комментарии25

Ад Топинамбура

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.9K

Нейросети все прочнее укрепляются в нашей жизни. Многие уже попробовали писать с помощью нейросети сочинения на заданную тему, и её тексты становятся всё лучше и лучше.

Если брать визуальные возможности нейросетей, то последняя версия GPT-4V(ision) научилась распознавать изображения. С помощью некоторых сетей, обрабатывающих видео, уже создаются клипы на музыкальные произведения. Конечно, видеоряд, можно сказать, на любителя. Недавно появились сервисы, позволяющие изменить язык в видео так, что даже выражение и движения губ соответствуют языку. Ну а нейросети поисковика Бинг и Google вполне себе умеет копаться в поисках информации в Сети. С помощью голосовых нейросетей музыканты подменяют голоса в известных песнях.

Превращение холста и создание симфоний видео уже более-менее понятны. В плане же создания литературы, как мне кажется, нейросети тоже продвинулись вперёд. Давайте разберём то, чего мне удалось найти нового в сочинении текстов. За подопытного возьмем Microsoft Bing.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии12

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

Время на прочтение5 мин
Количество просмотров9.6K

Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии3

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.4K

Меня зовут Маргарита Белкова, я дизайнер-скриптолог в компании Just AI. И в этой статье я бы хотела рассказать о феномене перебиваний и о перебивании как фиче. Мы постоянно сталкиваемся с этим явлением в реальном общении, но как быть, когда это происходит в разговорах с голосовыми ботами? Разберем, как устроена эта функция голосового бота, какие виды бывают и в каких точках сценария перебивания наиболее уместны.

Читать далее
Всего голосов 16: ↑8 и ↓80
Комментарии14

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров17K

В прошлой статье мы с вами добавляли голосовое управление кофеварке Jura. Но это была лишь тренировка в ожидании доставки по-настоящему космического устройства - умной кровати Ergomotion от Аскона.

Читать далее
Всего голосов 30: ↑30 и ↓0+30
Комментарии12

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2.7K

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров960

Привет, Хабр! На связи ведущий методолог Fix Price Алексей Черепецкой, и сегодня я расскажу вам о том, чем бизнесу могут быть полезны голосовые боты, а также где и как мы используем эту технологию у себя. И конечно, остановимся подробнее на технических решениях и интересных моментах.

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии4
1
23 ...