snakers4 11 апр в 06:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

2.5K

Big Data*Открытые данные*Машинное обучение*ЗвукNatural Language Processing*

Обзор

+18

Комментарии 13

alexmuk 11 апр в 06:41

извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?

snakers4 11 апр в 07:42

Примерно вот такие

yappari 11 апр в 15:10

Это именно языков столько? Складывается ощущение, что процентов 70-80 это диалекты. Неужели в каких-то регионах есть по языку на квадратный километр?

snakers4 11 апр в 15:10

Одно время в одной только Индии было более 1000 языков.

-1

Ds02006 11 апр в 07:56

Эти сеты могут быть использованы для распознавания содержимого речи? Даже устный язык индейцев навахо ("говорящих с ветром") можно будет понять?

snakers4 11 апр в 08:26

Они могут быть использованы в первую очередь для детекции речи.

SuharkovMP 11 апр в 08:14

Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.

snakers4 11 апр в 08:25

В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.

SuharkovMP 11 апр в 08:42

Данные перекладывать не надо, все ж на месте останется. Обмениваться легче будет, по мере роста количества скачавших себе копию. Конечно же, будет расти и риск того, что кто-то из скачавших нарушит CC BY-NC-SA 4.0 - но то же самое может случиться и без торрентов.

TsarS 11 апр в 09:25

Всё, удалили? На github 404

snakers4 11 апр в 09:32

Поправил ссылку

vagon333 11 апр в 17:39

Если я правильно понял, ваши датасеты только для детекции языка.
После определения языка следующий этап - распознаваниe речи в текст.

Есть ли у вас планы по созданию моделей для распознавания речи в текст?
Или вы сфокусировались исключительно на определении языка?

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

-1

snakers4 11 апр в 17:50

Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

В данной статье идёт речь про датасет для детекции языка.

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время