Как стать автором
Обновить

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.5K
Всего голосов 17: ↑15 и ↓2+18
Комментарии13

Комментарии 13

извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?

Примерно вот такие

Это именно языков столько? Складывается ощущение, что процентов 70-80 это диалекты. Неужели в каких-то регионах есть по языку на квадратный километр?

Одно время в одной только Индии было более 1000 языков.

Эти сеты могут быть использованы для распознавания содержимого речи? Даже устный язык индейцев навахо ("говорящих с ветром") можно будет понять?

Они могут быть использованы в первую очередь для детекции речи.

Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.

В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.

Данные перекладывать не надо, все ж на месте останется. Обмениваться легче будет, по мере роста количества скачавших себе копию. Конечно же, будет расти и риск того, что кто-то из скачавших нарушит CC BY-NC-SA 4.0 - но то же самое может случиться и без торрентов.

Всё, удалили? На github 404

Поправил ссылку

Если я правильно понял, ваши датасеты только для детекции языка.
После определения языка следующий этап - распознаваниe речи в текст.

Есть ли у вас планы по созданию моделей для распознавания речи в текст?
Или вы сфокусировались исключительно на определении языка?

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

В данной статье идёт речь про датасет для детекции языка.

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации