Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне

Октябрь 27

22:03 2018

Распечатать статью Поделиться с друзьями

Обычно системы распознавания речи зависят от вычислительных мощностей удаленных серверов, однако канадские специалисты разработали нейросеть, которая справляется с этой задачей эффективно, быстро и используя минимум ресурсов процессора.

Система EdgeSpeechNets, предложенная разработчиками стартапа DarwinAI и Университета Уотерлу, способна работать даже на недорогих смартфонах. Она основана на нескольких предыдущих достижениях: алгоритмах навигации, температурного контроля и проигрывания музыки, не требующие удаленных серверов, созданных в начале года командой Alexa Machine Learning из Amazon; моделях распознавания голоса на устройстве, представленных в мае Qualcomm; голосовой модели WaveNet для мобильных устройств дублинского стартапа Voysis; и Intel.

Разработчики создали прототип, выполняющий распознавание речи с ограниченным словарем, или поиск ключевых слов — быстрое обнаружение специфических слов в потоке речи, пишет VentureBeat. Затем они выбрали метод трансформации аудиосигнала в математическое представление — так называемый анализ статистического распределения мел-кепстральных коэффициентов — и применили остаточную нейронную сеть для расширения возможностей представлений.

Затем они взялись за генеративный синтез — технологию машинного обучения, которая создает глубокие нейросети с упором на производительность. В данном случае была использована конфигурация, которая обеспечивает точность распознавания не менее 95%.

Для оценки производительности EdgeSpeechNets разработчики использовали набор данных Google Speech Commands, состоящий из 65 000 образцов из 30 коротких слов и фоновых шумов.

Одна из моделей — EdgeSpeechNets-А — показала 97-процентную точность распознавания речи, то есть превзошла все известные результаты.

Другая — EdgeSpeechNets-D — была запущена на телефоне Motorola Moto E с процессором Cortex-A53 с частотой 1,4 ГГц и показала десятикратное уменьшение времени ожидания и снижение объема требуемой памяти на 16,5% по сравнению с современными нейросетями.

В дальнейшем разработчики планируют адаптировать свою технологию к распознаванию зрительных образов и обработке естественной речи.

По мнению главы исследований Google Бена Гомеса, распознавание голоса — основа для дальнейшего развития информационных технологий. Все идет к тому, что информацию можно будет получать в живом диалоге с компьютером. А в какой-то момент нейросети начнут понимать и сложные вопросы.

Источник: hightech.plus

Статьи по теме

Подняться вверх

0 Комментариев

Подняться вверх Написать комментарий

Хотите быть первым?

Еще никто не комментировал данный материал.

Написать комментарий

Комментировать

Подняться вверх

Залишаючи свій коментар, пам'ятайте, що зміст та тональність вашого повідомлення можуть зачіпати почуття реальних людей, що безпосередньо чи опосередковано пов'язані із цією новиною. Виявляйте повагу та толерантність до своїх співрозмовників. Користувачі, які систематично порушують це правило, будуть заблоковані.

Goodnews.ua

Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне

Статьи по теме

0 Комментариев

Комментировать

Останні новини

Рух доминирует: Игорь Краснопир и Виталий Пономарев — лучшие в 5-м туре УПЛ

Ми у соцмережах

Наші партнёри

Goodnews.ua

Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне

Статьи по теме

0 Комментариев

Комментировать

Нажмите, чтобы отменить ответ.

Останні новини

Рух доминирует: Игорь Краснопир и Виталий Пономарев — лучшие в 5-м туре УПЛ

Ми у соцмережах

Наші партнёри

Loading..

Загрузка, пожалуйста подождите...