Goodnews.ua


Алгоритм с рекордной точностью распознавания речи работает даже на бюджетном смартфоне

Октябрь 27
22:03 2018

Обычно системы распознавания речи зависят от вычислительных мощностей удаленных серверов, однако канадские специалисты разработали нейросеть, которая справляется с этой задачей эффективно, быстро и используя минимум ресурсов процессора.

Система EdgeSpeechNets, предложенная разработчиками стартапа DarwinAI и Университета Уотерлу, способна работать даже на недорогих смартфонах. Она основана на нескольких предыдущих достижениях: алгоритмах навигации, температурного контроля и проигрывания музыки, не требующие удаленных серверов, созданных в начале года командой Alexa Machine Learning из Amazon; моделях распознавания голоса на устройстве, представленных в мае Qualcomm; голосовой модели WaveNet для мобильных устройств дублинского стартапа Voysis; и Intel.

Разработчики создали прототип, выполняющий распознавание речи с ограниченным словарем, или поиск ключевых слов — быстрое обнаружение специфических слов в потоке речи, пишет VentureBeat. Затем они выбрали метод трансформации аудиосигнала в математическое представление — так называемый анализ статистического распределения мел-кепстральных коэффициентов — и применили остаточную нейронную сеть для расширения возможностей представлений.

Затем они взялись за генеративный синтез — технологию машинного обучения, которая создает глубокие нейросети с упором на производительность. В данном случае была использована конфигурация, которая обеспечивает точность распознавания не менее 95%.

Для оценки производительности EdgeSpeechNets разработчики использовали набор данных Google Speech Commands, состоящий из 65 000 образцов из 30 коротких слов и фоновых шумов.

Одна из моделей — EdgeSpeechNets-А — показала 97-процентную точность распознавания речи, то есть превзошла все известные результаты.

Другая — EdgeSpeechNets-D — была запущена на телефоне Motorola Moto E с процессором Cortex-A53 с частотой 1,4 ГГц и показала десятикратное уменьшение времени ожидания и снижение объема требуемой памяти на 16,5% по сравнению с современными нейросетями.

В дальнейшем разработчики планируют адаптировать свою технологию к распознаванию зрительных образов и обработке естественной речи.

По мнению главы исследований Google Бена Гомеса, распознавание голоса — основа для дальнейшего развития информационных технологий. Все идет к тому, что информацию можно будет получать в живом диалоге с компьютером. А в какой-то момент нейросети начнут понимать и сложные вопросы.

Источник: hightech.plus

Share

Статьи по теме







0 Комментариев

Хотите быть первым?

Еще никто не комментировал данный материал.

Написать комментарий

Комментировать

Залишаючи свій коментар, пам'ятайте, що зміст та тональність вашого повідомлення можуть зачіпати почуття реальних людей, що безпосередньо чи опосередковано пов'язані із цією новиною. Виявляйте повагу та толерантність до своїх співрозмовників. Користувачі, які систематично порушують це правило, будуть заблоковані.

Website Protected by Spam Master


Останні новини

Олексій Лень вийшов у стартовому складі «Сакраменто» на гру з «Міннесотою»

Читать всю статью

Ми у соцмережах




Наші партнёри

UA.TODAY - Украина Сегодня UA.TODAY
Goodnews.ua