Системы распознавания речи. Сравнительный анализ систем распознавания речи с открытым кодом

15 июля 2009 в 22:16

Распознавание речи. Часть 1. Классификация систем распознавания речи

  • Искусственный интеллект
Эпиграф
В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий . Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

Классификация систем распознавания речи

На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

Признаки классификации систем распознавания речи
Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.
  • Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.
  • Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
  • Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
  • Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.
Различия методов распознавания речи
При создании системы распознавания речи требуется выбрать, какой уровень абстракции адекватен поставленной задаче, какие параметры звуковой волны будут использоваться для распознавания и методы распознавания этих параметров. Рассмотрим основные различия в структуре и процессе работы различных систем распознавания речи.
  • По типу структурной единицы. При анализе речи, в качестве базовой единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, ди- или трифоны, аллофоны. В зависимости от того, какая структурная часть выбрана, изменяется структура, универсальность и сложность словаря распознаваемых элементов.
  • По выделению признаков. Сама последовательность отсчетов давления звуковой волны – чрезмерно избыточна для систем распознавания звуков и содержит много лишней информации, которая при распознавании не нужна, либо даже вредна. Таким образом, для представления речевого сигнала из него требуется выделить какие-либо параметры, адекватно представляющие этот сигнал для распознавания.
  • По механизму функционирования. В современных системах широко используются различные подходы к механизму функционирования распознающих систем. Вероятностно-сетевой подход состоит в том, что речевой сигнал разбивается на определенные части (кадры, либо по фонетическому признаку), после чего происходит вероятностная оценка того, к какому именно элементу распознаваемого словаря имеет отношение данная часть и (или) весь входной сигнал. Подход, основанный на решении обратной задачи синтеза звука, состоит в том, что по входному сигналу определяется характер движения артикуляторов речевого тракта и, по специальному словарю происходит определение произнесенных фонем.

UPD: Перенес в «Искуственный интеллект». Если будет интерес, дальше публиковать буду в нем.

Беленко М.В. 1 , Балакшин П.В. 2

1 студент, Университет ИТМО, 2 кандидат технических наук, ассистент, Университет ИТМО

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С ОТКРЫТЫМ КОДОМ

Аннотация

В статье проведен сравнительный анализ наиболее распространенных систем автоматического распознавания речи с открытым исходным кодом. При сравнении использовалось множество критериев, включая структуры систем, языки программирования при реализации, наличие подробной документации, поддерживаемые языки распознавания, ограничения накладываемые лицензией. Также были проведены эксперименты на нескольких речевых корпусах для определения скорости и точности распознавания. В результате для каждой из рассмотренных систем были выработаны рекомендации по применению с дополнительным указанием сферы деятельности.

Ключевые слова: распознавание речи, метрика, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), открытый код

Belenko M.V. 1 , Balakshin P.V. 2

1 student, ITMO University, 2 PhD in Engineering, assistant, ITMO University

COMPARATIVE ANALYSIS OF SPEECH RECOGNITION SYSTEMS WITH OPEN CODE

Abstract

The paper provides the comparison of the most common automatic speech recognition systems with open source code. Many criteria were used at comparison, including system structures, programming languages of implementation, detailed documentation, supported recognition languages, and restrictions imposed by the license. Also, there were conducted the experiments on the several speech bases for determination of speed and accuracy of the recognition. As a result, the recommendations were given for application with additional indication of the scope of activity for each of the systems examined.

Keywords: speech recognition, metric, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), open source code

Системы распознавания речи (англ. Automatic Speech Recognition Systems) в основном используются для моделирования привычного для человека общения с машиной, например, для голосового управления программами. В настоящее время распознавание речевых сигналов применяется в широком спектре систем – от приложений на смартфонах до систем “Умный дом” . Дополнительным подтверждением актуальности данной области является множество научно-исследовательских центров и центров разработки по всему миру. Однако подавляющее большинство работающих систем являются проприетарными продуктами, т.е. пользователь или потенциальный разработчик не имеет доступа к их исходному коду. Это негативно сказывается на возможности интеграции систем распознавания речи в проекты с открытым кодом. Также не существует какого либо централизованного источника данных, описывающего положительные и отрицательные стороны систем распознавания речи с открытым кодом. В результате возникает проблема выбора оптимальной системы распознавания речи для решения поставленной задачи.

В рамках работы были рассмотрены шесть систем с открытым исходным кодом: CMU Sphinx, HTK, iAtros, Julius, Kaldi и RWTH ASR. Выбор основан на частоте упоминания в современных научно-исследовательских журналах, существующими разработками последних лет и популярности у индивидуальных разработчиков программного обеспечения , , , , , , . Выбранные системы сравнивались по таким показателям, как точность и скорость распознавания, удобство использования и внутренняя структура.

По точности системы сравнивались по наиболее распространенным метрикам : Word Recognition Rate (WRR), Word Error Rate (WER), которые вычисляются по следующим формулам:

где S – число операций замены слов, I – число операций вставки слов, D – число операций удаления слов из распознанной фразы для получения исходной фразы, а Т – число слов в исходной фразе и измеряется в процентах. По скорости распознавания сравнение было проведено с использованием Real Time Factor – показателя отношения времени распознавания к длительности распознаваемого сигнала, также известного как Speed Factor (SF). Данный показатель можно рассчитать используя формулу:

где Т расп – время распознавания сигнала, Т – его длительность и измеряется в долях от реального времени.

Все системы были обучены с применением речевого корпуса WSJ1 (Wall Street Journal 1), содержащего около 160 часов тренировочных данных и 10 часов тестовых данных, представляющих собой отрывки из газеты Wall Street Journal. Данный речевой корпус включает в себя записи дикторов обоих полов на английском языке.

После проведения эксперимента и обработки результатов была получена следующая таблица (табл. 1).

Таблица 1 – Результаты сравнения по точности и скорости

Система WER, % WRR, % SF
HTK 19,8 80,2 1.4
CMU Sphinx

(pocketsphinx/sphinx4)

21.4/22.7 78.6/77.3 0.5/1
Kaldi 6.5 93.5 0.6
Julius 23.1 76.9 1.3
iAtros 16.1 83.9 2 .1
RWTH ASR 15.5 84.5 3.8

Точность и корректность исследования подтверждается тем, что полученные результаты схожи с результатами, полученными при тестировании данных систем на других речевых корпусах, таких как Verbmobil 1, Quaero, EPPS , , .

В качестве критериев сравнения структур были выбраны язык реализации системы, алгоритмы, используемые при распознавании, форматы входных и выходных данных и непосредственно внутренняя структура программной реализации системы.

Процесс распознавания речи в общем виде можно представить в виде следующих этапов :

  1. Извлечение акустических признаков из входного сигнала.
  2. Акустическое моделирование.
  3. Языковое моделирование.
  4. Декодирование.

Подходы, алгоритмы и структуры данных, используемые рассматриваемыми системами распознавания речи на каждом из перечисленных этапов представлены в таблицах (табл. 2, 3).

Таблица 2 – Результаты сравнения алгоритмов

Система Извлечение признаков Акустическое моделирование Языковое модели-рование Распознавание
HTK MFCC HMM N-gramm Алгоритм Витерби
CMU Sphinx MFCC, PLP HMM N-gramm, FST Алгоритм Витерби, алгоритм bushderby
Kaldi MFCC, PLP HMM,GMM, SGMM, DNN FST, есть конвертер N-gramm->FST Двухпро-ходной алгоритм прямого-обратного хода
Julius MFCC, PLP HMM N-gramm, Rule-based Алгоритм Витерби
iAtros MFCC HMM, GMM N-gramm, FST Алгоритм Витерби
RWTH ASR MFCC, PLP, voicedness HMM, GMM N-gramm, WFST Алгоритм Витерби

Таблица 3 – Языки реализации систем и их структура

Система Язык Структура
HTK С Модульная, в виде утилит
CMU Sphinx

(pocketsphinx/sphinx4)

C/Java Модульная
Kaldi C++ Модульная
Julius C Модульная
iAtros C Модульная
RWTH ASR C++ Модульная

С точки зрения удобства использования рассматривались такие показатели как подробность документации, поддержка различных программных и аппаратных сред выполнения, лицензионные ограничения, поддержка множества естественных языков распознавания, характеристики интерфейса. Результаты представлены в следующих таблицах (табл. 4, 5, 6, 7, 8).

Таблица 4 – Наличие документации

Таблица 5 – Поддержка различных операционных систем

Система Поддерживаемые ОС
HTK Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sphinx

(pocketsphinx/sphinx4)

Linux, Mac OS, Windows, Android
Kaldi Linux, Windows, FreeBSD
Julius Linux, Windows, FreeBSD, Mac OS
iAtros Linux
RWTH ASR Linux, Mac OS

Таблица 6 – Интерфейсы систем

Таблица 7 – Поддерживаемые языки распознавания

Таблица 8 – Лицензии

Система Лицензия
HTK HTK
CMU Sphinx

(pocketsphinx/sphinx4)

BSD
Kaldi Apache
Julius BSD подобная
iAtros GPLv3
RWTH ASR RWTH ASR

Проанализировав полученные выше результаты, можно составить характеристику каждой из рассматриваемых систем и выработать рекомендации по их применению.

Kaldi. Данная система показывает лучшую точность распознавания из всех рассматриваемых систем (WER=6.5%) и вторую скорость распознавания (SF=0.6). С точки зрения предоставляемых алгоритмов и структур данных, применяемых для распознавания речи, данная система тоже лидирует, так как предоставляет наибольшее количество современных подходов, применяющихся в сфере распознавания речи, таких как использование нейронных сетей и моделей гауссовых смесей на этапе акустического моделирования и использование конечных автоматов на этапе языкового моделирования. Также она позволяет использовать множество алгоритмов для уменьшения размера акустических признаков сигнала, и, соответственно, увеличивать производительность системы. Kaldi написана на языке программирования С++, что положительно сказывается на скорости работы системы, и имеет модульную структуру, что предоставляет возможность легко производить рефакторинг системы, добавление нового функционала, а также исправлять существующие ошибки. С точки зрения удобства использования Kaldi, также является одной из первых систем. Она предоставляет подробную документацию, но ориентированную на опытных в сфере распознавания речи читателей. Это может негативно сказаться на использовании данной системы новичками в этой области. Она кроссплатформенна, то есть запускается на большинстве современных операционных систем. Kaldi предоставляет только консольный интерфейс, что делает ее интеграцию в сторонние приложения затруднительной. По умолчанию данная система поддерживает только английский язык, распространяется под полностью свободной лицензией Apache, то есть может быть интегрирована в коммерческий продукт без раскрытия его кода. Данная система может с успехом применяться для научно-исследовательской деятельности, так как обеспечивает хорошую точность распознавания, приемлемую скорость распознавания, реализует множество современных методов распознавания речи, имеет множество готовых рецептов, что делает ее простой в использовании и обладает исчерпывающей документацией.

CMU Sphinx. Эта система распознавания речи показывает посредственную точность распознавания (WER~22%) и лучшую скорость распознавания из всех рассмотренных (SF=0.5). Нужно заметить, что наибольшая скорость распознавания достигается при использовании декодера pocketsphinx, написанного на С, декодер sphinx4 показывает вполне среднюю скорость работы (SF=1). Структурно данная система также использует множество современных подходов к распознаванию речи, включая модифицированный алгоритм Витерби, однако используемых подходов меньше, чем у Kaldi. В частности, на этапе акустического моделирования данная система работает только со скрытыми марковскими моделями. CMU Sphinx включает в себя два декодера – pocketsphinx, реализованный на С, и sphinx4, реализованный на Java. Это позволяет применять данную систему на множестве платформ, в том числе под управлением операционной системы Android, а также облегчает интеграцию в проекты, написанные на Java. Данная система имеет модульную структуру, что положительно сказывается на возможности быстрого внесения изменений и исправления ошибок. С токи зрения удобства использования CMU Sphinx опережает Kaldi, так как кроме консольного интерфейса предоставляет API, что существенно упрощает процесс встраивания системы в стороннее приложение. Также она обладает подробной документацией, ориентированной, в отличие от Kaldi, на начинающего разработчика, что сильно упрощает процесс знакомства с системой. Также сильной стороной данной системы является поддержка множества языков по умолчанию, то есть наличие языковых и акустических моделей этих языков в свободном доступе. Среди поддерживаемых языков кроме стандартного английского встречаются также русский, казахский и ряд других. СMU Sphinx распространяется под лицензией BSD, что разрешает ее встраивание в коммерческие проекты. Данная система может применяться в коммерческих проектах, так как обладает большинством достоинств Kaldi, хотя и обеспечивает несколько худшую точность распознавания, а также предоставляет API, которое можно использовать для построения сторонних приложений на базе данной системы.

HTK. С точки зрения точности и скорости работы данная система показывает средние результаты из рассмотренных систем (WER=19.8%, SF=1.4). HTK предоставляет только классические в сфере распознавания речи алгоритмы и структуры данных. Это связано с тем, что с тем, что выпуск предыдущей версии системы был произведен в 2009 году. В конце декабря 2015 года была выпущена новая версия HTK, однако она не была рассмотрена в данном исследовании. Реализована данная система на языке С, что хорошо отражается на скорости работы, так как C является низкоуровневым языком программирования. По структуре данная система представляет собой набор утилит, вызываемых из командной строки, а также предоставляет API, известное под названием ATK. С точки зрения удобства использования HTK, наравне с Julius, является лидирующей системой из рассмотренных. В качестве документации она предоставляет HTK Book – книгу, описывающую не только аспекты работы HTK, но и общие принципы работы систем распознавания речи. По умолчанию данная система поддерживает только английский язык. Распространяется под лицензией HTK, которая разрешает распространение исходного кода системы. Данную систему можно порекомендовать для использования в образовательной деятельности в сфере распознавания речи. Она реализует большинство классических подходов к решению проблемы распознавания речи, обладает очень подробной документацией, которая также описывает основные принципы распознавания речи в целом, и имеет множество обучающих статей и рецептов.

Julius. Данная система показывает худший показатель точности (WER=23.1) и средний показатель скорости распознавания (SF=1.3). Этапы акустического и языкового моделирования осуществляются с помощью утилит, входящих в состав HTK, однако декодирование происходит с помощью своего декодера. Он, как и большинство рассмотренных систем, использует алгоритм Витерби. Реализована данная система на языке С, структура реализации является модульной. Система предоставляет консольный интерфейс и API для интеграции в сторонние приложения. Документация, как и в HTK, реализована в форме книги Julius book. По умолчанию Julius поддерживает английский и японский языки. Распространяется под BSD подобной лицензией. Систему Julius можно также порекомендовать для образовательной деятельности, так как она обладает всеми плюсами HTK, и также предоставляет возможность распознавать такой экзотический язык как японский.

Iatros. Данная система показывает хороший результат по точности распознавания (WER=16.1%) и посредственный результат по скорости (SF=2.1). Она весьма ограничена в возможностях касательно алгоритмов и структур данных, применяющихся при распознавании речи, однако предоставляет возможность использовать модели гауссовых смесей в качестве состояний скрытой марковской модели на этапе акустического моделирования. Реализована данная система на языке С. Имеет модульную структуру. Кроме функционала распознавания речи содержит в себе также модуль распознавания текста. Это не имеет большого значения для данного исследования, однако является отличительно особенностью данной системы, про которую нельзя не упомянуть. С точки зрения удобства использования iAtros проигрывает всем рассмотренным в ходе исследования системам. Данная система не обладает документацией, не предоставляет API для встраивания в сторонние приложения, из поддерживаемых по умолчанию языков представлены английский и испанский. Является совершенно не кроссплатформенной, так как запускается только под управлением операционных систем семейства Linux. Распространяется под лицензией GPLv3, которая не позволяет встраивать данную систему в коммерческие проекты без раскрытия их исходного кода, что делает ее непригодной для использования в коммерческой деятельности. Система iAtros с успехом может использоваться там, где кроме распознавания речи необходимо еще применение распознавания образов, так как данная система предоставляет такую возможность.

RWTH ASR. По точности распознавания RWTH ASR показывает неплохой результат (WER=15.5%), однако по скорости распознавания является худшей системой из рассмотренных (SF=3.8). Данная система так же как и iAtros может использовать модели гауссовых смесей на этапе акустического моделирования. Отличительной чертой является возможность использования характеристики звонкости при извлечении акустических характеристик входного сигнала. Также данная система может использовать взвешенный конечный автомат в качестве языковой модели на этапе языкового моделирования. Данная система реализована на языке С++ и имеет модульную архитектуру. По удобству использования является второй с конца, имеет документацию, описывающую только процесс установки, чего явно недостаточно для начала работы с системой. Предоставляет только консольный интерфейс, по умолчанию поддерживает только английский язык. Система недостаточно кроссплатформенна, так как не может работать под управлением операционной системы Windows, которая сильно распространена в настоящее время. Распространяется под лицензией RWTH ASR, по которой код системы предоставляется только для некоммерческого использования, что делает данную систему непригодной для интеграции в коммерческие проекты. Данная система может применяться для решения задач, где важна точность распознавания, но не важно время. Также стоит заметить, что она совершенно непригодна для какой-либо коммерческой деятельности из-за ограничений, накладываемых лицензией.

Список литературы / References

  1. CMU Sphinx Wiki [Электронный ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (дата обращения: 09.01.2017)
  2. Gaida C. Comparing open-source speech recognition toolkits [Электронный ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (дата обращения: 12.02.2017)
  3. El Moubtahij H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Arabic handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. №3. – P. 99-110.
  4. Jha M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
  5. Kaldi [Электронный ресурс]. – URL: http://kaldi-asr.org/doc (дата обращения: 19.12.2016)
  6. Luján-Mares M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58.
  7. El Amrania M.Y. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. – P. 305–314.
  8. Ogata K. Analysis of articulatory timing based on a superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. – P. 3720-3725.
  9. Sundermeyer The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – P. 2212-2215.
  10. Алимурадов А.К. АДАПТИВНЫЙ МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ГОЛОСОВОГО УПРАВЛЕНИЯ / А.К. Алимурадов, П.П. Чураков // Труды Международной научно-технической конференции «Перспективные информационные технологии» – 2016. – С. 196-200.
  11. Бакаленко В.С. Интеллектуализация ввода-вывода кода программы с помощью речевых технологий: дис. … магистра техники и технологии. – ДонНТУ, Донецк, 2016.
  12. Балакшин П.В. Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов: дис. … канд. техн. наук: 05.13.11: защищена 10.12.2015: утв. 08.06.2016 / Балакшин Павел Валерьевич. – СПб.: Университет ИТМО, 2014. – 127 с.
  13. Балакшин П.В. ФУНКЦИЯ ПЛОТНОСТИ ДЛИТЕЛЬНОСТИ СОСТОЯНИЙ СММ. ПРЕИМУЩЕСТВА И НЕДОСТАТКИ / П.В. Балакшин // Современные проблемы науки и образования. – 2011. – № 1. – С. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (дата обращения: 13.11.2016).
  14. Беленко М.В. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С ОТКРЫТЫМ КОДОМ / М.В. Беленко // Сборник трудов V Всероссийского конгресса молодых ученых. Т. 2. – СПб.: Университет ИТМО, 2016. – С. 45-49.
  15. Гусев М.Н. Система распознавания речи: основные модели и алгоритмы / М.Н. Гусев, В.М. Дегтярев. – СПб.: Знак, 2013. – 128 с.
  16. Карпов А.А. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А. Карпов, Л. Акарун, А.Л. Ронжин // Труды СПИИРАН. – 2011. – Т. 19. – №. 0. – С. 48-64.
  17. Карпов А.А. Методология оценивания работы систем автоматического распознавания речи / А.А. Карпов, И.С. Кипяткова // Известия высших учебных заведений. Приборостроение. – 2012. – Т. 55. – №. 11. – С. 38-43.
  18. Тампель И.Б. Автоматическое распознавание речи – основные этапы за 50 лет / И.Б. Тампель // Научно-технический вестник информационных технологий, механики и оптики. – 2015. – Т. 15. – № 6. – С. 957–968.

Список литературы на английском / References in English

  1. CMU Sphinx Wiki . – URL: http://cmusphinx.sourceforge.net/wiki/ (accessed: 09.01.2017).
  2. Gaida C. Comparing open-source speech recognition toolkits . / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (accessed: 12.02.2017)
  3. El Moubtahij, H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Arabic handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. №3. – P. 99-110.
  4. Jha, M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
  5. Kaldi . – URL: http://kaldi-asr.org/doc (accessed: 19.12.2016)
  6. Luján-Mares, M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla – 2008. – P. 75-58.
  7. El Amrania, M.Y. Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. – P. 305–314.
  8. Ogata, K. Analysis of articulatory timing based on a superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. – P. 3720-3725.
  9. Sundermeyer, M. The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – P. 2212-2215.
  10. Alimuradov A.K. ADAPTIVNYJ METOD POVYShENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradov, P.P. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii «Perspektivnye informacionnye tehnologii» . – 2016. – P. 196-200.
  11. Bakalenko V.S. Intellektualizatsiya vvoda-vyivoda koda programmyi s pomoschyu rechevyih tehnologiy : dis. … of Master in Engineering and Technology. – DonNTU, Donetsk, 2016.
  12. Balakshin P.V. Algoritmicheskie i programmnyie sredstva raspoznavaniya rechi na osnove skryityih markovskih modeley dlya telefonnyih sluzhb podderzhki klientov : dis. … PhD in Engineering: 05.13.11: defense of the thesis 10.12.2015: approved 08.06.2016 / Balakshin Pavel Valer’evich. – SPb.: ITMO University, 2014. – 127 p.
  13. Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sovremennye problemy nauki i obrazovanija . – 2011. – № 1. – P. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (accessed: 13.11.2016).
  14. Belenko M.V. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih . V. 2. – SPb.: ITMO University, 2016. P. 45-49.
  15. Gusev M.N. Sistema raspoznavaniya rechi: osnovnyie modeli i algoritmyi / M.N. Gusev V.M. Degtyarev. – SPb.: Znak, 2013. – 141 p.
  16. Karpov A.A. Mnogomodalnyie assistivnyie sistemyi dlya intellektualnogo zhilogo prostranstva / A.A. Karpov, L. Akarun, A.L. Ronzhin // Trudyi SPIIRAN . – 2011. – V. 19. – №. 0. – P. 48-64.
  17. Karpov A.A. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. Karpov, I.S. Kipyatkova // Izvestiya vyisshih uchebnyih zavedeniy. Priborostroenie. – 2012. – V. 55. – №. 11. – P. 38-43.
  18. Tampel I.B. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 let / I.B. Tampel // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii, Mekhaniki i Optiki . – 2015. – V. 15. – № 6. – P. 957–968.

Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 - для связи с тем-то, 3 - для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр - получил нужную информацию.

ак же работает такая система? Давайте попробуем разобраться.

Двумя основными типами программ для распознавания речи являются:

Программы для диктовки — ввод текста и цифровых данных.

Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.

САРР — что это такое?

истемы автоматического распознавания речи (САРР) - это элемент процесса обработки речи, назначение которого - обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

Голосовые ключи

олосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга - сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

Немного истории

оединенные Штаты Америки, конец 60-х годов XX века: «Три», - сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», - пробормотал Валтер. «Этого слова нет в словаре», - ответил компьютер.

Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения - и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

Новая услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре прошлого года).

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата - около 30 долл. в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули - это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила Socom - первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе - AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

Прогнозы аналитиков

егодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 1). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии (рис. 2).

Основные сложности

лавная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер - может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.

Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов .

Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря - важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд - около 1% для словаря в 100 слов, 3% - для словаря в 600 слов и 10% - для словаря в 8000 слов.

Предложения современного рынка САРР

а рынке сегодня представлены CАРР различных компаний. Рассмотрим некоторые из них.

Aculab

Точность узнавания 97%.

Дикторонезависимая система. Разработчики системы проанализировали различные базы данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.

Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.

Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря.

Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.

Babear SDK Version 3.0

Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь).

Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский.

Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.

Loquendo ASR

Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы.

Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.).

Входит в состав продукта Loquendo Speech Suite вместе с системой text-to-speech и программой Loquendo VoiceXML Interpreter, поддерживающей использование различных голосов и языков.

Система работает на базе MS Windows NT/2000, UNIX и Linux.

LumenVox

Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%.

Поддерживает различные форматы аудиофайлов: (u-law 8 кГц, РСМ 8 кГц, РСМ 16 кГц). Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows NT/2000/XP и Linux.

Требования к системе (на базе Windows):

Windows NT 4.0 c Service Pack 6a, Windows 2000 или Windows XP Pro;

Минимальный размер памяти 512 Mбайт.

Требования к системе (на базе Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MГц или выше;

Объем памяти 256 Mбайт;

Размер диска 17 Mбайт (после декомпрессии).

Nuance

По словам производителей, система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания - до 96%, причем остается высокой даже в зашумленном помещении.

Есть возможность самообучения системы и ее подстройки под каждого пользователя.

Работает на базе Windows 2000 и Linux.

SPIRIT

Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы - лишь с определенным их набором.

Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Требуемое соотношение «сигнал/шум» до 0 дБ в «режиме PIN-кода» и до +15 дБ в режиме связной речи.

Задержка распознавания — 0,2 с. Параметры акустического канала: полоса пропускания в пределах 300-3500 Гц. Адаптация к акустической среде производится по фрагментам шума суммарной длиной не менее 3 с.

Для «режима PIN-кода»:

Словарь — 50 команд;

Вероятность правильного распознавания - 95-99% при SNR = 0…6 дБ;

Требуемые акустические условия: аддитивный широкополосный статичный шум с SNR (отношение «сигнал/шум») >= 15 дБ.

Для режима распознавания связной речи:

Словарь — 12 слов /цифр;

Вероятность правильного распознавания цепочки слов - 98-99%.

Специфика: адаптация к произвольным шумам.

Автоматическая система распознавания речи от SPIRIT доступна в форме приложения для PC под MS Windows или ассемблерного кода. По запросу клиентов решение может быть портировано на любую DSP- или RISC-платформу.

VoiceWare

Система может работать как в дикторозависимом, так и в дикторонезависимом режиме, поэтому специального обучения системы для работы с конкретным пользователем не требуется.

Обеспечивается высокая точность распознавания и работа в реальном времени, даже в зашумленной среде.

Система распознает связную речь и последовательный перечень цифр.

Слова, не занесенные в словарь, и посторонний шум не воспринимаются ею, а ничего не значащие слова, такие как «а», «ну» и пр., отбрасываются.

Новые слова могут быть добавлены в словарь.

Система автоматически подстраивается под тон, произношение и другие речевые особенности пользователя.

VoiceWare поддерживает американский английский и корейский языки; китайский и японский - в разработке.

Система работает на базе Windows 95/98/NT 4.0, UNIX и Linux.

Белоусова О. С., Панова Л.

Омский Государственный Технический Университет

РАСПОЗНАВАНИЕ РЕЧИ

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

Выделяют несколько основных способов распознавания речи:

1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

б) Нейронные ансамбли. Вкачестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Общий алгоритм распознавания связной речи

Исходный сигнал

Начальная фильтрация и усиление полезного сигнала

Выделение отдельных слов

Распознавание слова

Распознавание речи

Реакция на распознанный сигнал

Всё многообразие систем распознавания речи условно можно разделить на несколько групп.

1. Программные ядра для аппаратных реализаций. TTS engine – синтез речи по тексту, и ASR engine – для распознавания речи.

2. Наборы библиотек для разработки приложений. Существует два стандарта для интеграции речевых технологий: VoiceXML – для разработки интерактивных голосовых приложений управления медиаресурсами, и SALT – поддерживает многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации.

3. Независимые пользовательские приложения. Dragon NaturallySpeaking Preferred – распознает слитную речь; безошибочность распознавания – 95%. «Диктограф» – с функцией ввода текста в любой редактор, точностью распознавания – 30-50%.

4. Специализированные приложения. Компания «Центр Речевых Технологий» разрабатывает и производит программы для МВД, ФСБ, МЧС: «ИКАР Лаб», «Трал», «Территория». Германский институт DFKI разработал – Verbmobil, программу способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон. Точность – 90%.

5. Устройства, выполняющие распознавание на аппаратном уровне. Компания Sensory Inc разработала интегральную схему Voice Direct™ 364 – осуществляет дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Корпорация Primestar Technology Corporation разработала чип VP-2025 – осуществляет распознавание с помощью нейросетевого метода.

Методы распознавания речи.

1. Метод скрытых марковских моделей. Базируется на следующих предположениях: речь может быть разбита на сегменты, внутри которых речевой сигнал может рассматриваться как стационарный, переход между этими состояниями осуществляется мгновенно; вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих.

2. Метод скользящего окна. Суть: определение вхождения ключевого слова с помощью алгоритма Витерби. Так как ключевое слово может начинаться и заканчиваться в любом месте сигнала, то этот метод перебирает все возможные пары начала и конца вхождения ключевого слова и находит самый вероятный путь для ключевого слова и этого отрезка, как если бы ключевое слово присутствовало в нем. Для каждого найденного вероятного пути ключевого слова применяется функция правдоподобия, основанная на срабатывании, если значение пути, рассчитанное в соответствии с применяемым методом оценки пути, больше предопределенного значения. Недостатки: большая вычислительная сложность; команды могут включать слова, которые плохо распознаются с помощью алгоритма распознавания ключевого слова.

3. Метод моделей заполнителей. Для алгоритмов распознавания ключевого слова слово для распознавания представляется встроенным в инородную речь. На этом основании методы моделей заполнителей обрабатывают эту инородную речь с помощью явного моделирования инородной речи за счет второстепенных моделей. Для этого в словарь системы распознавания добавляются «обобщенные» слова. Роль этих слов в том, чтобы любой сегмент сигнала незнакомого слова или неречевого акустического события был распознан системой как одно слово или цепочка из обобщенных слов. Для каждого обобщенного слова создается и обучается акустическая модель на корпусе данных с соответствующими размеченными сегментами сигнала. На выходе из декодера выдается цепочка, состоящая из слов словаря (ключевых слов) и обобщенных слов. Обобщенные слова затем отбрасываются, и оставшаяся часть цепочки считается результатом распознавания. Недостатки: ключевые слова могут быть распознаны как обобщенные; сложность оптимального выбора алфавита обобщенных слов.

Библиографический список

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

2. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова Думка, 1987.

3. Винцюк Т.К. Сравнение ИКДП- и НММ - методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

4. http://www.mstechnology.ru

5. http://www.comptek.ru