системы+распознавания+речи

Существующие системы распо­знавания речи можно классифи­цировать по разным признакам. 1) По назначению:
 * Распознавание речи ** — процесс преобразования речевого сигнала в текстовый поток.
 * командные системы
 * системы диктовки текста

2) По потребительским качествам:
 * диктороориентированные (тре­нируемые на конкретного диктора)
 * дикторонезависимые (рискую предложить термин «омнивойс»)
 * распознающие отдельные слова
 * распознающие слитную речь

3) По механизмам функциониро­вания:
 * простейшие (корреляционные) детекторы
 * экспертные системы с различ­ным способом формирования и обработки базы знаний
 * вероятностно-сетевые модели принятия решения, в том числе нейронные сети

В настоящее время распознавание речи сводится к решению трех типов задач: //<span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Рис. 1. Схема идентификации по образцу речи. //  <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">В процессе регистрации пользователя запоминаются особенности его голоса и формируется так называемая речевая модель. При тестировании выполняется сравнение предложенного образца речи с запомненной речевой моделью пользователя, а также с моделью "самозванца", составленной на базе голосов множества других людей. Если результат сравнения окажется положительным для первого случая и отрицательным для второго, считается, что тестирование прошло успешно. <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Основные цели программных пакетов идентификации личности по голосу:
 * 1) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">распознавание отдельно произносимых слов ( используется для речевого управления вычислительной машиной);
 * 2) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">распознавание слитной речи (имеет целью преобразования в текст естественной речи человека) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">;
 * 3) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;"><span style="font-family: 'Times New Roman',serif; font-size: 12pt;">идентификация по образцу речи (используется для целей обеспечения безопасности).  Она<span style="display: block; font-family: 'Times New Roman',serif; font-size: 12pt; text-align: justify;">состоит из трех стадий: регистрации, тестирования и допуска (рис. 1).
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">использование компьютера для автоматической сегментации речевого сигнала и автоматического измерения параметров;
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">повышение надежности идентификации за счет комплексного анализа речевого сигнала;
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">уменьшение субъективности эксперта и времени проведения экспертизы за счет автоматической обработки информации.

<span style="display: block; font-family: 'Times New Roman',serif; font-size: 12pt; text-align: center;">Механизмы распознавания речи <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">В большинстве существующих механизмов можно выделить четыре основных модуля (рис.2):
 * 1) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">модуль сбора данных,
 * 2) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">экстрактор,
 * 3) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">компаратор,
 * 4) <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">интерпретатор.



//<span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Рис. 2. Схема механизма распознавания речи. //  <span style="display: block; font-family: 'Times New Roman',serif; font-size: 12pt; text-align: center;">Перспективы разработки систем распознавания речи

<span style="font-family: 'Times New Roman',serif; font-size: 12pt;">В на­стоящее время на рынке представ­лено множество коммерческих сис­тем распознавания речи:
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Voice Type Dictation, Voice Pilot , ViaVoice отIBM
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Voice Assist Creative от Techonology
 * <span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Listen for Windows от Verbex и многие другие.

<span style="font-family: 'Times New Roman',serif; font-size: 12pt;">Технологии речевого распознавания нашли свое применение в различных областях. Однако в данной области множество проблем все еще остаются не решенными, многие идеи требуют дальнейшего развития. Так, программы, работающие с изолированными словами, достигли высокой точности в командных системах – в наиболее распространенных современных приложениях точность распознавания составляет в среднем 95-99% и зависит в основном от уровня шума. В то же время задача распознавания слитной речи в достаточной степени не решена, хотя в случае ограниченного словаря системы такого типа существуют и показывают высокие результаты по точности. В настоящее время множество работ посвящено проблеме распознавания слитной речи, т.к. именно такой тип речевого взаимодействия считается наиболее перспективным.

<span style="font-family: 'Times New Roman',serif; font-size: 12pt;"> Однако, если сравнить показатели современных систем распознавания с показателями систем времен начала зарождения это области науки, то можно сказать, что за прошедшие десятки лет исследователи недалеко продвинулись. Это заставляет некоторых специалистов сомневаться относительно возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Большинство экспертов сходится во мнении, что для развития распознавания речи потребуется какое-то время.