Автоматический+синтез+речи.+Главные+направления+современных+разработок.


 * Автоматический синтез речи** – процесс генерации речевого сигнала - технология, которая дает возможность прочитать текст (документ, письмо, смс) голосом, приближенном к естественному. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.

Технология синтеза может быть востребована как в узкой предметной области, так и в широкой, или неограниченной. Для узкой области качество звучания может быть сведено к максимально естественной, за счёт компиляции заранее записанных длительных речевых фрагментов, относящихся к данной области. Примером такого синтеза (называемого макросинтезом) могут служить системы оповещения о движении поездов, применяющиеся на вокзалах больших городов в России. Гораздо сложнее сделать синтезатор речи для неограниченного текста любой предметной области. В таком случае пользователь может задать системе синтеза на произношение любую фразу или предложение.

Методы синтеза речи
Сегодня существует три основных направления синтеза: дифонный подход (дифон — это звук от середины одной фонемы до середины соседней фонемы), аллофонный подход (реализация фонемы в окружении контекста слева и справа) и технология Unit Selection (выбор звуковых элементов из речевой базы). Но каждый из них в отдельности имеет свои недостатки:
 * **Дифонный подход** позволяет делать разборчивый, но неестественный по тембру речевой сигнал. В тембре синтезированной речи не узнается тембр диктора-донора.
 * **Аллофонный подход** — естественность голоса несколько выше, чем в дифонном подходе за счет большего набора звуковых элементов. Однако, как и в дифонном синтезе голос получается довольно роботизированным, и в нем трудно узнать голос диктора-донора.
 * **Unit Selection** — естественность тембра речи высока и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся с заметными искажениями вплоть до полного выпадения отдельных звуков.

Системы синтеза речи
Хорошая читалка обладает множеством функций делающих чтение с экрана менее утомительным. Раскладка в виде книги, плавный скроллинг текста, сглаживание текста - только некоторые из инструментов применяющихся в читалках.
 * Читалка - программа предназначенные для удобного чтения текстов и электронных книг с экрана компьютера.** Кроме этого многие читалки умеют озвучивать тексты, используя для этого специальные программы речевого синтеза.

[|**ICE Book Reader**] — мощная, бесплатная программа для чтения текстов голосом (читалка). [|**Cool Reader**] — программа для комфортного чтения книг с экрана, форматирования и конвертирования. [|**UkrVox**] — украинский голос для Speech API и простая программа для преобразования текстов в голос. [|**Rozmovlyalka**] — бесплатный синтезатор для голосового озвучивания украиноязычных текстов. [|**TOM Reader Russian**] — программа для комфортного чтения электронных текстов и книг на компьютере. [|**Balabolka**] — бесплатная программа для чтения текстовых файлов человеческим голосом. [|**Govorilka**] — небольшая бесплатная программа для чтения текстов с помощью движков голосового синтеза.

Для того, чтобы программы, входящие в категорию «[|Читалки]» могли озвучивать тексты «человеческим голосом» в системе должна быть установлена библиотека SAPI (//Speech Application Programming Interface//, или //Speech API//) и голосовые движки.

Speech API
На сегодня распространены две версии Speech API: SAPI4 и SAPI5. Обе эти библиотеки несовместимы, но друг другу не мешают и могут работать на одном компьютере, поэтому для программ поддерживающих обе библиотеки рекомендуется их обе и установить (это позволит иметь большее количество голосовых движков). В операционных системах Windows XP, Vista и 7 обычно уже есть установленные библиотеки SAPI5, поэтому нужно (но не обязательно) только установить SAPI4. Однако, возможны и такие случаи, когда возникает потребность в установлении SAPI5. Скачать и ознакомиться с особенностями установки каждой из этих библиотек можно на их страницах: — [|Скачать SAPI].

**Голосовые движки**
Также, для синтеза речи, на компьютере необходимо иметь установленные голосовые движки для желаемого языка. Выше уже было указано, что библиотеки SAPI4 и SAPI5 несовместимы, поэтому каждый из голосовых движков может работать только с одной из этих библиотек. Если на вашем компьютере установлена обе библиотеки Speech API, то можно установить все голосовые движки: — [|Скачать голосовые движки для SAPI].


 * Программы экранного доступа **

Программа экранного доступа **[|VIRGO 4]** - это итог многолетней работы фирмы BAUM по развитию программы VIRGO, главная цель которой состоит в обеспечении комфортной работы слепых и слабовидящих пользователей с Windows. VIRGO 4 позволяет пользователю выбирать, какую информацию показывать на брайлевском дисплее, а какую произносить голосом. Слабовидящие пользователи могут также воспользоваться интегрированной в VIRGO 4 системой увеличения экрана ГАЛИЛЕО. Комплексный подход VIRGO 4, использующий брайль и речь, гибко сочетает силу обоих методов вывода информации для удобства пользователя.

С помощью MyStick слепые и слабовидящие пользователи ПК не привязаны к определенному, специально оборудованному компьютеру и могут получить доступ к любому компьютеру, работающему с Windows. Существуют два варианта MyStick: с речевым выводом и увеличением экрана и только с речевым выводом. Поставляются версии MyStick для русского, английского, немецкого, французского, шведского, норвежского и датского языков.
 * [|MyStick]** является первым мобильным экранным доступом, который работает без инсталляции на всех современных компьютерах с Windows. Вставленный в свободный USB-порт компьютера, MyStick запускается автоматически и пользователь сразу может работать с компьютером.После удаления MyStick на компьютере не остается никаких файлов и не меняется никакая конфигурация. MyStick – это флэшка формата U3.

Программа экранного доступа **[|Кобра 9.1]** упрощает работу с Windows 7, Vista или Windows XP для слепых и слабовидящих пользователей компьютера. КОБРА объединяет все стандартные функции современной программы экранного доступа, ориентированной на пользователя. КОБРА фиксирует требования пользователя и выводит важную информацию с компьютерного монитора с помощью речи, брайля или увеличения экрана.

**Источники** http://s-speech.ru http://tpl.taba.ru/blog/Analiz_rechi/Sintezatory/127268_Avtomaticheskiy_sintez_rechi.html http://www.speechpro.ru/technologies/synthesis [] [] http://phonetics.spbu.ru/abiturientam_avto_s_r.html

- дополнительная информация

История
У синтеза речи долгая история, обросшая легендами. Ещё в [|Х веке] [|Герберту Аврилакскому] приписывали владение искусством изготовления [|терафима] — говорящей мёртвой головы. Сделанная из [|бронзы], эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося. В середине [|XIII века] [|монах-доминиканец] [|Альберт фон Больштедт] и английский [|философ] и [|естествоиспытатель] [|Роджер Бэкон] также пытались создавать первые образцы «говорящих голов». В конце [|XVIII века] датский учёный [|Христиан Кратценштейн], действительный член [|Российской Академии Наук], создал модель речевого тракта человека, способную произносить пять долгих [|гласных] звуков (**а**, **э**, **и**, **о**, **у**). Модель представляла собой систему [|акустических] [|резонаторов] различной формы, издававших [|гласные] звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. В [|1778] австрийский учёный [|Вольфганг фон Кампелен] дополнил модель Кратценштейна моделями языка и губ и представил акустическо-[|механическую говорящую машину], способную воспроизводить определённые звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В [|1837] учёный [|Чарльз Уитстоун] (//Charles Wheatstone//) представил улучшенный вариант машины, способный воспроизводить гласные и большинство [|согласных] звуков. А в [|1846 году] [|Джезеф Фабер] (//Joseph Faber//) продемонстрировал свой говорящий [|орга́н] //Euphonia//, в котором была реализована попытка синтезирования не только речи, но и пения. В конце [|XIX века] знаменитый учёный [|Александр Белл] создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна. С наступлением [|XX века] началась эра электрических машин, и учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели. В 1930-х годах работник [|Bell Labs] [|Хомер Дадли] (//Homer Dudley//), работая над проблемой поиска путей для снижения пропускной способности необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от [|англ.] //voice// — голос, [|англ.] //coder// — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант [|вокодера] Дадли, VODER, был представлен на Нью-Йоркской [|Всемирной выставке 1939 года][|[3]]. Первые синтезаторы речи звучали довольно неестественно, и часто едва можно было разобрать производимые ими фразы. Однако качество синтезированной речи постоянно улучшалось, и речь, генерируемую современными системами синтеза речи, порой не отличить от реальной человеческой речи. Но несмотря на успехи электронных [|синтезаторов речи], исследования в области создания механических синтезаторов речи по-прежнему ведутся, например, для использования в [|роботах]-гуманоидах.[|[4]] Первые системы синтеза речи на базе вычислительной техники стали появляться в конце [|1950-х] годов, а первый синтезатор «текст-в-речь» был создан в [|1968 году].