Автоматическая+обработка+речевого+сигнала

Различают методы обработки сигналов во временной (англ. time domain) и в частотной (англ. frequency domain) области. Эквивалентность частотно-временных преобразований однозначно определяется через преобразование Фурье.
 * Цифрова́я обрабо́тка сигна́лов** (ЦОС, DSP — англ. digital signal processing) — преобразование сигналов, представленных в цифровой форме.

Обработка сигналов во временной области широко используется в современной электронной осциллографии и в цифровых осциллографах. Для представления сигналов в частотной области используются цифровые анализаторы спектра. Для изучения математических аспектов обработки сигналов используются пакеты расширения (чаще всего под именем Signal Processing) систем компьютерной математики MATLAB, Mathcad, Mathematica, Maple и др. В последние годы при обработке сигналов и изображений широко используется новый математический базис представления сигналов с помощью «коротких волночек» — вейвлетов. С его помощью могут обрабатываться нестационарные сигналы, сигналы с разрывами и иными особенностями и сигналы в виде пачек. Вся история развития теории и техники ЦОС, как и информатики в целом, напрямую связана с достижениями в области дискретнойсхемотехники и компьютерных технологий. Дискретизация непрерывной информации во времени и квантование по уровню являются основой ее эффективного кодирования, преобразования, передачи и архивации. С появлением в 40-х годах первых ЭВМ стало реальным возникновение нового фундаментального научного направления вычислительной математики, одним из разделов которой можно считать машинные алгоритмы цифровой обработки данных. Однако ограниченные вычислительные ресурсы используемых в те годы ЭВМ не позволяли проводить обработку данных в реальном времени. Речь могла идти лишь о моделировании реальных процессов. Положение начало радикально изменяться с появлением в 60-х годах класса малых ЭВМ, ориентированных преимущественно на решение задач управления и обработки данных в реальном времени. Потенциальная возможность обработки, преобразования и передачи аналоговых по природе сигналов цифровыми методами с помощью малых ЭВМ. привлекла внимание специалистов, работающих во многих областях, и прежде всего, в области связи, гидроакустики и обработки речевых сигналов. С этого времени формулируется круг проблем и задач теории ЦОС как самостоятельного научного направления, которому предстоит в дальнейшем свой многоэтапный путь становления и развития. Задача обработки сигналов. В случае речевых сигналов источником информации является человек. Измерению или наблюдению обычно подвергается акустическое колебание. Обработка сигнала предполагает в первую очередь формирование описания на основе некоторой модели с последующим преобразованием полученного представления требуемую форму. Последним шагом в процессе обработки является выделение и использование информационного содержания сигнала. Этот шаг может осуществляться путем прослушивания сигнала человеком или его автоматической обработки. В качестве примера можно рассмотреть систему идентификации диктора из заданного ансамбля дикторов, в которой используется представление речевого сигнала в виде зависящего времени спектра. Одним из возможных преобразований сигнала в этих условиях является усреднение спектра по всей фразе, сравнение среднего спектра с эталонами, имеющимися для каждого диктора, и затем выбор соответствующего диктора на основе полученных мер сходства спектров. Для данного примера информационным содержанием сигнала являются признаки индивидуальности диктора. Таким образом, обработка сигнала в общем случае предусматривает решение двух основных задач: 1. Получить общее представление сигнала либо в форме речевого колебания, либо в виде параметров; 2. Преобразовать полученное представление в более удобную для решаемой задачи форму. Цифровая обработка включает как получение дискретных представлений сигнала, так и теорию, расчет и применение цифровых алгоритмов для преобразования полученных дискретных представлений.Первые методы цифровой обработки речевых сигналов имитировали сложные аналоговые системы. Согласно современной точке зрения система цифровой обработки речевых сигналов, выполненная в виде программы на ЭВМ, реализует точный алгоритм обработки и может быть изготовлена в виде специализированного вычислительного устройства. Цифровые методы в настоящее время широко применяются при решении задач обработки речевых сигналов. Способы представления речевых сигналов и их применение. Прирассмотрении вопросов применения цифровой обработки речевых сигналов полезно сконцентрировать внимание на трех основных направлениях: - представление речевых сигналов в цифровой форме; - цифровой реализации аналоговых методов обработки; - методы, основанные исключительно на цифровой обработке. Представление речевых сигналов в цифровой форме является, конечно,одним из центральных вопросов. Одной из самых основных теорем является теорема дискретизации или теорема Котельникова, утверждающая, что всякий ограниченный по полосе частот сигнал может быть представлен в виде последовательности равноотстоящих отсчетов, взятых с достаточно высокой частотой. Таким образом, процедура дискретизации лежит в основе теории и приложений цифровой обработки. Существует ряд способов дискретного представления речевых сигналов. Как показано на рис. 3.2, эти способы могут быть разбиты на две большие группы - цифровое и параметрическое представление речевого колебания.
 * Основные задачи**
 * Линейная фильтрация — селекция сигнала в частотной области; синтез фильтров, согласованных с сигналами; частотное разделение каналов; цифровые преобразователи Гильберта и дифференциаторы; корректоры характеристик каналов
 * Спектральный анализ — обработка речевых, звуковых, сейсмических, гидроакустических сигналов; распознавание образов
 * Частотно-временной анализ — компрессия изображений, гидро- и радиолокация, разнообразные задачи обнаружения сигнала
 * Адаптивная фильтрация — обработка речи, изображений, распознавание образов, подавление шумов, адаптивные антенные решетки
 * Нелинейная обработка — вычисление корреляций, медианная фильтрация; синтез амплитудных, фазовых, частотных детекторов, обработка речи, векторное кодирование
 * Многоскоростная обработка — интерполяция (увеличение) и децимация (уменьшение) частоты дискретизации в многоскоростных системах телекоммуникации, аудиосистемах
 * Свертка - традиционные типы
 * Секционная свертка
 * Краткая история развития теории и техники ЦОС (Цифровой обработки сигнала)**
 * Области применения речевых технологий.**

Цифровое представление речевого колебания основано на сохраненииформы колебания в процессе дискретизации и квантования. Параметрическое представление базируется на описании речевого сигнала, как выходного отклика модели речеобразования. На первом этапе построения параметрического представления речевое колебание подвергается дискретизации и квантованию, а затем обрабатывается для получения параметров модели. Параметры модели: обычно разделяются на параметры возбуждения (относящиеся к источнику звуков речи) и параметры голосового тракта (относящиеся непосредственно к отдельным звукам речи).

Одним из наиболее ранних и наиболее важных примеров применения обработки речевого сигнала является вокодер или кодер голоса (voice-coder), созданный в 1930-х гг. Целью разработки вокодера являлось уменьшение полосы частот, необходимой для передачи речи. Эта задача актуальна и в настоящее время, несмотря на наличие широкополосных спутниковых, оптических систем связи и т.д. Кроме того, необходимы дешевые и как можно более низкоскоростные преобразователи речи в цифровую форму для их использования в цифровых телефонных сетях связи. Одной из положительных сторон применения цифровых систем является возможность обеспечения скрытности передачи. Системы синтеза речи. Большой интерес к системам синтеза речи объясняется необходимостью разработки способа экономического хранения речевого сигнала в системах речевого ответа. Подобная система реализует цифровой алгоритм автоматического сообщения голосом информации, которую запрашивает пользователь с клавиатуры пульта или специального терминала. Поскольку пультом может служить обычный телефонный аппарат с кнопочным набором, система речевого ответа может широко использоваться в коммутируемых телефонных сетях без установки какого-либо дополнительного оборудования. Системы синтеза речи играют большую роль и при обучении правильному произношению речи.
 * Цифровая передача и хранение речевого сигнала**.

Системы речевого обмена между человеком и компьютером можно подразделить на три класса: 1) с речевым ответом; 2) распознавания диктора: a) верификация диктора, б) идентификация диктора 3) распознавания речи. Системы с речевым ответом предназначаются для выдачи информации пользователю в форме речевого сообщения. Таким образом, системы с речевым ответом — это системы односторонней связи, т. е. от машины к человеку. С другой стороны, системы второго и третьего классов — это системы связи от человека к машине. В системах распознавания диктора задача состоит в верификации диктора (т. е. в решении задачи о принадлежности данного диктора к некоторой группе лиц) или идентификации диктора из некоторого известного множества.

В ряде случаев речевой сигнал, поступающий в систему связи оказывается искаженным, что снижает качество передачи. В этом случае методы цифровой обработки могут быть использованы для улучшения качества восприятия сигнала. Примерами подобных разработок являются устранение реверберации (или эха) устранение шума в речевом сигнале, восстановление речевого сигнала записанного в гедиевокислородной среде, которая используется в качестве дыхательной смеси водолазами. > http://www.nuance.com/dragon/index.htm) — первый коммерческий продукт для распознавания слитной речи, вышедший в начале 1997 года. Позволяет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсолютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа способна обучаться и в процессе дальнейшего диктанта; рабочее качество распознавания может быть достигнуто спустя примерно пару недель пользования системой.Последняя версия вышла в июне 2011 года.С видео, наглядно демонстрирующим процесс работы с данным продуктом можно ознакомиться здесь :http://video.nytimes.com/video/2008/08/07/technology/personaltech/1194817477305/when-your-computer-listens-to-you.html > Л.Р.Лабинер,Р.В.Шафер "Цифровая обработка речевых сигналов",Москва,1981. http://ru.wikipedia.org/wiki/Цифровая_обработка_сигналов Речевые технологии для образования,науки и культуры.На сайте можно ознакомиться с работой и продуктами компании и с теоретическим материалом,посвященным речевым технологиям:http://www.istrasoft.info/ Веб-сайт,посвященный речевым технологиям:http://www.speech-soft.ru/index.php
 * Системы распознавания речи.** В самом общем виде системы распознавания должны преобразовывать речевое сообщение в эквивалентный текст. Сложность задачи распознавания определяется условиями произнесения и контекстом произносимой фразы, а также наличием или отсутствием возможности настройки на диктора. Совместное использование систем распознавания и синтеза речи позволяет получить систему передачи речевого сигнала с минимально возможной скоростью передачи. Устранение дефектов речи. В этом случае предполагается обработка речевого сигнала и отображение полученной информации в виде, наиболее приемлемом для обучаемого индивидуума. Разработан также ряд методов цифровой обработки сигнала для сенсорного и визуального отображения информации при обучении глухих речи.
 * Улучшение качества речевого сигнала.**
 * Примеры программ:**
 * 1) Пакет для распознавания слитной речи Via Voice (www.ibm.com/viavoice) от IBM отличается своей способностью с самого начала, без обучения, распознавать до 80% слов. При обучении вероятность правильного распознавания повышается до 95%, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машинистка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.
 * 2) Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автоматический переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский,японский,корейский, испанский, немецкий и иврит.
 * 3) Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс,
 * 1) Praat - это приложение, специально разработанное, чтобы помочь фонетистам в проведении анализа, синтеза и обработки речи. С помощью этого инструмента можно анализировать и синтезировать высоту тона, формат и интенсивность речи, а также изменить её характер и тон.Программа Praat также может быть использована в других приложениях. Фонетисты могут использовать её во время экспериментов с прослушиванием речи, таких, как тесты на идентификацию и выявление отличий. Программа также включает в себя математические и фонетические символы и генерирует файлы Encapsulated PostScript, что делает её подходящей для написания докторских диссертаций и статей. Кроме того, программа обладает простым программируемым языком сценариев и хорошо работает с другими программами.(http://fonsg3.hum.uva.nl/praat/)
 * 2) VoiceWalker-программа для транскрибирования аудио или видео записей.(http://www.linguistics.ucsb.edu/projects/transcription/tools)
 * 3) InqScribe-программное средство для транскрибирования,анализа и создания субтитров для аудио или видео записей.(http://www.inqscribe.com/)
 * Источники:**
 * Дополнительно:**