Пример: Глобальная сеть INTERNET
Я ищу:
На главную  |  Добавить в избранное  

Главная/

Программирование, базы данных. /

Синтез речи \озвучание речи компьютером\

←предыдущая следующая→
1 2 3 4 5 6 7 8 

раздел и получить всю информацию на свой факсимильный аппарат. Первый образец такой системы в России — справочный центр, разработанный компанией "Новые системы коммуникаций".

Следующим весьма важным компьютерно-телефонным ресурсом являются платы для распознавания речи. Они работают с оцифрованной речью, поставляемой им голосовыми платами и могут распознавать определенные ключевые слова, произносимые человеком. Распознавание производится загруженным в плату программным обеспечением, ресурсы центрального процессора при этом не используются. Количество и режим произнесения (слитно или раздельно) ключевых слов зависит от режима распознавания. При распознавании речи с настройкой на голос пользователя количество ключевых слов может составлять несколько десятков тысяч, так что пользователь может не только подавать простые голосовые команды, но и диктовать сообщения, скажем, для отсылки по электронной почте. Возможности распознавания речи без настройки на голос конкретного пользователя определяются наличием словаря. Для русского языка пока разработан только словарь, позволяющий распознавать цифры от нуля до девяти и слова типа "да" и "нет".

За рубежом еще в 1984 году фирмой AT&T была разработана система Conversant поддерживающая одновременно до 48 вызовов, требующих голосового ответа. Система работает с программным пакетом FlexWord той же фирмы, который обеспечивает распознавание до 2000 отдельных слов и фраз, а модуль преобразования текста в речь предоставляет абонентам возможность получать сложную информацию из различных источников.

Интегрированная офисная система - разработка компании "Артикс Лтд". Она включает в себя справочную службу, предоставляющую информацию о компании: часы работы, адрес, как проехать; информацию о товаре: цена, условие поставки, технические спецификации, комплектация, фото. Система также осуществляет подбор товара по основным реквизитам, рассылку информации о новинках, распродажах, обработку заказов и контроль их прохождения на всех стадиях. Обрабатывая входящие звонки, система регистрирует их и пытается осуществить распознавание абонента (по номеру звонящего или по личному коду). Помимо этого система обладает еще целым рядом сервисных функций по координации деятельности мобильных и офисных сотрудников, оповещению сотрудников и клиентов о каких-либо событиях, помогает в подборе кадров путем автоматического анкетирования и др.

Преобразование текст-речь — важнейшая функция компьютерно-телефонной системы. Она необходима, в частности, в системах, где абонент получает информацию без обращения к оператору. Наиболее простой пример — банковская система: человек звонит в банк, набирает на телефоне свой личный номер и прослушивает информацию об остатке средств на его счете. При этом компьютер посылает запрос к базе данных, получает ответ и сам озвучивает его абоненту. В такой системе ничего особенно мудреного нет, для ее создания, как и для решения подавляющего большинства подобных проблем, достаточно записать на диск набор речевых фрагментов и разработать не слишком сложную программу, которая будет "собирать" сообщение из фрагментов. Для того чтобы "склеенное" сообщение звучало естественно, потребуется определенное искусство, однако никаких принципиальных проблем на этом пути нет. Первые банковские системы такого рода в России уже работают, в качестве примера можно привести разработки компаний Светец и Ланит.

Значительно более сложной, совершенной и гораздо более редко встречающейся в реальных приложениях технологией является прямое преобразование текст-речь, при котором голосовое сообщение синтезируется по произвольному тексту. На рынке пока отсутствуют продукты, осуществляющие данное преобразование для русского языка, хотя ряд фирм, и в первую очередь BeST (Berkeley Speech Technologies), мировой лидер в этой области, активно ведут такие работы. Преобразование текст-речь также осуществляется программным обеспечение, загруженным в специальные платы-преобразователи. Dialogic выпускает и такие платы.

На сегодняшний день многие исследовательские лаборатории значительно продвинулись в деле синтеза и распознавания речи, выйдя на субфонетический уровень языка, когда система в принципе может работать не с ограниченным набором фраз и слов, заранее занесенными в память, а со звуками, из которых строится речь.

Без трудностей никуда

Системы компьютерной телефонии позволяют существенно автоматизировать труд офисных работников. Помимо уже упоминавшихся функций, система электронного офиса может обеспечивать автоматическое соединение звонящего извне абонента с нужным сотрудником, предоставлять услуги голосовой почты (каждый сотрудник получает свой голосовой почтовый ящик, где абонент может оставлять голосовые сообщения), а также поддерживать единую среду обмена сообщениями. О последнем применении следует сказать особо. Речь идет о программном обеспечении, благодаря которому пользователь может единым упорядоченным образом знакомиться с содержанием всех полученных сообщений (электронных писем, голосовых и факсимильных сообщений), немедленно принимать решение о форме ответа и тут же отправлять ответное сообщение, выбирая телефонный номер или электронный адрес из списка на экране компьютера.

Новая технология вызывает огромный интерес у российских пользователей. И многие фирмы сейчас активно работают на этом направлении, пропагандируя новую технологию и одновременно проводя адаптацию ее к техническим условиям нашей телефонной сети. Главной трудностью здесь является проблема тонального набора.

Как уже говорилось выше, все голосовые платы рассчитаны на распознавание ответов абонента в виде сигналов тонального набора. В России же (как и 85 процентах других стран) принята принципиально иная импульсная система. Все вышеперечисленные прикладные системы рассчитаны именно на тональный набор, что исключает из числа их потенциальных пользователей всех абонентов, не имеющих телефонных аппаратов с тональным набором (а таковых подавляющее большинство). Выходом из положения является либо работа с распознаванием речи, либо применение преобразования пульс-тон. Преобразование пульс-тон в настоящее время выполняется только специализированными платами, однако Dialogic объявил о намерении в ближайшее время включить соответствующие функции в программное обеспечение, загружаемое в голосовые платы. О распознавании речи подробно говорилось выше. Специалисты CompTek International провели тестирование обеих технологий в условиях Московской телефонной сети и выяснили следующее. Преобразование пульс-тон выполняется успешно во всех случаях, когда соответствующие сигналы попадают на вход преобразователя. Проблема состоит в том, что характерные щелчки, сопровождающие импульсный набор, передаются не всеми московскими АТС. Успешность распознавания голоса зависит от того, какая цифра произносится, однако в среднем правильное распознавание обеспечивается в 75-80 процентах случаев.

CompTek International оптимистично оценивает будущее компьютерной телефонии в России. Гибкость и дешевизна аппаратной базы и легкость прикладного программирования дают основания считать, что компьютерно-телефонные системы в ближайшем будущем получат в нашей стране самое широкое распространение.

Речевая почта

- voice-mail - вид электронной почты, предназначенный для передачи речевых сообщений.

Слияние телефонной сети с другими типами коммуникационных сетей привело к появлению новых сетевых служб. Речевая почта обеспечивает монолог пользователей, передавая речь в виде сообщений, которые до их востребования хранятся в памяти систем.

Речевая почта, именуемая также телефонной почтой, записывает речевое сообщение для

←предыдущая следующая→
1 2 3 4 5 6 7 8 


Copyright © 2005—2007 «RefStore.Ru»