Кибернетика

Машины, которые говорят и слушают

УДК 621.391
        Рассмотрены современныэ тенденции  развития  систем  автоматического
     распознавания и синтеза речевых сигналов. Освещены проблемы  построения
     алгоритмов распознавания в неадаптивных системах  речевого  управления.
     Описаны  эксперименты  по  созданию  систем  автоматического   речевого
     запроса экономической информации с элементами автоматического обучения.
        Книга рассчитана  на  научных  работников,  инженеров  и  студентов,
     специализирующихся по   технической кибернетике и теории информации.
Работу рецензировали и рекомендовали к изданию:
      академик АН СССР А.А.Дородницын  кандидат  физико-математических  наук
      М.Н.Маричук© Издательство "Штиинца",1985 г.
О I5Q3000000 - 62 39-85 M755(I2) - 85

ВВЕДЕНИЕ

    Проблема реализации речевого диалога человека и  технических  средств  -
актуальная задача современной кибернетики. В настоящее время  пользователями
вычислительных  машин  и  средств,    оснащенных  вычислительными  машинами,
становятся    люди,     не     являющиеся    специалистами     в     области
программирования. Особенно актуальной   стала  задача  общения  человека   и
ЭВМ с появлением  микропроцессоров    и  больших  интегральных  схем.  Новая
технология   оказала     прогрессивное   влияние    на     психологию    как
разработчиков  современных  многопроцессорных  ЭВМ  .так  и  неспециалистов-
пользователей,не  подготовленных   к   тому,  чтобы   пользоваться   сложной
функциональной   клавиатурой,    языком    программирования,    комплексными
средствами  управления  техникой.  Проблема  речевого  управления  возникла,
кроме того,в связи  с  тем,  что   в   некоторых  областях  применения  речь
стада  единственно  возможным  средством  оощения  с  техникой  (в  условиях
перегрузок, темноты  или  резкого  изменения  освещенности,при     занятости
рук, чрезвычайной  сосредоточенности  внимания  на    объекте,  который   не
позволяет отвлечься ни на секунду, и т.д.).
    Массовое внедрение различных бытовых технических    средств,  содержащих
микропроцессоры  и  другие  большие  интегральные    схемы,  в    частности,
сложных микрокалькуляторов,  пег-зональных  ЭВМ,  также  требует  упрощения,
"демократизации"  систем  управления       такими  средствами.   Мы   должны
пользоваться  новой  сложной  техникой  так  же,  как   пользуемся   часами,
радиоприемником,  стиральной  машиной.Приближается   время,    когда   будут
созданы "механические слуги"    человека  -  роботы,  помогающие   в   быту,
выполняющие   работу   по    уборке   помещения,   оказывающие   помощь    в
сельскохозяйственных и   строительных работах  и  т.д.  Безусловно,  человек
будет  заинтересован в  голосовом управлении сложной  бытовой техникой  и  в
  конечном счете такими роботами.
    Ближайшие  перспективы   развития   вычислительной   техники,   создание
высокопроизводительных  ЭВМ  пятого  поколения,   надеденных    способностью
анализировать зрительные  и  звуковые образы,     также
3
требуют  того,  чтобы  задачи  автоматического  распознавания  и     синтеза
речевых сигналов  не  оставались без внимания.     Невозможно  предположить,
чтобы  вычислительные системы  обладали  производительностью   в  десятки  и
сотни  миллионов  операций  в  секунду  и    в  качестве  вводных  устройств
использовали традиционную   клавиатуру дисплея, перфоленты или перфокарты.
    В первой главе  рассматривается  современное  состояние  автоматического
распознавания  и  синтеза речевых сигналов  (по  публикациям   до   1981  г.
включительно).  Отмечается  возрастающий     поток  публикаций    по    этим
проблемам,  причем  многие   работы     посвящены   вопросам   практического
построения систем распознавания  и   синтеза  речи   на   специализированных
микроЭВМ.   В   настоящей   монографии    не   нашли   отражение     работы,
опубликованные  после  1981  г.,   так    как   материалы    к    публикации
готовились в основном до бтого  времени. (южно лишь отметить,  что  за  1982
и 1983 гг. практическое    направление  работ   в   области  автоматического
распознавания  и  синтеза  речи  интенсифицировалось.    В    нашей   стране
появились      первые  промышленные  системы  автоматического   ввода/вывода
речевой  информации - "ИКАР", разработанная в НИИСчетмаше  (г.Москва),  СРД-
1,изготовленная  в ОКБ Института кибернетики АН УССР им.  В.М.Глушко-ва,   и
Марс,   созданная   Минским    отделением    ЦНИИС.    Эти    системы,широко
демонстрировавшиеся  на  ВДНХ  и  других  промышленных  выставках,  обладают
примерно   сходными   техническими   характеристиками     -они    обучаются,
настраиваются  на  голос конкретного  пользователя и   словарь,  достигающий
йОО слов,  и  обеспечивают точность  распознавания около  95&   и   реальное
время  распознавания.  В   качестве   метода,   обеспечивающего   нелинейное
сравнение  входных  реализации   и   эталонов,   используется   динамическое
программирование. Большие успехи   в  области создания  систем  такого  рода
достигнуты  также  в  QUA   и  Японии.  В  США  с  1982  г.  начал  выходить
специальный  журнал  Speech  Technology   (Речевая  технология),  в  котором
описываются  области  применения   промыиленных   систем   распознавания   и
синтеза   речи,    их    тестирование,    технические    характеристики    и
технологические особенности.
    В   монографии   основное   внимание    уделяется    описанию     систем
распознавания  речи,  работающих   без   предварительной      настройки   на
диктора.  Авторы   в   течение  ряда  лет  совместно  работали     над  этой
проблемой    в    Вычислительном   центре   Академии   наук   СССР.Идеология
неадаптивных систем распознавания сложилась еще  в  60-е   гг.-в  совместных
разработках  Вычислительного   центра   и     Института   проблем   передачи
информации АН СССР. Но основные результаты, описанные   в   книге,  получены
авторами в конце 70-х - начале 80-х гг.
Глава 1
        СОВРЕМЕННЫЕ ТЕНДЕНЦИИ  РАЗВИТИЯ  ПРОБЛЕМЫ  РЕЧЕВОГО  ВЗАИМОДЕЙСТВИЯ
        «ЧЕЛС ВЕК - ЭВМ»
          §  I.I.  Некоторые  аспекты  исследования  речевых  сигналов   на
          современном этапе
    В 70-х гг. повысился  интерес   к   проблемам  исследования  речи.  Это
 связано   с   возросшими  успехами   дискретной   обработки   сигналов   на
 современной микроэлектронной технике  и  широким распространением  микроЭВМ
 и  мультимикроцессорньк систем, появление  которых  означало  революцию   в
 информатике. Научные достижения в  области автоматического распознавания  и
  синтеза речи поставили   вопрос о  практическом общении человека  с  миром
 мощных по своей производительности   и   возможностям  микроЭВМ  на  языке,
 близком к естественному. Сложнейшая техника приблизилась   к  пользователю-
 неспециалисту,  и  пользователь "потребовал",  чтобы общение  о     ЭВМ  (в
 частности,  с  информационными   и   управляющими  ЭВМ)  производилось   на
 более привычном ему естественном языке.
    В  связи   с  этим  привлекли  внимание  работы  по  созданию    первых
 промышленных устройств ограниченного речевого ввода и   вывода  информации,
 а   также  достаточно  широко  разрекламированных  систем   автоматического
 понимания естественной, слитной речи, над   которыми  работали   в   ОДА  в
 течение I972-I976 гг. по проекту  айра.
    Следует отметить, что автоматическое распознавание и  синтез речи -  не
   единственное  в   речевых   исследованиях,   что    привлекает   внимание
 специалистов  и  возможных потребителей.
    Наряду  с  автоматическим распознаванием смысла сообщения   и  синтезом
 речи (проблемами, которым  в  основном и посвящена  настоящая  монография),
 исследователи речевых сигналов успешно     решают  задачи:  автоматического
 распознавания личности говорящего (т.е. решают  задачу,  кто  это  сказал),
 автоматической  верификации говорящего (подтверждение,  тот  ли  конкретный
 человек произнес эту фразу), оценки  по   голосу  эмоционального  состояния
 оператора,распознавания  речи,  произносимой   в   другой  воздушной  среде
 (гелиевая речь), определения  по   речевому  сигналу  патологии     органов
 речеобразования,  разработки   более   совершенных   методов   преподавания
 иностранных языков (выработка правильного акцента и  интонации  по  картине
 "эталонных" параметров речевого сигнала ), помощи лицам
с  дефектами  органов  слуха   и    речеобразования,   очистки   и   анализа
затупленной речи, создания систем узкополосной  помехоустойчивой  связи,   а
также ряд других задач.  Рассмотрение  всех  этих  проблем  не   входило   в
планы авторов, которые ограничиваются здесь простым  их  перечислением.
    В  данной   главе  кратко  рассматриваются   основные    публикации   по
проблемам автоматического распознавания  и   синтеза      речи,  появившиеся
в I976-I98I гг. Сведения  о  более ранних    работах в  этой  области  можно
получить  из [58,79,8б].
    В СЮ9] приводятся основные лаборатории США,  Великобритании, Франции   и
Западной Германии, тематика которых связана с автоматическим  распознаванием
 и  синтезом речи.  В [127]   сообщается, что   проблема  построения  машин,
способных воспринимать речь человека (желательно  с  использованием  пра'  л
естественного языка), остается главным  направлением  речевых  исследований,
одной   из   ключевых   проблем   кибернетики.    В     [144]     отмечается
возрастающий интерес  к  этой проблеме,  связанный   с   увеличением  спроса
на малые  устройства  распознавания  слов   и   появлением  новых  компаний,
активно  участвующих   в   создании  промышленных   систем   автоматического
распознавания  речи на новой технологической базе.
    В нашей стране наблюдается широкий интерес   к   проблеме   исследования
речевых  сигналов.  Регулярно  проводятся   всесоюзные   школы-семинары   по
проблеме автоматического распознавания  слуховых образов (APGO).  В   каждой
союзной  республике  существуют  лаборатории   или   группы,  решающие   эти
задачи.
    Стало    традиционным    классифицировать     системы    автоматического
распознавания речи  на адаптивные, работающие с    подстройкой  под  диктора
и   словарь,   и   неадаптивные,  обеспечивающие   работу  с    произвольным
диктором-носителем  нормы  произношения  данного  языка.    К   практическим
системам первого типа относятся vip-  юо,  WRS  и   ИКАР,  СРД-1,  МАРС,   к
неадаптивным - экспериментальные   системы лаборатории Bell, ВЦ  и  ИППИ  АН
СССР, устройство       фирмы  Dialog  Systems    .  Следует  отметить,   что
системы  автоматического  распознавания  речи   пока  не  получили  широкого
распространения, хотя  и  выпускаются с 1973 г. серийно.
    Более доведенными до  уровня коммерческих  образцов   являются   системы
автоматического   речевого   ответа,   т.е.   системы,     основанные     на
автоматическом синтезе речи. Промышленность США и Японии выпускает  большими
партиями  синтезаторы   речи,   ориэнтированные   на   самое   разнообразное
применение, - от детских игрушек,оснащенных  голосовым  выводом,  до  мощных
информационных   систем,   отвечающих   голосом    по    речевому    запросу
пользователя. В основе    современных
б
коммерческих систем речевого ответа лежат три основных   способа  синтеза  -
непосредственное  кодирование  речевой  волны  (дискретизация   и   сжатие),
формантный синтез и  синтез,  основанный  на    линейном  предсказании  [5].
(Подробное  описание  достижений   науки  и   промышленности    в    области
автоматического синтеза речи дано
в § 1.4).
    В  пятой  главе  подробно  рассматриваются  особенности    разработанной
авторами экспериментальной запросной системы  речевого ввода, работающей   с
 проблемно-ориентированным языком,  словарный запас которого составляет  120
слов.    Система    базируется       на    аппаратурно-программном    методе
распознавания,  использующем    информативные  признаки   речевых   отрезков
^23,13,9?].
        §  I. W l•/•л-номера соответственно  признака,
 сегмента  в  слове и  слова во фразе.
    Процесс распознавания  слов начинался с выбора  эталонов  -претендентов,
идентичных  входной  реализации,  и   кодов  макровре-ненной  структуры    и
отличных от нее числом квазифонетичвских  сегментов  на  величину  не  более
заданного порога. Наиболее вероятные пары   гипотез   о   слове  принимались
методом  динамического программирования. При  этом  учитывались  лексические
ограничения на место слова во фразе.  Далее  блок  семантико-синтаксического
анализа принимал решение об истинной последовательности  слов во фразе.  При
 работе  с шестью  операторами  и  обучении  системы   на  каждом   из   них
надежность распознавания  слов  составила  8836,а  надежность  распознавания
фраз  за  счет блока лингвистического анализа - 95%.  Точность   верификации
диктора  по  произвольной фразе - 96%. Система устойчива  к   внешним  шумам
до 65 дБ.
    Другая  система,  разработанная  в  Институте   систем   управления   АН
ГрузССР,способна работать при более высоком  урочне  шумов  (до  100  дБ   и
выше)   СЗб].   Основной  особенностью  этой  системы   распознавания  фраз,
произносимых    с    паузами   между   словами,   было   наличие   комплекса
помехозащищенных   датчиков,   который   обеспечил   приемлемое    отношение
сигнал/шум  на  входе системы распознавания. В  качестве  приемника  речевой
информации   применялся   ларингофон   ЛЭМ-3,   а    также    дополнительные
помехозащитные признаки устной речи,    в  качестве  которых  использовались
артикуляционные  характеристики  ре-чеобразования.   Бесконтактные   датчики
позволяли выделять:
    - признак, отражающий изменение величины  раствора    ротовой  щели   во
время произнесения неогубя°нных звуков;
    - признак степени огубяения;
    - признак скорости воздушного потока у потового   отверстия [42].
Зак.480
17

    Изучение свойств речевого сигнала в пространстве    выбранных  признаков
позволило   разработать    процедуру    описания    слов,     обеспечивающую
восстановление  как   макровременной  (имеется  в  виду  пос-хедовательность
звонких  и  глухих участков, а также пауз),так   и  квазифонемной  структуры
речи.   При    испытании   систем   [ЗЬ,??]   выявилась   высокая   точность
распознавания фраз. К сожалению,обе  системы  реализованы   на   ЭВМ  Ы-200,
обладающей малым объемом  оперативной  памяти   и   слабым  быстродействием,
из-за чего время  распознавания фраз было в 30 - 50 раз больше реального.
    В    ранках    традиционного    аппаратурно-программного     направления
автоматического  распознавания  речи  ведутся  работы   в   ВЦ  и  Институте
проблем передачи информации АН СССР [13,67,6?] .В      основе  метода  лежит
алгоритмическая обработка выделяемых специальной  аппаратурой  информативных
параметров коротких отрезков речевого сигнала (сегментов  длительностью  10-
20  мс).  Последовательность  этих  отрезков   и   составляет  высказывание,
которое   требуется    дешифрировать.   Параметры    (признаки)    сегментов
характеризуют (в   большей или меньшей  степени)  параметры  речеобразующего
тракта   человека, определяющие особенности порождаемых звуков.
    В  Cl3]  рассмотрены алгоритмы распознавания названий  чисел от  нуля до
ста, причем  система  предусматривает  реальное     время  распознавания   и
произвольного диктора. Алгоритм   распознавания  двухступенчатый  и  состоит
из    блоков   распознавания   и   подтверждения   фонетической    структуры
(верификации).  Если  гипотезируемое  слово   не    подтверждается   (блоком
верификации),  то  входная  реализация  сравнивается   с   другими  словами,
близкими к ней в  пространстве признаков,  или подается  сигнал  переспроса.
При распознавании двухсловных сочетаний второе слово анализируется с   конца
 в  направлении   к   его  началу.  Варианты  произношения,  на    основании
которых  создавался  алгоритм,  исследовались  на  материале     около  2200
реализации названий чисел, произносимых 20 дикторами. В  результате  анализа
получены  варианты  произношения   двузначных   чисел.   Многие    из    них
произносятся сравнительно единообразно  и    различаются  степенью  редукции
безударных гласных, степенью аффрицирова-ния мягких взрывных, наличием   или
 отсутствием  смычек  перед   аффрикатами  и  т.д.  В  других  числах  может
существенно      нарушаться  фонетическая  структура,   пропуски   отдельных
согласных.В  условиях,  когда  возможно  множество  вариантов  произнесения,
алгоритм  должен использовать лишь  наиболее  употребительные  варианты,   в
которых сохраняются "оперные" звуки - ударные гласные, щелевые, взрывные,  а
 также начальные и конечные звуки.
I&
    В OS?] рассмотрено использование речевого Управления в  подсистеме  АСУП
на   базе  мини-ЭВМ.  Аппаратурно-программная  система,   разработанная    в
Львовском ордена  Ленина  государственном  университете  им.  И.Франко,  уже
эксплуатируется. Система использует мини-ЭВМ ЕС-1010   в   режиме  реального
времени  и  параллельной    работы  около  90  производственных  задач.  Это
налагает жесткие  условия  на  объем оперативной  памяти,  используемой  для
программ обработки  речевого  сигнала  (всего  10  Кбайт).  Словарь  системы
40 слов, которые могут быть организованы  в  командные   фразы  (5  слов  во
фразе). Используется девять типов запроса, примерами   которых  могут  быть:
"оперативная сводка  выпуска",  "ресурсы  смены",  "выходные  характеристики
участка первой настройки" и т.п. Из-за   жест-' ких ресурсов памяти  система
ориентирована на работу с одним диктором,  сформировавшим  свои  эталоны   и
имеющим свой пароль.  Работа системы  в  помещении машинного зала с  уровнем
шумов 68-75 дБ показала надежность распознавания фраз,  превышающую  У0%,  а
после переспроса - более 9Ь%.
    Недостаточная  надежность   распознавания   с   первого   ^^произнесения
обусловлена   в   основном  упрощениями  алгоритма      распознавания,    на
которые пришлось пойти ради экономии'места и оперативной памяти.
    Аппаратурно-программное направление представлено также  системой  [33] ,
которая на первом уровне распознавания обнаруживала  в   словах  сегменты  и
классифицировала их  по  способу образования звуков  на   гласные,  щелевые,
аффрикаты,  дрожащие  ,  а  также   глухие  и  звонкие.   На   втором  этапе
некоторые звуки  классифицировались  внутри  данной  группы   по   месту  их
образования.  В    результате   каждому   сегменту   присваивалась   Кодовая
последовательность,занимающая I байт.  Четыре  старших  разряда  этого  кода
указывали   групповую   принадлежность   данного   звука,   четыре   младших
разряда определяли тип звука внутри данной группы.
    Для  распознавания  слов  образуется   элементарная   последовательность
псевдослогов,   сравнивающаяся    с    эталонами   последовательности.   При
экспериментальной проверке работы система распознавания на  материале  50  и
200 слов   с  участием  трех  дикторов  она   показала  93  и  84%  точности
распознавания  соответственно.Анализ    ошибок  показал,   что   в   большей
части  они  вызвали  неправильными  формированиями   сегментов   контрольной
реализации или эталонов, возникающими  при  срабатывании системы  до  начала
произнесения от посторонних шумов  или  шумов дыхания.
    Интерес   к   построении  систем  распознавания   речи,   работающих   с
множеством дикторов,стали проявяять  и  исследователи,  тради-
19
ционно работавшие  с  одним диктором. Т.К.Винцюк и соавторы  [21]  показали,
что  в рамках существующей однодикторной  системы   фонемного  распознавания
речи  может  быть  создана  многодикторная  система  распознавания,  которую
авторы назвали кооперативной,поскольку система предварительно обучается   по
 выборке кооператива дикторов. Основные результаты экспериментов:
    при  индивидуальном  обучении   системы   распознавания   речи   средняя
надежность распознавания  по  чужим дикторам не превышает  80%  (на  словаре
из 100 слов);
    - при кооперативном  обучении  средняя  надежность    распознавания  для
четырех членов кооператива  составляем  98^,  что    вполне  приемлемо   для
практического использования;
    -  кооперативное   обучение   способствует   существенному    превышению
надежности распознавания речи лиц, не участвовавших  в  получении  обучающей
выборки (для двух  новых дикторов средняя    надежность распознавания  97  и
92%).
       S 1.3. Развитие систем распознавания/понимания слитной речи
    Задача общения человека  и  ЭВМ  с  помощью  естественной,слитной  речи
оказалась гораздо более  сложной,  чем  построение    систем  распознавания
изолированных слов. Одной  из  первых   практических  систем  распознавания
последовательности слитных    словосочетаний (пять слов исходного  словаря)
явилась система фирмы KdC .описанная ранее.
    В  дальнейшем  будем  различать  системы  распознавания  *и     системы
понимания слитной речи.  В  первых,  как  правило,  рассматриваются  фразы,
составленные  из  последовательности слов, между которыми синтаксическая  и
семантическая связь либо  отсутствует,либо  слишком  жесткая  (используется
автономная   грамматика).Системы   понимания,    в    отличие   от   систем
распознавания, при  декодировании входного высказывания  используют  высшие
лингвистические    уровни  языков,  близкие   к   естественным,  работая  с
фразами,   в    которых  допустимы  стилистические  ошибки,   бессмысленные
звуковые   сочетания, произвольные паузы и междометия.
    При построении  систем понимания речи необходимо в    большей  степени,
чем  при создании систем распознавания слитной    речи,  использовать  опыт
специалистов   по   искусственному     интеллекту,   а   также   привлекать
специальные знания  о  синтаксисе,   семантике и прагматике языка  общения.
В то же время отметим, что деление на системы автоматического распознавания
и понимания     является 20
достаточно условным   и  фактически  определяется  коэффициентом  ветвления,
который показывает, сколько возможных слов допускается после  каждого  слова
высказывания. В  современных системах  распознавания  слитной  речи  средний
коэффициент  не  превышает,как  правило, 30 (в  системе    Nac-ISQ),   а   в
системах  понимания    этот  коэффициент  достигает  200-300  (бессмысленные
звукосочетания  типа цмм   ...  ,  эээ  ...   и  т.д.,    а  также  паузы  и
междометия    можно рассматривать  в СПР как возможные варианты слов).
    Так как автоматическое  распознавание  300  -  300  слов  в  непрерывном
речевом  потоке - сложная задача, веди использовать  обычные  математические
методы распознавания,  то  для ее  решения   и  привлекаются  высшие  уровни
знания  о  языке (синтаксис,   сематика  и  прагматика),   а   также  другие
способы,   обеспечивающие   сужение  числа  альтернатив   на   каждом   шаге
принятия решения  о  слове, используемые обычно  в   задачах  искусственного
интеллекта  (ИИ).   В  связи   с   этим  в  системах  понимания  говорят   о
семантической  точности  распознавания   смысла   фразы,   когда    не   все
составляющие (слова) могут быть распознаны правильно.
    Перейдем   к   рассмотрению  систем  распознавания  слитной  речи.   Как
правило, такие системы работают  по  принципу фонемного  распознавания,   от
точности которого зависит  общая  надежность    работы  системы.  Одной   из
наиболее интересных отечественных    систем   с   обучением  на  конкретного
диктора и словарь является  система, построенная   в  Институте  кибернетики
АН УССР им. В.М.Гяуи-кова [l9,20] , развитием  которой  стала  кооперативная
система распознавания рвчи[213.
    В  основу этой системы положена математическая модель  речевого сигнала,
 в  которой каждой фонеме     соответствует   полученный алгоритмически  (на
основе  анализа  текущей  автокорреляции   сигнала,   параметров   линейного
предсказания  и  текущего    энергетического  спектра)  определенный   набор
бинарных признаков  (  двоичный  код).  Модель  учитывает  коартикуляционныв
эффекты, изменение  длительности фонем  и  динамику  интенсивности  сигнала.
Модель  автоматического  распознавания   Института   кибернетики   АН   СССР
использует анализ сигнала посредством синтеза.
    Некоторый процеср порождает   из   элементарных  эталонных  сигналов  по
определенным правилам эталонную слитную речь (общий для  всех  слов  алфавит
эталонных  элементов  содержит  около  80  элементов  кодов).  Распознавание
слитной рччи сводится  к  необходимости нахождения наиболее  правдоподобного
эталонного сигнала слитной речи.
21
    В этой модели автоматически находятся границы  отдельных  фонем,  паузы,
тип  и   общее  количество  фонем  в  распознаваемой  последовательности   о
учетом априорной вероятности частоты встречаемости фонем.  Эталонный  сигнал
слитной речи  формируется  из    эталонных  сигналов  отдельных  слов  путем
нелинейного  преобразования   исходных   словесных   эталонов.   При    этом
эталонные сигналы    слов складывались  в  эталонную слитную речь  так,  что
паузы  между  словами  имели  различную  длительность   (в   том  чис/ie   и
нулевую),а  длительность  элементов  фразы  изменялась  плавно.  Параметрами
грамматики, порождающей  эталонные  фразы,  являлись:  алфавит     эталонных
элементов, акустике-фонетические транскрипции слов, правила   стыковки  слов
во фразе,  правила  нелинейной деформации   сигналов  вдоль  оси  времени  и
некоторые другие параметры.
    Для  экспериментов  по  распознаванию слитной речи ( словарь включал 200
слов)  были  получены  1000  реализации  этих  слов,   произнесенных   одним
диктором (обучающая выборка). При испытаниях  система дала 0,5% ошибок и  3%
отказов  при распознавании слов в слитном потоке. Расширение словаря до  300
слов увеличило   количество ошибок  до 1%, причем  отказов  было  3,5%.  При
экспериментах  со  словарем   из    100   слов   удалось   получить    время
распознавания   (на ЭВМ БЭСМ-6), равное I с  на  I  слово  [193  •  Отметим,
что близкий  к  этому метод  используется  в системах распознавания  слитной
речи   (СРСР),   разработанных    в     Отделе    вычислительной       науки
исследовательского центра фирмы 1УЫ.  В  связи  с  тем,  что   данная  фирна
(так  же,  как    и   фирма    Sperry   Univac     )   активно    занимается
исследованиями по распознаванию  слитной  речи  после    завершения  проекта
arpa , рассмотрим эти работы более подробно.
    В С39]  описана СРСР,  в   основе  которой  лежит  модель  акустического
канала,  обеспечивающая   автоматическое   порождение       всех   возможных
поверхностных   форм   предполагаемого    высказывания       совместно     с
вероятностями их  порождения.  Это  порождение  осуществляется   с   помощью
акустико-фонологических  правил  (АФП).приложенных   к    базовой    цепочке
высказывания. АФП учитывают  в  слитной  речи такие фонологические  явления,
как пропуски, вставки и замены  отдельных фонем внутри слов, повышенный  тон
речи, диалектные особенности, изменения на стыках слов и т.д.
    Удобной структурой  для   выражения  поверхностных  форд    высказывания
явился  направленный  граф,   дуги  которого  помечены  возможными  звуками.
Каждому узлу графа соответствует распределение  вероятностей,  указанных  на
выходящих дугах. Дуги на концах графа,  соответствующего  совокупности  всех
поверхностных форм произнесен-
22
ного слова, имеют связанные  с  начальными и конечными состояни-яни  условия
соединения, определяемые фонологическими явлениями на стыках слов.
    Язык системы определяется автоматной грамматикой,  представленной графом
 и  включающей 250 слов. Для  распознавания   использовался  лингвистический
декодер-алгоритм    последовательного      декодирования,     обеспечивающий
нахождение  предложения   о   максимальной  апостериорной  вероятностью   по
последовательности  цепочки   фонем,  поступающих  с   выхода   специального
акустического   процессора.    Точность   декодирования   высказываний    на
контрольной выборке   составила (по данным  на  август 1977 г.) 95%  при  6%
ошибочной  интерпретации, которые были  вызваны  0,6%  ошибок  неправильного
распознавания слов.  Следует  отметить,   что   рассматриваемая      система
была сияьно модифицирована  за  последние три  года:  упрощен   акустический
процессор,   с   которого  быви  сняты  функции  фонемной   сегментации    и
маркировки.  Сказалось  возможным,  используя     алфавит   из   33   фонем,
маркировать    ими   десятимиллисвкундные    отрезки     речевого    сигнала
непосредственно  по  акустическим данным.Преимущество  такого  представления
авторы  работы   [Ю5Д    видят   в  том,  что,  во-первых,   информация    о
звуке,распределенная по длине     фонем,  оказывается   более  полезной  для
распознавания,  так  как  при   этом   возрастает   количество   информации,
поступающей от    акустического процессора  к  лингвистическоу декодеру. Во-
вторых,   сегментация и маркировка (принятие решения   о   звуке)  разнесены
во  времени, и  лингвистический  декодер  может,  основываясь  на  структуре
отдельных  слов,  во  время  сравнения  решить,  представляет  ли   короткая
маркированная цепочка десятимиллисекунцных  сегментов  истинный    звук  или
же  это - ошибочная ложная ставка.
    Дальнейшее совершенствование сантисенундного акустического процессора  (
asAJ ) за счет использования  45  эталонных  фонетических  меток  вместо  33
позволило повысить точность классификации (на языке  со   словарем   из  250
слов) до 98,8% на контрольном   материале 100 предложений  [l07]  .  Следует
отметить,  что еще   более совершенный  процессор  (  wbap  ),  на   котором
получены    наилучшие результаты распознавания (0% ошибок), использует  лишь
пять  параметров,  один   из   котррых  -  кратковременные  изменения  общей
энергии сигнала,  а  четыре - отражают параметры гласных и    описаны  ранее
  в   [l4l]  .   Этот   процессор   осуществляет   акустическое    сравнение
непосредственно,  используч  величины  акустических    параметров,    а   не
фонетические метки, связанные  с  сантисекундными  отрезками.   Для  каждого
слова  используется  модель  с   конечным      числом   состояний,   которая
порождается алгоритмически из    отображенного
23
произношения. Число состояний модели равно   длине  этого   произнесения   в
сантисекундах.  В модели обеспечиваются переходы из состояния  к   этому  же
состоянию, к соседнему и через одно.С каждым  переходом  связано  пятимерное
гауссовское  распределение  в  пространстве  первичных  параметров.  Средние
значения   и   дисперсии   выходных  распределений,   а   также   переходные
вероятности  формируются  автоматически   при   обучении  на  дополнительных
реализациях   слов при формировании обобщенных эталонов с помощью  алгоритма
  Вктер-би [39].
    В  процессоре  wbap   используемая  статистика  основана     скорее   на
особенности слов,  чем  на особенности  звуков.
    Следует  отметить,   что  за  I976-I978  гг.  предпринимались    попытки
увеличить объем используемого  в  СРСР  фирмы  IBh   словаря  до  1000  слов
(тезаурус лазерных патентов). Предварительные    результаты  испытаний  этой
системы описаны  в  [106}   . На     тестовом множестве фраз,  куда  входило
486 слов, ошибка распознавания  слов составила 33,1%, причем   ни   одна  из
й0 контрольных фраз не  была определена правильно - программа  распознавания
делала ошибку хотя бы  в  одном слове каждой фразы.  Развитие  этой  системы
[107]  позволило   за   счет  увеличения  числа  фонетических  меток  до  52
снизить ошибки  в  распознавании слов до 20%.
    В [108,109]  рассмотрены дальнейшие улучшения этой системы,  позволившие
уменьшить число ошибок  при  распознавании  слов     за  счет  использования
более совершенного сантисекундного  акустического  процессора      сзар-зоо,
в  котором число эталонных  фонетических меток  было расширено  до  двухсот.
При распознавании   50 п"едл°жений, включающих 980 слов, неверно  распознано
 87 слов,  в числе которых 34  слова,  составившие  односложные  слова  типа
"of", " а ", "  are  ","as"   и  др.  Переход   к   работе  этой  системы  с
множеством  дикторов  описан   в  [l59].   Работа  с    новыми     дикторами
реализована  за  счет использования  автоматической  селекции   акустических
эталонов, выполняющейся двумя различными  способами.Один  из   методов,    в
основе которого лежит процедура Витерби    С  39],  реализован   с   помощью
сантисекундного  акустического    процессора  TPIVIAI   [l07],   а   другой,
основанный   на    алгоритме      кластеризации,   использует   акустический
процессор autociust. (В первом методе использовалось 85 эталонов, во  втором
- 20D.)  Точность  распознавания слов составила  при  использовании  первого
  алгоритма 65%, а  второго - 90%. В 1983 г.  была  публикация  одной  фирмы
о распознавании словаря деловой переписки общим объемом 5000  слов.
    Над проблемами распознавания слитной речи  продолжает    работать  фирма
Sperry Univas,     участвовавшая в проекте  АЙРА. Эта
  24
фирма разработала с"стему автоматического распозньвания  слов,словосочетаний
 и  естественных предложений {l74] .  На  основе  спектрального  анализа   и
линейного предсказания в спектральной    об-дасти  звуки  классифицировались
по  способу и месту образования. Система  была испытана на  словаре   из  31
слова двумя   дикторами.  Точность  распознавания  изолированных  слов   при
использовании синтаксиса задачи составила  95%.  Предварительные  результаты
по  распознаванию слитной  последовательности  слов,  произносимые     тремя
дикторами, составили от 54 до  74%  для  задачи  с  ограничечным    порядком
следования слов. Предполагалось,   что   в  дальнейшем   будут  использованы
акустико-фонетичзские  и  фонологические   правила, нормализация  дикторских
произношений, просодические характеристики речи. Предполагалось также,   что
будут использованы       более  сложные  процедуры  для   синтаксического  и
семантического  анализа. В 1977 г. система работала  с   двумя  словарями  -
из  36   (алфавит-но-цифровой  словарь)   и  64   слов   (словарь   речевого
управления)  [123,  153]  .  Для  обоих  словарей   точность   распознавания
составила   95^, а средней точности распознавания слитялс  словосочетаний  -
88%.Дальнейшие разработки включали расширение  словарного  состава  системы,
числа типов  предложений,  использование  правил  фонетической  и  словесной
верификации.
    В  [l54]  сообщается, что система Sperry  Univac.  была  модернизирована
для поиска  и верификации ключевых слов в   потоке  слитной  речи.   В  этой
системе  использовались  измеряемые  на   деся-тимиллисекундных   интервалах
параметры   речевого   сигнала,     проведшего   через   телефонный   канал.
Исследователями  был    выбран     достаточно   мощный   набор   параметров-
Непосредственно  по  речевой  волне  определилась  частота  основного  тона.
Спектральный анализ с помощью быстрого преобраэозания Фурье  (БПД)  позволял
получить  следующие признаки речевых отрезков:  общую   энергию   в   полосе
100 -8600 Гц, энергию сонорных (100 -  3000  Гц),  высокочастотную   энергию
сонорных (650 - 3000 Гц), низкочастотную энергию (JOO -  600  Гц),  разность
энергий низких  и  высоких частот <100  -  900  Гц)  -  (3000  -  3600  Гц),
частоту   максимума  спектральной  амплитуды   в   полосе  100  -  3600  Гц,
спектральную производную на этой частоте и   энергии  в  15  полосах  частот
телефонного канала. Кроме того,   линейное   предсказание   в   спектрадьной
области давило возможность получить  и  использовать коэффициенты  линейного
предсказания и частоты первой и третьей формант.
    Система содержит компоненты   просодического  и  фонетического  анализа,
которые обеспечивают последующее  сегментное  структурирование  высказывания
(получение цепочки кваэифонетическюс сегментов)
Зак.480                         26
для лексического сравнения. Сравнение  осуществляется  с     помощью  блоков
словесного   гипотезирования    и     верификации.       Верификация    слов
производится   методом  динамического  программирования.     При  построении
системы обнаружения ключевых слов была    использована обучающая  выборка  -
разговорная речь,  продолжительностью  13  мин.  Предложения  произносили  8
дикторов.  Контрольная   выборка  составляла  II  мин  разговорной  речи  10
дикторов (из которых двое участвовали  в  обучении).
    При контрольном эксперименте  точность  обнаружения  10   ключевых  слов
была невысока, но все же испытания следует считать обнадеживающими. В  [124]
 отмечается, что в течение 1978 г.     отдел  речевой  связи  Jperry  nnivac
работал  над созданием  более   совершенного  блока  фонетического  анализа,
который фактически стал  лексически-управляемым  фонетическим  верификатором
(а  не  автономным  фонетическим  анализатором,  как  раньше   ),что   лучше
учитывает коартакуля-циокные  эффекты  внутри  слова.  Модернизация  счстемы
позволила   [I55J   получить   более   удовлетворительные   результаты    по
обнаружению  и  верификации  ключевых   слов   в  потоке  слитной  речи.  На
тестовых  предложениях    (16,7  мин    разговорной  речи  14  дикторов,  не
принимавших  участия  в  обучении системы) ключевые слова были обнаружены  в
30% случаев.
    В  [l87]   описана  система  распознавания  слитно   произносимых  цифр,
разработанная  фирмой   Bell   laboratories.  Систэма    состоит  из    двух
взаимодействующих блоков. Первый осуществляет  пословную  сегментацию  всего
высказывания  на  отдельные цифры, а второй  производит  распознавание  этих
цифр  по  результатам  сегментации.     При   распознавании   использовались
признаки сеп/^нтов речевого сигнала:
 р - параметр, логарифм  анергии,  кооффициенты  линейного  предсказания   и
ошибка   предсказания   .и    коэффициента   автокорреляции.Для    пословной
сегментации слитных словосочетаний учитывалось то обстоятельство,  что   для
этого конкретного словаря (английские   названия  цифр)  шумные  участки   и
паузы (глухие смычки) могли  находиться  только  в начале  или  конце  слов.
&ти участки  и  являлись  в   основном  опорными  границами  между  словами.
Точность   пословной    сегментации   составляла   99%   (при   произнесении
словосочетаний  как   в тихой комнате, так  и в  условиях  машинного  зала).
Точность   распознавания  словосочетаний  (названий  семизначных  телефонных
номеров) составила 91% для 10 дикторов (5 мужчин и 5 женщин),  произносивших
фразы  в  тихой комнате, и  QT%  для  тех  же  дикторов,   находившихся    а
машинной  зале.   В  [149]   отмечается,   что     получены   обнадеживающие
результаты по  распознаванию слитной речи,  использующей  словарь   в   1й*7
слов, аналогичный словарю [  147,148]  .  Дальнейшее  развитие  этих  систем
описано в [156,1693.
  26
    Система Hearsay-П  создавалась   на   базе  разработанных  ранее  систем
распознавания слитной  речи   Dragon    и  Hearsay-I.Аналогично    Hearsay-I
главным принципом Hearsay-д  было   выдвижение  гипотезы  (о  звуке,  слове,
фразе)  и  ее подтверждение с   помощью  всех  возможных  источников  знаний
(ИЗ) о речевом сигнале .
    Описания высказываний, которые должны  анализироваться  в  этой  системе
понимания  речи,  имеют  унифицированную  трехмерную     структуру,   причем
размерностями являются: уровни  представления  (акустический,  фонетический,
слоговой,   лексический,   синтаксический   и   семантический),   время    и
вероятностные альтернативы  (на    каждом уровне   для   каждого  временного
отрезка).  Ьта   структура    содержится   в   памяти  системы  как   единая
информационная база (ВИБ),подвергающаяся исследованиям  и   модификациям   с
помощью   различных  программ,  реализующих  ввод  в   систему   необходимых
источников знаний.
    Работа комплекса программы  на  единой  информационной    базе  (которую
называют "классной доской")  и  есть  интерпретация   слитно  произнесенного
высказывания  на  различных     лингвистических уровнях -  от  фонетического
до  семантического.
    Общая информационная память,  построенная  как  единая    многоуровневая
информационная структура  с  внутренними связями, представлена   в   системе
  Hearsay-П   в   виде  графа.  Основная     единица   этой   информационной
структуры  -  узел  графа,  являющийся   гипотезой    о    существовании   в
высказывании  некоего  частичного  элемента.  Структурные  отношения   между
узлами графа (гипотезами) представляются дугами графа, обозначающего  связи.
Существует   два   наиболее   важных   типа    структурных    отношений    -
"последовательность элементов" и "выбор элементов".
    Последовательность  -  это  структурное  отношение,    означающее,   что
гипотеза  верхнего уровня поддерживается "юследовательныы рядом гипотез   на
  нижнем  уровне   (например,   слово   представляется   последовательностью
непересекающихся  во  время звуков речи).   Выбор - отношение,  определяющее
гипотезой альтернативную  поддержку от  двух   и   более  гипотез  ,  причем
каждая от них существенно  перекрывает   тот  же  временной  отрезок  (т.е.,
например, гипотезой, допускающей  на  данном временном  интервале  несколько
   различных слов примерно одинаковой фонетической структуры).
    Распространение идеи "выдвижение гипотезы - ее   подтверждение"  на  все
уровни  знаний  о  речевом  сигнале  требует  организации  системы  передачи
информации  между  уровнями.   В  связи  б     двумя   видами,   структурных
отношений между узлами графа можно  рассматривать   и  два  типа  гипотез  -
горизонтальные и вертикальные,  подт-
27
верхдаемые   соответствующими   источниками   знаний.   Гипотеза   считается
горизонтальной,  если источник знаний использует контекстуальную  информацию
 на данном уровне для подтверждения гипотезы того хе   уровня.  Вертикальная
гипотеза определяется  как  гипотеза,требующая   для   своего  подтверждения
информации, получаемой   источниками знаний на других уровнях.
    Основная функция источников знаний - устранить ошибки,  возникающие  при
 обработке слитной речи. При этом источники  знаний должны вовремя  добавить
какую-то новую информацию, внести  что-то  полезное   для   более  надежного
распознавания. Источники    знаний  должны  уметь  распределять  эти  знания
через  механизм      выработки  гипотез,  оценивать  цобавку    от    других
источников знаний,т.е.  подтверждать   иди   отвергать  гипотезы,  сделанные
другими    источниками знаний. Источники знаний необходимо  создавать  таким
  образом,  чтобы их можно было приспособить  к  новым   участкам    анализа
высказывания  и  вообще к новым задачам  автоматического  понимания  слитной
речи.
    Для нормальной работы СПР Нвагаау-11 необходимо реализовать:
    1) достаточно общую, структурно-полную информационную базу,  анализируя
которую, источники знаний могут   вводить   новые  гипотезы,'  проверять  и
изменять гипотезы, размещенные в этой базе другими источниками знаний;
    2)  средства  для   описания  разнообразных   источников     знаний   и
обеспечения их внутренней обрабатывающей способности;
    3) возможность управлять действиями источников знаний    ин-фовмационко-
направленным способом (необходим способ, с    помощью которого определяется
ряд предварительных условий,    запускающих необходимый источник знаний);.
    4) признаки,  по  которым обнаруживается удовлетворение этих условий  и
 локализуется  часть  информационной  базы,   в     которой  заинтересованы
соответствующие источники знаний.
    Для реализации п.4 необходимы  два  механизма:  мониторный  руководящий
механизм,   обнаруживающий   изменение   общей   информационной   базы    и
оценивающий природу этих изменений,  и  ассоциативный   механизм  повторных
испытаний   и   восстановления  частей  информационной  базы,   когда   это
необходимо. Таковы самые общие сведения   о Hearsay-П. Переедем   к   более
детальному рассмотрению этой   системы.
    Параметрическое представление  высказывания  в  Неагвау-П  сводится   к
использованию двухступенчатой системы признаков.    Несмотря  на  то,   что
в последнее время большое внимание уделяется
28
точным методам нахождения параметров речеобраэующего тракта   (в  частности,
с помощью линейного предсказания), неапау-11  используется  лишь  на  втором
этапе. Но  прежде  чем  использовать  коэффициенты  линейного  предсказания,
авторы Неагвау-П получают    гораздо  более  простые  и  дешевые  обобщенные
параметры,которые   назвали параметрами zapbash (Zero Orosetng and PeaHs  at
Differenced  and  Smooth  Vaweform).    Эти  параметры  обеспечивают  грубую
сегментацию  речевого  потока  по  способу   образования   звуков,      т.е.
обеспечивают  сегментацию  и  маркировку  I  уровня.  После  локализации   в
высказывании фонетических элементов применяют  сегментацию  и  маркировку  П
уровня, основанную на использовании   коэффициентов линейного  предсказания,
обеспечивающего более точную идентификацию сегментов.
    zapdash  -  параметры  речевого  сигнала,  определяющие     интегральные
характеристики звуков в низкочастотном (< I кГц)  и  высокочастотном  (  >1
кГц) диапазонах. Эти параметры выделяются в реальном  масштабе  времени  из
сигнале,  поступающего  с  АЦП  в  мини-ЭВМ,   которая   обладает   средним
быстродействием 600  тыс.    операций  в  I  с.  Параметры  (число  нулевых
пересечений и амплитудное значение сигнала на интервале анализа для каждого
из диапазонов) формируются программно, и их значения дают возможность грубо
классифицировать сегменты на 10 различных типов -  пауэы  (глухая  смычка),
наличие звонкой смычки, характеризующие звонкие взрывные б,  д,г,  сонорный
согласный, глухой фрикативный (переднеязычный  или заднеязычный),  носовой,
свистящий,  гласный  высокого   иди     низкого   подъема.   В   дальнейшем
производится пере классификация сегментов на 59 классов, некоторые  из  них
пересекаются в пространстве признаков.
    На второй стадии к среднему  участку  сегментов  применяют  сравнение  с
эталонами (этих эталонов для каждого класса   сегментов может быть до 100).
При сравнении средний участок  сегмента  по-ступившей  на  вход  реализации
сравнивается  с  множеством    эталонов,  которые  подучены  от  специально
обученных дикторов.  Использование  сегментации  I  уровня  позволяет,  как
отмечается   в   [l79], ускорить общую сегментацию в пять раз по  сравнению
с  унифицированной, основанной .исключительно на коэффициентах    линейного
предсказания.
    Как уже отмечалось, ключевой проблемой систем    понимания Речи является
верификация сдоврсиьк гипотез.подожданных   различ-иыми источниками знаний.
Блок словесной верификации должен  оце-нвдь, насколько акустические  данные
входной    реализации       соответствуют     фонетической     транскрипции
гипотезируеного слова.
2S
    В  соответствии   с   оценкой,  словесный   верификатор     отбрасывает
большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы
впоследствии отобрать единственное с помощью инфор~ мации высших уровней.
    В Hearsay -П  слова порождаются  либо словесным   гипотезато-ром  снизу
вверх  (блоком  POMOW),   либо  преде  называются  сверху  вниз  семантико-
синтаксическим  блоком   sass  .   Блок   словесной    верификации   wizard
обрабатывает  гипотезы   о   словах  снизу  вверх,  используя  акустическую
информацию   и   результаты  автоматической  сегментации.  Каждый   сегмент
высказывания представлен вектором  фонемных вероятностей (т.е.   с   каждым
отрезком   высказывания     связываются   определенные    звуки,    которым
присваиваются некие веса),  Каждое  слово  словаря  записывается  эталонным
графом   возможных     фонетических    произнесений,    учитывающим     все
альтернативные  варианты  произнесений.  Однородная  модель,   используемая
блоком словесной верификации, дает возможность найти оптимальное совпадение
одного из  эталонов (соответствующее пути  на  одном из эталонных графов) и
  участка входной реализации, соответствующего слову.
    В системе  Hearsay-П при словесной верификации стыки  между словами  не
 рассматриваются, делается лишь их внутренняя   обработка. wizard  пытается
верифицировать слова, как будто они находятся  в  изоляции.
    При верификации слова обрабатываются  снизу  вверх  следующим  образом:
предсказанные   моменты   начала    и    конца    слова    связываются    с
соответствующими сегментами высказывания bseg и eseg. Исследуются  все пути
в эталонных графах возможных  слов,  которые   совпадают   с   отрезками  и
входной реализацией. Сравниваются с эталонами отрезки,  которые  начинаются
в (baeg-I: beeg +I ) и   заканчиваются  в   jeseg  -I  I   eeeg  +I(,  т.е.
параллельно      рассматриваются девять  возможных  участков  высказывания,
что   приводит к  девяти   оптимальным  путям  на  эталонных   графах,   из
которых  выбирается  тот.  оценки   которого   наибольшие,   или   наиболее
соответствуют рассматриваемому участку. Сдвиг  на   один  сегмент    вправо
или  влево  позволяет  избегать  ошибок   при    представлении    входного,
высказывания  (акустических  данных)  различными  источниками   знаний.   В
результате  блок  словесной  верификации  может  изменять  время  словесных
гипотез,  а  также их оценки. Следует отметить, что   если  в  проектах  ВШ
(Speechlis  и  HWIM)    идет  непосредственный  переход   от  фонетического
описания  к  словесному, то в  Hearsay-П используется  еще   промежуточный,
слоговый уровень между  словами  и   звуковыми  сегментами.  Для  поддержки
словесных гипотез  используются  так  называемые типовые  слоги,  слоготипы
  (syltypes).
Ццея слоготипов сводится к тому, что  слоги,  имеющие      похожие  сегменты
(например "та", " па"), относятся к одному типу. Никаких  попыток  различать
слова с одинаковыми  слогами  в  Нвагвау-П   не  делается.  Каждый  слоготип
характеризуется  слоговым  ядром,  определяемым  эвристически   присвоенными
сегментными метками и положением максимума энергии на отрезке.  Для  каждого
слоготипа    гипотези-руются  слова,  в  которых  встречается  данный  слог;
многосложные   слова   отбрасываются,   если   плохо    согласовываются    о
последовательностью слоготипов. Подробное  описание  слогового  гипотезатора
pokow содержится в С 1783.
    В  Неагаау-П содержится еще один гипотезатор -  гипотеза-тор  словесных
последовательностей wozeq. В сравнении со стратегией однословных "островков
надежности" многословная последовательность желательна по двум причинам:
    1) доверие к гипотезе о последовательности сдов  более  высоко,  чем  в
однословной гипотезе;
    <;) правильность оценки (в очках) для последовательности слов выие, чем
для  одного  слова.  (Последовательность  слов     использует  избыточность
языка, йероятность того, что гилотияируемая  последовательность  правильна,
может превосходить вероятность   того, что правильно одно слово.  Сравнение
оценок,  основанных   на     средних   оценках   нескольких   составляющих,
статистически более   надежно, чем сравнение, основанное  на  оценке  одной
составляющей.)
    Синтаксический   и   семантический   источники   знаний   в   Неагвау-п
представляются  блоком  sass  .  Этот  блок  имеет   дело   с   гипотезами,
представляющими  слова,   словосочетания   или   фразы,   воспринятые   или
предложенные. Задача  sass   - найти наиболее правдоподобное предложение по
последовательности смежных слов. Правдоподобие определяется  достоверностью
словесных  гипотез  и   грамматической   правильностью   и   осмысленностью
предложения. Как уже отмечалось, в и«эаг-aay-il многочисленные альтернативы
представляются в общей   информационной базе и  обрабатываются  параллельно
независимыми информационно направляемыми программными  блоками  -  модулями
источников знаний, которые создают, проверяют и переписывают  гипотезы    о
высказывании, запоминая их на  доске.  Одна  размерность  доски  -  уровень
представления, другая - время, третья - вероятность правильности  гипотезы,
оцениваемая  в  очках.  С  точки  зрения  sass  общую  информационную  базу
("классную доску") можно рассматривать    как схему гипотезированных  слов,
порождаемых различными   источниками знаний. Вертикальные измерения  -  это
очки (в диапазоне - 100 * -»  +100),  оценивающие  достоверность  словесных
гипотез.
31
                        30
    Проблемы,    стоящие    перед     семантико-синтаксическиы        блоком
-неопределенный   комбинаторный   поиск,   слабое   (например,   предложение
заполнить  пробелы  на   временной  оси  гипотезами  о  словах)  и   сильное
(например,   совсем   отвергнуть   какую-либо    гипотезу)    вмешательство,
необходимость использовать частичную информацию   (частичные  грамматические
конструкции), способность динамически менять  свои критерии достоверности  -
общие  проблемы  многих  больших   систем,основанных    на    информационном
управлении.
    Уффективное решение этих проблем, по-видимому,потребует построения такой
системы,    в    которой   последовательность      процедур   заключительной
обработки  чувствительна  к  различным   сотрудничающим   и    конкурирующим
отношениям между гипотезами, ато  означает,    что  семантико-синтаксическая
обработка облегчается на гипотезах,  поддержанных  одновременно  несколькими
источниками знаний, и   задерживается  на  гипотезах,  которые  конкурируют,
не согласуются   с очень надежной гипотезой. Задержка гипотезы  должна  быть
 достаточно гибкой, недетерминистской, неокончательной, так  как  и   слабая
гипотеза  при  интерпретации высказывания  может  оказаться  верной.  Гибкая
задержка осуществляется  в  Hearsay-  П   механизмом  фокусировки  внимания,
который распределяет ресурсы  так,  чтобы    в  первую  очередь  рассмотреть
наиболее обещающие гипотезы.
    Синтаксические   и   семантические  знания  о  проблемно-ориентированном
языке  Hearsay-П   выражаются  в   компактной,  легко  читаемой  грамматике»
которая  задается  параметрическими  структурными  представлениями    (PSR),
являющимися множеством пар типа "определение -  объект".  psr   используются
для определения класса слов и фраз, которые могут выполнять   синтаксические
 и  семантические функции проблемно-ориентированного языка,  состоящего  для
Hearsays И из простых  вопросов.  Например, psr:
          ($СЪА35: $QUEPY, $HAME: "PAPSED QUEPY", 6 :  $QinME  + $flfHAT,
           El    ТЕ L Ь +'$ ME + $ПЕ   + ФТОПСЗ, 6 »    WHAT   +    HAPPENED
            + $ АЮТ AY, e s    WHAT   + ф BE        + THE  +  $N  EWS+tRE  +
           ^TOPICS
               ЦСТЮМ t PASS, $LEV EL ! 300)
определяет  класс  возможных  вопросов   в   терминах   их   альтернативных
синтаксических реализации, аначок  ®  обозначает принадлежность к   классу.
Каждая член класса - это последовательность эталонов, составляющие которых,
разделенные знаком "+", слова  или фразы. «разовые сосгааяяшеи»  помечаются
значком  $  и   определяются  в
 32
свою очередь другими   psr.  faction  pass  означает,  что    реакция  блока
ЗАЗЗна распознавание люоого из пяти эталонов в   классе должна  трактоваться
как  признак  вопроса   (   $query   )   .»level   оценивает   относительную
завершенность  частичного  грамматического  разбора,   лежащего   в   основе
гипотезируемой фразы PSR:
           6 : $CL ASS ! $TOPICS,
               ЈPL АСЕ,
               $FOOD,
               $TECHNOL ОСУ,
               $ С OVER NT.IE:IT,
               ФР01Т1Т1С,
              $PEOPL E,
           e ; $TOPICS + SCONJUN CTICOT + 3>TOPIG S, 6 :  CACTIOH  :  PASS,
           LEVEL : 40)
и определяет класс возможных предметов разговора  (.Topice)  в  терминах  их
семантических подклассов.
    Как уже упоминалось, sass   имеет набор  сильных  и     слабых  средств,
представляющих различные виды обработки  информации    на  синтаксическом  и
семантическом уровнях.
    1.Правило  распознавания  порождает  гипотезу  о  фразе  по   достаточно
надежным  гипотезам  о  составляющих   фразы.   sass   рассматривает   слова
распознанными, если их   оценки (в очках), определенные другими  источниками
знанчй,   превышают   некий   порог.   Составляющие   фразы   должны   также
удовлетворять   некоторым структурным требованиям  -  например,  таким,  как
 временная смежность между составляющими. Правила  распознавания       ведут
обработку снизу вверх, двигаясь  от  частичного  грамматического  разбора  к
полному.  Они  представляют   собой   сильные   средства   обработки   (сила
оценивается   вероятностью   того,   что   последовательность   распознанных
составгчющих может как-то осмысленно   интерпретироваться) .
    2. Правила предсказания   гипотезируют сио-во или фразу в зависимости от
вероятности контекста,  определенного  на  предыдущих  этапах  распознавания
высказывания.   Правила   предсказания   выполняют   обработку,   перекрывая
временной  ин-Тврвая  "островками  надежности".   Эти   правила   необходимы
потому, что не все  слова  в  произнесенном  высказывании  могут  быть  рас-
чознаны снизу вверх, т.е. источниками знаний нижних   уровней. ^ияа  правила
предсказания определяется  условной  вероятностью  того,  что  предсказанные
составляющие могут быть в высказывании при
Денном (распознанном ранее) контексте,  ата  сила  обратно  пропор-'тонаяьна
числу составляющих,которые могут появиться в этом контексте.
Зак.480
    3.  Правила  повторного  разбора  (  res-pelling  rules   )   производят
обработка7 сверху  вниз  и  численно  оценивают  составляющие  предскапанной
фразы, разбивая гипотезируемое предложение на гипотезы для  последовательных
составляющих   или же "расщепляя"  гипотезируемый  класс  на  альтернативные
гипотезы  для  различных  составляющих  высказывания.   Правила   повторного
разбора (прочтения) проводят обработку, возвращаясь к словесному  уров.  ню,
так что предсказание  (о  фразе)  верхнего  уровня  может  быть  подвергнуто
испытанию (слово за словом) источниками знаний    нижнего  уровня,  если  на
верхнем уровне что-то не сходится.
    4. Правила постдикции несЭходимы для того, чтобы уже после сформирования
понятия подтвердить его    большим числом "очков доверия",  дать  ему  более
высокую  оценку,  подтвердив   существующую   гипотезу   о   фразе   другими
гипотезами.    Правила  постдикции  как  более  сильные   включают   правила
предсказания     и  повторного  прочтения,  которуе  слишком  слабы,   чтобы
подтвердить  создание  гипотезы,  но  могут  внести  полезный  вклад,  когда
гипотеза уже существует. Правила постдикц^и выполняют три функции:
    а) позволяют объединять выводы, поддерживающие оцениваемую гипотезу  на
 основе различных источников знаний;
    б)  дают  воамсвность  гилотеэирсвать   слова   и   фразы   с   низкими
 первоначальными оценками за счет их распознавания на основе контекста»
    в) способствуют фокусированию  внимания  на  главных      направлениях,
 определяемых возрастанием очков гипотез тех  слов,  которые  контекстуально
 возможны  (и  таким  ооразом  могут     считаться  правильными),  так   что
 обработка  высказывания  в  этих     направлениях  происходит   по   списку
 приоритетов в первую очередь.
    Автоматическое превращение описательной информации о   грамматике языка
-Hearsay- П ,  заданной  параметрическими  структурными  представлениями  (
psr), в процедурную форму  осуществляет  ком-пиллятор    суытет  ,  который
транслирует  эти  представления  в  правила  распознавания,   предсказания,
повторного прочтения и    постдикции. cvshet  разбивает  последовательности
слов,  составляющих  высказывания   и   представленных   PSR,     на   пары
последовательных эталонов, формируя новые подпоследовательности и  порождая
для них соответствующие правила [ 13Й 3 .
    Одна из самых интересных систем автоматического  распознавания  слитной
 речи - система harfy, разработанная по проекту arpa  (США,  Питсбург).  Эта
 система по  сравнению  с  другими  разработками,  проводившимися  по  этому
 проекту  [l5lj,наиболее  близка  к  практическому  использованию.   Словарь
 harpy составляет   ЮН   словоформ - слов   телефонной  информацион-
  34
но-справочной службы о новостях.  При  испытаниях   harpy     была  получена
точность распознавания фраз, равная 95% на    обучающей  выборке  и  92^  на
контрольной.   Система   воспринимает   слитную    речь,    не    содержащую
стилистических ошибок. В harpy информация о языке представлена  фонетическим
графом - интегральной сетью    переходов с  конечным  числом  состояний,  не
учитывающей        априорные    вероятности     переходов.     Распознавание
осуществляется сравнением входной реализации, представленной  маркированными
сегментами,   с этой сетью.
    Система содержит  несколько  эвристических  процедур  для  улучшения  ее
характеристик: выделение подсетей и сжатие  их       для  уменьшения  общего
объема сети, автоматическое составление описания  коартикуляционных  явлений
на стыках слов  и  т.д.  Время  распознавания  системы  в  период  испытания
составляло 2D с на 1 с речи  (есть  сведения,  что  в  настоящее  время  оно
снижено до Зс на I с речи).
    Синтаксические значения в hahpy однозначно определяются  независимым  от
контекста   рядом   выработанных    правил,      формализующих    проолемно-
ориентированный язык.  Лексические  знания  представлены  словарем,  который
содержит   символическую   фонемную   транскрипцию    всех    альтернативных
произнесений.  Правила  стыков,  как   и     в   системах   IBM,   учитывают
фонетические   явления   при   соединении   слов   в   слитно   произносимое
словосочетание. В качестве первичных  параметров  используются  коэффициенты
автокорреляции и линейного предсказания. У системе Нлару в  процессе  работы
осуществляется  адаптивная  подстройка  под   диктора   с   помощью   десяти
обобщенных эталонов,  характеризующих  усредненный  вокальный  тракт  группы
дикторов. На базе harp? был разработан голосовой ввод в     картографическую
систему   (   vigs),   позволяющий   дублировать   клавиатуру   при    вводе
картографической  информации    [l3l].B  настоящее   время   система   harpy
переводится на мультимикропроцессорную базу   [36].
    перейдем к краткому описанию систем "понимания"  речи.    Их  разработка
началась после появления отчета [161] , в    котором известные  американские
специалисты  в  области  искусственного  интеллекта,   распознавания   речи,
системного программирования, математической лингвистики изложили взгляды  на
проблему  построения систем, воспринимающих слитную  речь,  произносимую  на
естественном  языке.  Основные  положения  отчета  [161]  легли   в   основу
пятилетней программы arpa.
    Достаточно подробные обзоры по начальному этапу  работ    над  системами
понимания речи содержатся в [79,85] . Поэтому   здесь рассмотрим лишь  итоги
проекта arpa    в области     построения
35
конкретных СПР. Можно считать законченными (в большей или  меньшей  степени)
системы понимания речи трех американских организаций -ОЫП, 3RI и  ввн  [179,
162, 187, 189].
    Основные усилия c:,?J были направлены на  построение  системы  понимания
речи Неагаау-1  "^основанной  на  принципе:     "Выдвижение  гипотезы  и  ее
подтверждение различными  независимыми       источниками  знаний  о  языке".
Отдельные элементы этой системы    подробно освещены в  [79,  85,  8b,  I2U,
179].
    Система Псагвву-п   была испытана на IOU предложениях,  составленных  из
IUH словоформ, аналогичных словарю системы harpy, описанной  ранее  (система
HARPY имела грамматику с гораздо  более  простым  синтаксисом).  Ошибки  при
распознавании  фраз  в  Неагаау-п  составляди  16%,  а  время  распознавания
превышало время распознавания системы harfx  в 2 - 33 раз.
     В  фирме  вен  на  I  этапе  разрабатывалась  система  понимания   речи
 Speeohlis,   в качестве  языка  которой  использовался  упрощенный  вариант
 языка ИПС lunar; система Ь^-паг давала  возможность  анализировать  образцы
 лунных пород[?9,Уб1В дальнейшем была усовершенствована этой же фирмой новая
 система понимания речи    нули (Hear what I mean  )  С  учетом  недостатков
 Speechlia.
 .Язык системь. hwim относится  ^  области  бухгалтерских  расчетов.  Вместо
 раздельных синтаксического и семантического блоков  системы  Speechlis    ,
 нздш  имеет  единый,  семантико-синтакси-ческий  модуль,  реализующий   так
 называемый блок "прагматической грамматики".  Эта  грамматика  представлена
 здесь в виде   сети и основывается не на таких  синтаксических  категориях,
 как подлежащее, сказуемое, определение,а на семантических  -  "поездка","ли
 ад", "расстояние". Словарь  itvim включает 1100 словоформ   [185, I8yJ
Прагматическая  грамматика,   хотя   и   жестко   связана   с     проблемно-
ориентированным языком,  очень  удобна  длк  обеспеченля  простых  принципов
использования синтаксических,  семантических  и  прагматических  ограничений
языка,  которые  необходимо  делать  для  повышения  точности  интерпретации
высказывания. По-видимому,на перво» этапе построения  автоматических  систем
понимания речи    целесообразно  так  и  поступать,  т.е.  разделить  задачи
использования словарями  (например,  при  автоматическом  машинном  переводе
текстов) и использованием синтаксиса и  семантики  для  построения  СПР.  dc
ьтором случае задача несколько иная - и более сложная, и     боле(  простая.
С  одной  стороны,  нет  уверенности  в  правильном  распоэ   навании   всех
составляющих высказывания; неясно, существуют     я'
                           36
вообще пробелы (паузы, междометия и  т.д.)   на   временной  оси,где  искать
ключевые слова и пр. Но  с  другой  стороны,  мы  ограничиваемся  достаточно
простым проблемно-ориентированным языком с относительно  небольшим  словарем
и  упрощенными грамматическими конструкциями.
    В системе  нто,1  акустическая информация используется блоками акустико-
 фонетического распознавания ( apr) и    периметри-чеокой верификации слов (
 ?та ). Результатом работы APR является  фонетическая  транскрипция  "снизу-
 вверх".
    Блок pvw осуществляет верификацию "сверху-вниз", води словесная гипотеза
 поддерживается  акустическим  уровнем.     Основной   программный    модуль
 верификатора - программа синтеза  слов    по правилам.
    Отдичие системы h.'.'im   от Speechlia  заключается также и в  характере
 акустико-фонетического распознавания - в  наличии  у  системы  HWIM   блока
 селективной  модификации  (   зМ),   дающего      возможность   реализовать
 двухступенчатую  сегментацию   и   маркировку.  Программа  SM    на  выходе
 порождает решетку сегментов, представляющую возможные  альтернативы  фонам.
 Каждый из сегментов   первоначально  маркируется  одной  меткой.  Затем   в
 зависимости от этой  предварительной  классификации  вычисляются  некоторые
 величины аку-отичаских параметров и  модифицируются  оценки  данных  фонем.
 Функции   пяотности   вероятностей,   используемые    блоком    сеяективной
 модификации   sM, поступают  в  бяок агер ( Acoustic  Rionetic  Experiments
 Facility  ), который содержит модули, позволяющие моделировать  звуки  речи
 и проверять параметрические   многомерные распределения  вероятностей   для
 ряда фонетических классов,  что дает возможность полнее использовать многие
 независимые    параметры одновременно.
    Программа   ан?   выделяет   не   только  грубые  классы  фонем,  но   и
производит идентификацию внутри классов.   Характеристики фонам  в   слитной
речи сильно зависят  от  контекста,  т.е.  наблюдается   наличие  нескольких
аллофонов, для которых оценки  сильно перекрываются. Поэтому  в  hv/im   для
каждого  класса  фонем   устанавливается   ряд  фонетических   признаков   и
используется   таблица, в  которой показано ранжирование этих признаков  для
   аллофонов каждого класса.
    После сегментации высказывания   и   построения     сегментной  решетки,
перекрывающей  высказывайте  отрезками,   соответствующими  фонемам,   блок
управления вызывает процедуру лексического  поиска для  сканирования  вдоль
всей сегментной решетки  и  поиска  Ib   наиболее  подходящих  слов.  Из-за
большой неопределенности на  стыках
 37
слов  эту  процедуру проделывают слева  направо  и   справа  налево.  Сяова,
отобранные процедурой лексического  поиска,  образуют    словесную  решетку,
где  они используются при последующей обработке.  Блок  управления,   выбрав
из  УО  отобранных  при  сканировании    слов  одно   с   наибольшим   весом
(получившее наибольшую оценку).пытается,  основываясь    на   прагматической
грамматике, строить гипотезу   о большем отрезке сигнала.   Если  расширение
гипотезы не   получается, блок управления берет следующее  (по  вес^)  слово
словесной решетки; если   это   слово  подходит,  то  расширяют  двухсловную
гипотезу,  если же нет, то подбирают  новое  ключевое  слово.так  продолжают
до  тех пор, пока  не будет построена гипотеза обо  всем высказывании.
    Если система  не   в  состоянии  сформировать  правильную   гипотезу   о
фразе или если исчерпаны ресурсы,  то  считается,что   система   не   смогла
интерпретировать высказывание. При    расширении  гипотезы  блок  управления
вызывает  синтаксическую  компоненту,   которая  дает  возможность   оценить
гипотезу и предсказать      новые слова. Синтаксическая компонента  помечает
каждое  слово   словесной   решетки,   которое   можно   использовать    для
расширения    гипотезь', и устанавливает,   какие еще слова  требуются   для
 подтверждения этой гипотезы ("подсказка" сверху).  В  связи   с   последним
могут  быть  произведены  дополнительные   сравнения    с    эталонами   для
проверки,  нет ли в текущей реализации высказывания необходимых слов.
    После того,  как синтаксическая компонента ("прагматическая грамматика")
сделала свои предположения слов  слева  направо,    она  вызывает  процедуру
лексического поиска для  проверки  новых  гипотез  о  словах.  Оценки  слов,
оценки гипотез   об  отрезках  фразы  и  оценки  фраз  ("событий",   как  их
называют разработчики Wi'iu  )    влияют на  общую  стратегию  интерпретации
высказывания. Событиям    присваиваются очки,  приблизительно  равные  сумме
очков слов  подтвержденной гипотезы  и  слов, требуемых для расширения  этой
гипотезы,
    Попробуем  рассмотреть  пример,   из   которого  станет      ясно,   как
работает механизм анализа предположения,  основанный  на     так  называемой
"островковой стратегии". Пусть  на  вход системы   поступила фраза:
    "What Is the total budget figure ?"(Какова общая сумма  бюджета?).   При
просмотре фразы справа  налево  процедура    лексического  поиска  формирует
таблицу:
17 17
24
22 11
182
178 174
-38
-10
-R
-d
-R
1.    FIGURE
2.    FIGURE
3.    TOTAL
38
4.   FIGURE1723169-535.   YEAR2023107-23б.    УСУ2022100-317.    IS3596-318.
ABOVE10149409.  BUDGET111781-1610.  IT6880-1611.  IS2576-3112,  ТО7973-4613^
WOULD0372-3114.   -34572015,   FIGURE172169-38Слева   направо16.   TOTAL   -
ED71?1971017.    FIGURE1724182018.     WHAT03178019.     PIOURE1722178-3820.
TOTAL711174-1021, FIGURE1723169-5322. HJDGET1117154-1623.  VKAH2023107-2324.
YOU2022100-3125.  IS3596-3126.  FIGURE  -  ED172389-3827.   FIGURE172883028.
BUDGET111781-1629. IT6880-1630. HIS2576-31
     Список представляет  30  возможных  слов  при  сканировании  справа   и
 слева, позиции правой и левой конечных сегментов    слова,  очков,  которые
 получило  данное  слово   при  сравнении   эталонов   с  участками  входной
 реализации  на  местах между начальной и конечной  точками  гипотезируемого
 слова, логарифма вероятности   произнесения  данного  слова.  Список  может
 описывать некие специфические свойства, связанные  с  произношением  (здесь
 всюду пропуски -  -), а также показывать, справа  или  слева  производилось
   сравнение с эталоном (здесь показатели R   и L).
     Анализ списка гипотезируемых  слов  показывает,   что     больше  всего
 очков набрало слово  totaled  (при сканировании       слева  направо).  Бто
 слово занимает  в  словесной решетке позицию от сегмента  7  до сегмента 12
 и имеет вес 197. Для этого слова    соа-
39
дается  однословная  гипотеза,  которую  должна  расширить    синтаксическая
процедура.   Но   прагматическая  грамматика  не      позволяет  формировать
фразу   с   этим  словом  в  прошедшем  времени.    Следовательно,  никакого
предсказания  о  возможном контексте с этим словом сделано Сыть  не   может.
Следует перейти к следующему (по  оцен.  не   в   очках)  слову   figure   .
Отметим,  что  существует      семь  различных  сравнений   с   этим  словом
примерно в гом же  месте   высказывания,  немного  отличающихся  очками.(Это
объясняется    различными  фонологическими  эффектами   на   концах   слова,
возможностями различной сегментации  в  сегментной  решетке   и   различными
возможными произнесениями этого слова, отраженными в эталонном  фонетическом
графе;  в кашем случае все связано с  неопределенностями  сегментации  этого
слова  в  конце.) Вообще говоря, то, что   одно слово встречается  в  списке
вероятных кандидатов несколько   раз,  является    хорошим  признаком  того,
что это слово   действительно присутствует  в  высказывании,
    Чтобы избежать избыточной обработки, авторы вводят   понятие "нечеткого
словесного сравнения", которое обобщает сравнение    с  эталоном  одного   и
того же слова, появившегося примерно в том же месте. Всегда,   когда  слово-
кандидат подобно figure  встречалось несколько раз, при расширении  гипотезы
используются     нечеткие границы. Итак,  для   слова  figure   предлагается
расширить гипотезу.
    При  обработке   предложенного    слова    (с    примерно    известными
границами)  процедура Syntax  подбирает   слово   виос-зт,   заканчивающееся
позицией 17.  В  прагматической  грамматике  hwim    слово  budget     может
использоваться  лишь   в  словосочетании  budget  figure  и,  так   как  это
словосочетание находится в конце  предложения, никаких слов  справа   больше
не будет. Блок управления   использует  далее  найденное  словосочетание   в
качестве    расширенного "островка надежности" для поиска слов  от   позиции
II до начала высказывания.
    Обращаясь  к  синтаксической процедуре, блок управления   обнаруживает,
что  прагматическая грамматика допускает еще несколько слов,  кроме слов  из
списка, рассмотренного ранее, для  расширения этой гипотезы.   9то   связано
с тем,  что  служебные  слова,которые  могут  стоять  перед  словосочетанием
budget. figure  ,     имеют  слишком  небольшой  вес  (очки).  В  результате
сравнения   сегментов, расположенных слева  от  слова budget ,   и  эталонов
слов,  допускаемых  прагматической  грамматикой,  получают   новый   список,
расширяющий предыдущий (в  списке  остаются  лишь  слова,  оценки    которых
превышают  вктоочающий модель    пользова-теяя  и семантическую память.
    Эксперименты с vdms    показали, что  речевой  сигнал    ограничивается
 по  полосе на частоте 9 кГц и поступает  на  12-разрядный  аналого-цифровой
 преобразователь, где квантуется с   частотой  30  кГц.  Затеи  оцифрованная
 речь проходит  через ЦАП и результирую щая аналоговая  речь  поступает   на
 три полосовых фильтра, имеющих полосы пропускания I&0 - 190, 990 -  2200  и
 8000 - 5000 Гц.  Через  интервалы   в   10  мс  с  фильтров  снимались  два
 параметра  -   максимальная  амплитуда   и   число   нулевых   пересечений.
 Полученные  шесть  параметров   использовались   для   грубой  акустической
 маркировки каждого десятимиллисекувдного отрезка.
     Как только слово поступает  в  систему,  формируется   и   хранится   в
 памяти информахцж о нем, в частности, отмечается, сколько высказываний тому
 назад  это слово  было произнесено и    былс ли оно использовано, насколько
 вероятно,  что  это слово   повторится еще  раз.  В   системе  учтено,  что
 различные контекстные слова предсказанные тематической  памятью,  "стареют"
 от  высказывания   ч   высказывании   и    вероятности   их   использования
 уменьшаются.    Вел* вероятность предсказанного слова Падает ниже заданного
    нaпepe^ порога,  то  это слово какое-то   время  не  рассматривается.Все
 эт' в vdms    выполняет блок диалогового уровня  Discourse   ,   являющийся
 наиболее оригинальным блоком системы. Процедуры,   которые
  42
реализует  Discourse,   основаны  на  изучении,диаюга  между  двумя  людьми,
совместно выполняющими некоторую  работу.  Ьыло  найдено    и  Досмаяизовано
влияние  контекста  на  характер  диалога,причем  рассматриваются  два  вида
контекстного влияния. Глобальный контекст обеспечивает один вид  ограничений
при   интерпретации   высказывания.   Эти   ограничения   используются   при
идентификации группы   существительных.  Второй  вид  ограничений  связан  с
текущим   контекстом   соседних   высказываний.   Они    используются    при
интерпретации    сокращенных,  эллиптических  выражений  и,   в   частности,
добавляют дополнительные фрагменты к сокращенному высказыванию.  В  качестве
примера высказывания, которое может воспринять система  VDl'iS   ,  ыож"  но
привести такое: "Напечатайте типы подводных лодок, на  которых  больше  семи
ракет".
    СПР  vdms   -   spi   построена   на   базе   проблемно-ориентированного
языка,доступного информационно-поисковой системе данных о  подводном  флоте
США, Великобритании и СССР. Общий словарь системы  составляет  450  слов  [
182] , Система использует синтаксис   спонтанного английского диалога,  что
позволяет запоминать информацию о ранее произнесенных фразах и декодировать
текущие, используя предыдущие  высказывания.  Система  vdms-sri    наиболее
полно   использует идеологию искусственного интеллекта при    интерпретации
устных высказываний, которые могут быть сильно "усеченными".
    Для испытания системы была проделана серия опытов,   которые должны были
определять наилучшую структуру СПР  подобного     типа.  Было  испытано  16
экспериментальных систем, которые дали точность интерпретации  высказываний
от  46,7  до  73,3%,  причем   если   итерировать   несущественные   оаибки
распознавания, то точность (для наилучшей конфигурации системы)  возрастает
до 81,7%.   В [1в2~\   отмечается, что  наиболее  эффективной  помощью  при
реализации речевого диалога оказались использование и проверка контекста.
    Начиная с 1976  г.  начали  появляться  работы  о     построении  СПР  в
Западной Европе (Франция, Италия, ФРГ), Японии и СССР.Уровень  исследований
по СПР в этих странах (объем словаря,сложность языка) пока ниже, чем работ,
выполненных  в  США  по  проекту  arpa.  Сяедует,  впрочем,  отметить,  что
разработка "малых" СПР  производится в соответствии с  тенденцией  [145]  ,
которая заклта-в»оя в том, чтобы "заполнить пропасть"  между  практическими
сис-^мами распознавания слов и относительно громоздкими СПР, выполнившимися
по проекту arpa.
    В  С142]приведена таблица,  которая,  по  мнению  автора,  характеризует
действительное  состояние  и  будущее   развитие      коммерческих   систем
распознавания/ понимания речи до 3000 г.:
    431982 - БИС для системы распознавания речи.
    1985 - Высокоточные системы распознавания изолированных слов с  большими
словарями.
    1990  -  Системы  автоматической  диктовки  с  ограниченным    словарем,
управляемые синтаксисом языка.
    I&95  -  Системы  понимания  речи  с  неограниченным  словарем,   но   с
ограничениями на синтаксис.
    2000 - Системы распознавания слитной речи с   неограниченным словарем  и
без ограничений на синтаксис.

§ 1.4. Системы автоматического речевого ответа

    1.4.1. Коммерческие системы автоматического синтеза    речи. В системах
автоматического  речевого  общения   "человек-ЭВМ"   важную   роль   играет
автоматический речевой вывод, позволяющий   человеку  получать  необходимую
ему   информацию   в   привычной   форме     речевого   сигнала.   Проблема
автоматического речевого вывода считается более простой, чем автоматическое
распознавание речи (в первом   случае речь воспринимает человеческий  мозг,
-;  а  во  втором  -  автомат).  Поэтому  работы   по   построению   систем
автоматического речевого ответа (САРО) промышленность получила раньше,  чем
работы по    автоматическому  распознаванию/  пониманию  речи.  Синтезаторы
речи,являющиеся   главными   узлами   таких   систем,   уже   изготовляются
промышленностью США, Японии и некоторых других    стран [30,  46,  51,  52,
100, 142] . В саязи с появлением микропроцессоров и специализированных БИС,
а также в связи с тем, что пользователи потребовали, чтобы  информационные,
управляющие и другие подобные системы, основанные  .на  использовании  ЭВМ,
"говорили", фирмы, выпускающие ЭВМ или отдельные узлы  ЭВМ,  начали  выпуск
оборудования дея систем  речевого  ответа.  Построены  первые  промышленные
системы, который обеспечивают  одновременное  автоматическое  распознавание
(автоматический речеэой запрос" с использованием ограниченного лексикона) и
речевой ответ. Первое применение такие системы нашли  в  "интеллектуальных"
терминалах больших ЭВМ (или  сетей  ЭВМ),  в  некоторых  системах  военного
назначения, в   приборах бытовой электроники [52, 60, I40t .
    Следует отметить также, что продолжают развиваться научные исследования
в  области  создания  систем   автоматического     синтеза.   Эти   работы,
направленные  в   основном   на   повышение   качества   (разборчивости   и
естественности) синтезируемой речи (без    существенного  повышения  объема
информации, требуемой для управления   син-

44

двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48,  63,  54]
, Японии [l3b,I62] , Великобритании [l64] ,   Канаде [167]  ,  Франции  [146
171] , Италии [l60,JSl] ,  Мексике  [ill],Западной  Германии  [122,  184]  ,
Норвегии [137] и других странах.
    В [142] отмечается, что ЭВМ пятого  поколения  (мультиыикро-процессорные
машины) будут гораздо шире, чем современные ЭЗУ, использовать ввод и  вывод
информации в речевой форме. Предполагается, что уже в ближайшее время  ЭВМ,
оборудованные системами речевого вывода, настолько проникнут в нашу  жизнь,
что   совершенно изменят взаимоотношения человека и техники.
    В основе систем автоматического речевого ответа, поступающих в настоящее
время на рынок, лежат три основных способа синтеза рэчи -  непосредственное
кодирование речевой волны (дискрети-аация и  сжатие),  форматный  синтез  и
синтез,  основанный  на   линейном   предиктивном   кодировании   (линейном
предсказании). В [б] приводятся системы автоматического речевого  вывода  -
наиболее распространенные в настоящее время в США системы такого рода. Так,
в сис-томч Votrax процесс  формирования  устного  высказывания  по  тексту,
поступившему из ЭВМ или с клавиатуры  в  закодированном  виде,начинается  о
разбивки текста на основные звуковые влементы -  фонемы. Так  как  фонемная
цепочка, соответствующая тексту, не обеспечивает высокочастотной  речи,  то
эта цепочка программно преобразуется в цепочку аллофонных кодов (аллофоны -
это    варианты произнесения  фонем  в  зависимости  от  контекста;  разные
исследователи  называют  различное  число  аллофонов  для  каждого  языка;в
системе Votrax используется 12Ь аллофонов,  что  позволяет  получать  более
естественную речь). Для порождения слитной речи    аллофоны  Должны  плавно
переходить друг в друга.
    Каждому аллофону  соответствует  управляющее  слово,  воздействующее  на
аппаратный синтезатор звуков, который в два этапа перерабатывает цепочку 12-
разрядных управляющих слов. На первом этапе Управляющее слово  декодируется
и перерабатывается в   аналоговые  управляющие  сигналы,  задающие  частоту
основного тона, длительность изменения во  времени  амплитуды  и  гармоник,
связанных с каждым  ал-Яофоном.  На  втором  этапе  реализуется  собственно
синтез. При этом параметрические сигналы, воздействуя на генераторы звука и
прог-Рачмируемые  фильтры,  преобразуются  в  звуки  речи.  Звонкие   звуки
°оздаются с помощью генератора регулируемой  высоты  тона,  а  глухие  -  с
помощью генератора бел го шума.
    В приборах Texas Instruments   три  большие  интегральные  сис-^ы  (БИС)
моделируют  голосовой  тракт  человека.  В  основе    модели  •вяит   метод
линейного предсказания (или линейного предиктивного ко-

45

дирования -  ЛПК).  При  ЛПК  на   кристалл  синтезатора  подаются  значения
коэффициентов для   цифрового  фильтра  второго  порядка,который  моделирует
динамику форматных частот.  Вычисление   коэффициентов  фильтра   производит
другая БИС  -  микропроцессор тыз -1000. Третья БИС хранит  отдельные  части
слов  в   параметрическом   виде.  Воссоздание  речи   по   этим  параметрам
осуществляет сложный  программный алгоритм.
Преимущество  метода  ЛПК  заключается   в    тс-л,   что   он     позволяет
воспользоваться  тем  фактом,  что  голосовой  тракт  человека  относительно
медленно   меняет   свои   параметры   при   речеобразовании.Это    свойство
ограничивает  диапазон  изменения  форматных     параметров,  которые  могут
следовать  за  форматами уже с генерированных   отрезков звуков речи.  Такое
прогнозирование уменьшает требования  к объему памяти системы,  а  также   к
скорости обмена данными; с описываемой системой она равна 1200 бит/с.
Синтезатор National  Semiconduoton Inc.   способен    осуществлять  анаяого-
цифровое преобразование речевых сигналов и   сохранять   их   в  памяти  для
дальнейшего  восстановления.  Такой     метод  предполагает  огромный  объем
информации,  которая  должна   храниться   в    памяти,   что   делает   его
малопривлекательным.  Однако  в  рассматриваемой   системе   эта   трудность
обходится  за счет   использования различных  методов  сжатия   данных.  Это
позволило реализовать   качественный синтез речи  во  временной  области  на
уровне &1С.
Дискретизацию  и  сжатие  исходной  речи,  записанной  на  магнитной  ленте,
осуществляет мини-ЭВМ.  Результирующие  данные  сохраняются   в   постоянном
запоминающем   устройстве    (ПЗУ)    для    последующего    восстановления,
осуществляемого БИС процессора речи.   Благодаря  применению   Трех  методов
сжатия   (подстройки  фазового   угла,  дельта-модуляции  и   полупериодного
обнуления)  скорость  поступления  данных,   по   которым  восстанавливается
нормальная речь, снижается примерно до 1000  бит/с  речи,  так  что  по  ПЗУ
емкостью 10 кбит можно хранить примерно 10 слов.
Процесс  сяатия начинается с дискретизации аналогового  речевого  Сигнала  и
разделения цифрового массива на участки, в  каждом из которых 128  оГсчетов;
эти участки  в  какой-то степени характеризуют периоды основного  тона.  Для
получения набора цифровых  выборок,  аналогичных  формируемому  предложению,
подстраиваются     фазовые   углы   этих   отрезков.    Дальнейшее    сжатие
осуществляется  с   помощью  дельта-модуляции,  в  результате  чего   вместо
хранения   абсолютной амплитуды каждой выборки в память записываются  только
знаки приращения амплитуд относительно предшествующего значения.

46

    рассмотрим   далее   более   подробно   несколько   современных   систем
параметрического синтеза.
    В ГЮО] описана разработанная фирмой Texas      Instrument  a  программа,
позволяющая преобразовывать произвольный текст в речь. Программа  совместно
с интегральным синтезатором речи типа    tms-5й00  позволяет  читать  вслух
информацию, отражаемую на     экране дисплея домашнего компьютера  9S14.  В
отличив от Speak and Spell система не иоподозувт  записанные  ранее  в  ПЗУ
слова и фразы, а синтезирует слова из  128  аллофонов  (аналогично  системе
Votrax описанной ранее), которые объединяются  системой  для    образования
слитной речи. Программа преобразования текста в цепочку аллофонов  выбирает
аллофоны из библиотеки и определяет их  ударение  и  интонацию.  Затем  эта
информация  поступает  в  блок  синтеза  речи,  который  формирует   звуки,
используя кодирование, основанное на линейном предсказании.
    Блок-схема  преобразования   текста   в   речь,   реализованного   Texas
Instruments,  представлена на рис.I.I.
    Аллофоны имеют переменную длительность от 50 до 200 мс  и  кодируются  в
соответствии  с  параметрами,  необходимыми  для     организации   синтеза,
основанного на  линейном  предсказании.  Библиотека  аллофонов,  включающая
длинные  и  короткие  паузы,  кодируется  по  энергиям   и   коэффициентам,
необходимым  для   установки     характеристик   фильтра   ЛПК-синтезатора.
Библиотека аллофонных кодов занимает   3 кбайта памяти.
    Для преобразования текста, поступающего на  вход  в  пооледова-тедьность
аллофонов, используется набор из 650 правил, который в  процессе  испытаний
обеспечивал правильный выбор 97^ фонем и  92% аллофонов. Правила занимают 7
кбайт памяти. Программа конструиро-
Синтез речи
Конструирование  речи (программное формирование кодовой аллофонной цепочки)
|Вход|Правил| |Преобразо|1|Центр|
|ное |а     | |вание    |+|альны|
|    |преобр| |аллофонов|1|й    |
|    |азован| |в данные | |Проце|
|    |ия    | |для      | |ссор |
|    |текста| |синтезато| |     |
|    |в     | |ра       | |     |
|    |аллофо| |         | |     |
|    |ны    | |         | |     |
|текс|      | |         | |     |
|т   |      | |         | |     |

[pic]
|Упра| |Син|Ре|
|влен| |тез|чь|
|ие  | |ато|  |
|Памя| |р  |  |
|ть  | |реч|  |
|    | |и  |  |
|    | |тае|  |
|    | |-  |  |
|    | |520|  |
|    | |0  |  |
|    | |   |  |
|    |. 1 |  |
|    |{   |  |
|    |Речевое|
|    |постоян|
|    |ное    |
|    |запомин|
|    |ающее  |
|    |устройс|
|    |тво tm |
|    |S-6100 |


   Р и с. I.I. Блок-схема преобразователя "текст - речь'

47

вания  связывает   и   сглаживав!  переходы   между   ними.   В   результате
формируется кодовая управляющая цепочка  аллофонов,  у  которых  согласованы
энергетические уровни  и  достигнута  плавность   огибающей,  а  сглаживание
коэффициентов фильтра делает более плавными   переходы между звуками.
    После объединения аллофонов  и  сглаживания  переходов   между  ними   в
аллофонной цепочке должны быть расставлены ударения    и  указана  интонация
в  соответствии с метками  пользователя  при  кодировании  входного  текста.
Алгоритм конструирования речи устанавливает частоту  основного  тона  только
для  отмеченных  слогов.Управление  интонацией  основано   на    градиентном
управлении    частотой основного  тона   в  ударных  слогах.  В  нейтральных
интонациях  безударным  слогам  соответствует   среднее   значение   частоты
основного  тона,  тогда  как  ударные  будут  располагаться  несколько  выше
средней линии тона. Наклон создается  программой,   а   пользователь  только
помечает ударные слоги.
    Как уже отмечалось, синтез речи   в   системе  преобразования  "текст  -
речь" системы  Texas  instruments  основан  на  линейном  пред-сказуемостном
кодировании,   являющемся   математической   моделью    голосового   тракта,
реализованной в  виде  фильтра.  Коэффициенты  линейных  уравнений  фильтра,
определяемые путем анализа    естественной речи, используются  в модели  для
управления "конфигурацией"   голосового  тракта  при  формировании  речевого
сигнала.  В  системе   запоминаются  соответствующие   различным   аллофонам
коэффициенты  фильтра,  коэффициент  передачи   фильтра,   частота   сигнала
возбуждения,используемого   для    управления   фильтром.   Система    Texas
Instruments обеспечивает  [100]  хорошее  качество  речи  при  использовании
ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.
    В Cl40]  отмечалось,  что разработанная в 1976 г.    система дискретного
распознавания слов  was, предназначенная  для     ввода  речевых  команд   в
ЭВМ  управления  огнем  тактической     артиллерии,   использовала   систему
речевого ответа (обратной связи)  YS    фирмы  Vo-fcrax.    Блок  речевс"  о
ответа повторял слова устного донесения, которые  по  радио или  телефонному
каналу поступали к корректировщику стрельбы. В случае, если  устная  команда
распознавалась   машиной  верно,корректировщик  произносил  ключевое  слово,
означающее, что команда может поступить в систему управления огнем.
    В [30,129]   рассматриваются новая интегральная схема  синтезатора  речи
sc-OI    и система для проектирования словаря cds-ii.  Речевой  интегральный
синтезатор sg-oi   реализует фонемный  синтез. Для преобразования  фонем   в
параметры речи используется фо-

48

немный контроллер.Синтезатор работает с внешней  памятью,  где  хранятся  6-
разрядные  коды  фонем.  В   отличие   от   системы    Texas    Inntru-ments
синтезатор sc-OI   использует для моделирования голосового  тракта  человека
не кодирование, основанное на линейном предсказании,  а  более  традиционный
метод, основанный на    применении аналоговых полосовых фильтров,  на   вход
которых поступают    сигналы  возбуждения  от  генератора   с   регулируемой
частотой,  моделирующего  работу   голосовых   связок,   и   от   генератора
псевдослучайных сигналов, моделирующего шумовой источник.
    На  входе  синтезатора   SC-OI   стоит  фонемный   контроллер,   который
преобразует  код  фонемы  (их  64)  в   матрицу   спектральных   параметров.
Контроллер же  может изменять частоту основного    тона;
что  позволяет  устранять  монотонность  звучания    синтезированной   речи.
Управление синтезатором осуществляет генератор  синхронизирующих  импульсов,
находящийся  в  интегральной схеме. Управление  час-'тотой   основного  тона
производите"! внешним воздействием на источник тонального сигнала.
    После поступления кода  фонем   на  фонемный  контроллер  последний   в
 соответствии с тем,  какой  звук  должен  быть  порожден,управляет  моделью
 голосового  тракта,  воздействуя  на  цепи  с   переключаемыми   емкостями.
 Длительность каждой фонемы устанавливается в  пределах 50 - 250 мс.
    Фонемная информация,  поступающая   на   вход,  создается    программой
 преобразования, которая анализирует тексг, вводимый в память   из   ведущей
 ЭВМ или с клавиатуры. В  кодах  фонетических  сим-всдов,  формируемых  этой
 программой, содержатся числа, означающие длительность генерируемого  звука,
 которая зависит от ударения.
    Информация  для   синтезатора   sc-OI    вырабатывается   системой   для
проектирования словаря типа     cds  -II,  на  входной  клавиатуре   которой
набираются слова или фразы,  подлежащие  синтезу.   Система  базируется   на
микропроцессоре типа 6У08 фирмы  Motorola.Дд-горитм  преобразования  "текст-
речь"  и  операционная система занимают 24  кбайта  ПЯУ   и   рабочую  часть
оперативной  памяти  емкостью  2   кбайта.   Выходная   информация   ciis-11
используется  для  программирования  памяти  стираемого  ПСУ,  где  хранятся
данные для ИС синтезатора. Для программирования  ПЗУ  информация  из  cds-ii
передается  последовательным  кодом    в    ведущую   ЭВМ   (которую   можно
использовать для  перевода слов в фонемы), ленточный перфоратор  или  другое
устройство  с  целью последующей записи  в  ПЗУ.  В  систему  проектирования
словаря входят также печатающее  устройство,  позволяющей  печатать  речевую
информацию в шестнадцатиричном коде (исполь-

зaк.480                         49

ауя,  как  отмечено,  6  бит  на  фонему),  а   затем   вручную   вводить  в
программатор ПЗУ.
Наряду  с  системой  cDy-II  ^той  же  фирмой  выпускается     универсальный
речевой модуль fYHtl), не  обладающий возможностью преобразования текста   в
 речь. В памяти этого устройства в  табличном виде записаны коды 1300  слов,
а также 25 суффиксов и префиксов. Как   и   система  проектирования  словаря
cds-ii,  УРЫ    включает  в  свой состав микропроцессор типа 6806. Он  также
 содержит синтезатор типа  ас-01, операционную  систему,  хранящуюся  в  ПЗУ
емкостью 2  кбайта,  таблицу  слов,  записанную  в  перепрограммируемом  ПЗУ
емкостью 2 кбайта, и I  кбайт  рабочей  области  оперативного  запоминающего
устройства. УРМ можно использовать в качестве рабочего модуля  а   различной
аппаратуре. При этом модуль  может   управляться  внешним  процессором   или
ведущей ЭВМ.
Некоторые сведения  о других синтезаторах содержатся в [51, 52, 55, 142].
1.4.2. Повышение  качества  синтезируемой  речи.  Несмотря     на  появление
коммерческих систем автоматического речевого ответа,синтетическая речь   еще
ке качественна. Поэтому в лабораториях  мира продолжают  энергично  работать
над проблемой синтеза речи. В  трудах  ежегодных  международных  конференций
по акустике  речи  и   обработке  сигналов,  которые  проводятся  Институтом
инженеров по электротехнике  и радиоэлектронике США с 1976  г.,  большинство
 докладов  посвящено  автоматическому  синтезу.  Работы  относятся  к  самым
различным языкам.
В С 115]   описана разрабатываемая  для   шведского  языка  система  "текст-
речь",  базирующаяся  на  правилах  перевода      буквенной   информации   в
фонетическую. Система синтеза состоит из последовательности  преобразований,
каждое из которых отражает часть  знаний  о  речевое  процессе.  Отмечается,
что   для  получения   качественной  речи   целесообразно   математизировать
использование таких просодических параметров,   как  длительность  звуков  и
интонация. При  формализации  правил  преобразования  был  использован  опыт
работ    по созданию систем "текст-речь", проводимых  в  США,  и  учтен  тот
факт, что фонетическое представление высказываний в шведском  языке   бо-яее
простое, чем в английском.
Наибольшие  трудности  вызывает  поиск  в  неразмеченном   знаками  ударения
тексте ударных слогов, а  также  слогов  вторичного   ударения  (  aecondary
stressed syllable  ). Во время этого поиска  следует использовать  различные
ключевые индикаторы, такие  как сдвоенные  гласные,  некоторые  окончания  и
комбинации гласных с согласными, образующими ударные слоги.

50

    разработаны основные  правила  преобразования  фонетической  цепочки   в
синтезированную акустическую волну.Эти  правила,  для  формализации  которых
создан  специальный  язык,  работают  на    сегментном   уровне.   Например,
правило, определяющее длительность сегмента, запювется<"segment>—<  DURATION
- Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*
« 0,35)> ,
где Т  -  номинальная  длительность;  А,В,С,  -  переменные,   зависящие  от
позиции и длительности слова или фразы.
В   [Иб]   сообщается   о   системе  речевого  синтеза,  разработанной  для
английского языка в Bell Laboratories.  Система обеспечивает более  высокое
 качество  синтезируемой речи  за счет» I) более точных правил  определения
длительности звуков речи, основанных  на  измерениях, которые продесаны  на
участках  естественной речи; 2) расширяющихся правил  учета  аллофонических
изменений как функции словесных и других границ; 3) введения большого числа
правил просодии нижнего уровня,  учитывающих  особенности  речеобра-эования
(ассимиляцию звуков, изменения внутри звукосочетания согласных, контекстную
зависимость гласных и т.д.); 4)  правил,  учитывающих  медленные  изменения
параметров модели голосовых   связок   и  шумового  источника  возбуждения.
Многие особенности системы   синтеза речи  Bell  Laboratories   рассмотрены
также в  С75,Ь9].В [69], в частности, довольно  подробно  описаны  свойства
просодии   английского  языка.Предполагается  различать  просодию   высшего
(собственна  Просодические  функции)  и  просодию   низшего   уровней   (их
акустические компоненты) и  использовать  правила  просодии  для  повышения
качества синтезируемой речи.
При исследовании слитной речи выявилось, что в    английском языке:
    - главный фактор, определяющий длительность гласных, - позиция  гласной
в слове, а слова - в предложении (или в    синтагме);
гяасная имеет наибольшую  длительность,  если  она  находится  в   последнем
слоге перед паузой;   это  объясняется  особенностями     контура  основного
тона перед паузой, что значительно удлиняет  гласный; различие  длительности
гласных  в  предпауэальной  и  непредпау-эальной   позициях   приблизительно
находится в соотношении 2:1;
    -  последующие  согласные  укорачивают  длительность      гласного   Ьо
сравнению с некоторым средним значением), если  за  гласным  следует  глухой
взрывной (характеризуемый смычкой), и  удлиняют,  если  за  гласным  следует
звонкий фрикативный; наибольшее влияние на  длительность  гласных  согласные
оказывают в предпаузальной позиции;
    -.длительность безударных гласных, если  они  не   находятся
в конце слова, составпяет около 40 мс;  в  конечных  позициях     они  Содее
длительны;
51
    - дифтонгизация сильно удлиняет гласную;
    - на  длительность  согласных  основное  влияние  оказывают  2  фактора:
положение согласной  относительно  ударного  сдога  и     границ  слова  или
предложения и консонантность окружения;
    - длительности  консонантных  согласных  (а  именно  глухих  фрикативных
f,s,S) подчинены точному  аддитивному  правилу,  ударение  и  границы  слова
действуют  как факторы приращения, а согласные , смежные   с   фрикативными,
действуют как фактор укорачивания;
    - наибольшее непостоянство длительностей в зависимости    от ударения  и
 позиции проявляют переднеязычные согласные t , d, n ',
    - звонкие Фрикативные в середине и конце счов значительно короче  глухих
фрикативных, находящихся в такой же позиции;
    - влияние окружающих  согласных  на  длительность  конкретной  согласной
зависит  от  способа  и  места  их  артикуляции;     длительность  согласной
зависит также  от  степени консонантности ее окружения;
    -  в  связи  с  этим   комбинации   двух   последовательных   согласных,
характеризующихся одним  и  тем же местом артикуляции,  проявляют  тенденцию
 к  уменьшению длительности обеих, например, пй  и nt;
звонкие фрикативные обычно удлиняют соседнкж. согласную;
    -   длительность   плавных   и   носовых,согласных   сильнее      других
подвергается   воздействию   смежных   согласных    с    ослыпей    степенью
консонантности, влияние которых проявляется даже через границы слов;
    - начальная  согласная  функциональных  слов  (артикля  и    предлогов)
 значительно короче, чем в случаях значимых слов;
    - легко предсказуемые слова обычно состоят из более   коротких  гласных
 и согласных, чем непредсказуемые;
    - в английском языке согласные  в  начале слова могут обладать  другими
 акустическими характеристиками, чем те же  согласные  в  конце  слова  (это
 явление  называют  селективной  аллофонией   в    отличие   от   позиционно
 обусловленной адлофонии, связанной  с   явлением коартикуляции);
 - начальные аллофоны (по сравнению с конечными  и   средними)  имеют  более
 сильные   консонантные   признаки   -   большую    прерывность,    четкость
 интонационных составляющих (основного тона и  гармонической  структуры)   в
 потоке рачи, более  интенсивную  шумовую  составляющую  фрикативных,  более
 сильный взрыв с явным участком аспирации  в  глухих взрывных  и  т.п.;  эти
 свойства начальных  аллофонов нвняются признаками начала сообщения,  обычно
 слова.
 В С89] рассмотрены и  некоторые  другие  свойства  просодии,  положенные  в
 о&нову правил  преобразования  "текст  -  речь"  и  обеспечивающие  высокую
 разборчивость и естественность синтетической речи.
  52
вГ2] подробно описана  лингвистическая  и  фонетическая     сторона  паботы,
которую необходимо выполнить при реализации качественного  синтеза  речи  по
произвольному тексту. Важнейшими     этапами иссяедований здесь являются:
    - создание более совершенной модели речевого тракта;
    - определение более полного набора абстрактных  правил  лингвистического
описания текста;
    - разработка полного  свода  правил,  позволяющих  вывести  фонетические
описания   по   правилам   лингвистического    описания    текста    (дравид
преобразования букв в звуки);
    -  формализация  морфофонематичаских  правил   и   правил   лексического
ударения, которые дают на уровне слов окончательную коррекцию цепочки  фонем
(аллофонов);
    - грамматический анализ предложений, раскрывающий иерархическую  природу
их построения для определения правильности интонационного контура;
   - более тщательное иосдедование просодических  коррелят  лингвистических
структур.
   Отметим  особую  важность  создания  хорошей  модели  речевого   тракта,
параметры которой изменяются в соответствии  с  правилами  ре-чвобразования.
Хорошая модель позволяет существенно онизить объем  информации,  описывающей
форму речевого сигнала (вырабатываемого на Мходе модели из небольшого  числа
параметров),  а  также     более  глубоко  и  еотеотвенно  описать   речевые
явления. При     параметрическом синтезе информация  о  фонемах  (аллофонах)
запоминается    в  виде  комплекса  параметров  и  правил  модификации  отих
параметров под влиянием различных ограничений. В связи о этим для  повышения
качества синтеза необходимы структурные модели,   отражающие ащ  ограничения
на различных уровнях - артикуляторном, дистрибутивом,  словообразовательном,
синтаксическом и семантическом. Эти иодеди  должны  координироваться  гибкой
структурой управления,обео-почивающей их взаимодействие.
   Для  повышения  естественности  и  разборчивости   речи,   генерируе-"ой
форматными синтезаторами, в [176 ]   предлагается   использовать  вычисление
форматных параметров на более коротких интервалах,  что  позволяет  улучшило
синхронный с основным тоном  анализ.  1домен-т^  смыкания  голосовых  связок
характеризуются  импульсным  воабужде"  нием.  На   первом   этапе   анализа
оцифрованной волны такие точки воз-°Й<дения  легко  выделяются  (со  средней
точностью)  процедурой  пи-Чового   детектирования.   (Во   время   шумового
возбуждения эти   точки ^определяются случайно, тогда  как  при  возбуждении
речевого сиг-
53
нала импульсами голосовых связок большинство  таких  точек     соответствует
моментам   смыкания   связок.)   Даяее,   для   каждого      отрезка   волны
длительностью 10 мс с помощью ДПФ вычисляется 33-точечный  логарифмированный
энергетический спектр. Временные отсчеты   для  получения  спектра  берутся,
начиная  с  момента,  соответствующего  найденной  точке  возбуждения.  Если
десятимиллисекундный    сегмент  содержит  одну   точку   возбуждения,    то
логарифмы   энергетического спектра  вычисляются по формуле
^ = '° Чю \ Ц, ^ ехр (-^тп/32 \ '•
где  п = 0 -  32;  Л„,  -  отсчеты  речевой  волны,  следующие  за  моментом
возбуждения; У  - оценка  (в  дБ)   логарифма   энергетического  спектра  на
частотах 156, 25 х п   (в Гц).
    Итеративный анализ составляющих этого  спектра  и     позволяет  оценить
все   требуемые  для   синтезатора   формантные       параметры.   Процедура
итеративного анали-а посредством синтеза (когда спектр, синтезированный   по
 приближенным формантным  параметрам      речи,  сравнивается   с   реальным
спектром входной речевой волны, и   если  расхождения  велики,  производится
уточнение   формант)       позволяет   получать    параметры    качественной
синтетической речи.
     В  ряде  работ  подчеркивается,   что   для  повышения   естественности
 синтезированной  речи  целесообразно   разработать        хорошие   правила
 корректировки   микро-   и   макровариаций   частоты      основного   тона,
 длительности звуков  и  интенсивности.  Полная  модель   генерации  частоты
 основного тона, его микро- и  макровариаций  рассмотрена  в   Ll04]  ,  где
 исследовались различные синтетические  структуры,  позволившие  выявить,  в
 частности, влияние модальности    на контур  основного  тона   в   вопросо-
 ответных системах при   перемещении центрального  слова  фразы  (слово,  на
 которое делается    акцент  при  вопросе). (Формирование контура  ochobhofj
 тона   будет более подробно рассмотрено в п.1.4.4).
     В [113']  предлагается  для  повышения  качества  синтезированной  речи
 (полученной  методом линейного предсказания),  поступающей   на   наушники,
 использовать эффект бинауральной  реверберации который можно смоделировать,
 подав синтезированную речь на  громкоговоритель   и   записав  (в  условиях
 реальной комнаты)  прошедшув через  громкоговоритель  речь   в  два  канала
 через разнесенные микрофоны. Полученные таким способом сигналы поступают на
    правый и  левый  наушники,  создавая   у   слушателя  впечатление  более
 естест' венной речи.

  54
для повышения натуральности речи  в  [162]  предлагается  про-записывать  на
магнитный диск больший емкости сообщения в Siawe параметров,  представляющих
собой набор раноон -коэффициентов. Требуемые фразы  считываются  в  буферную
память.  На     стомегабайтном  диске  можно  таким  образом  записать  5000
сообщений яжительностыо по 15 с каждое. Время выборки сообщения  0,1  с,мак-
симвльное число возможных каналов, по которым может   поступать  информация,
- 128.
    Ряд работ, появившихся в последние  годы,  посвящен  повыше-шф  качества
синтезированной речи за счет модернизации   модели  источников  возбуждения.
Модель смешанного источника  возбуждения  рассмотрена  в  [1523  .  Смешение
достигается делением     речевого спектра на две области  -  низкочастотную,
возбуждаемую    импульс-нк«   источником,   и    высокочастотную,    которая
возбуждается   шумовым  источником.  Для  определения   степени   оэвончения
вводится    параметр fc •   показывающий частоту  отсечки  между  звонкой  и
глухой областями. Для компрессии речи Fp   может выцеляться    автоматически
из речевого спектра и передаваться в управляющие    цепи. Эксперименты,  при
которых использовалась новая модель, показали ее эффективность  при  синтезе
звонких фрикативных и помогли ис-кяючить характерное  "жужжание"  вокодерной
речи.
    8 [166 3 описана новая  функция  возбуждения  для  синтеза,использующего
коэффициенты линейного предсказания. Эта функция   за счет  соответствующего
сглаживания, инверсной фильтрации  и  усечения  верхушки  сохраняет  фазовые
характеристики  импульсов  возбуждения,  Поступающих  из   голосовой   щели.
Отмечается, что качество речи при этом существенно улучшается, а  между  тем
до  последнего  времени  в  lpg-синтезаторах  слишком   мало   усилий   было
направлено на поиск более соответствующих реальным  функций      возбуждения
рачаобразующего  тракта  из-за  того,  что  не   были   установлены   четкие
соотношения между остатком линейного предсказания  и    формой  возбуждающей
волны.
    В [137] описан LPU-синтеэатор   речи,   разработанный   в  Норвегии.  По
мнении  авторов,  он  обеспечивает  высококачественную  речь  (при   высокой
компрессии) за  счет  использования  более  совер-аенной  модели  смешанного
возбуждения. В модели     предусмотрено использование:
    - фильтра импульсов основного тона -  двухполюсного  фильтра,  Делающего
импульсы возбуждения более похожими на реальные    импуль-^i  поступающие  с
голосовых связок в полоогя речеобрааующего тракта;

55

Орфограф^еский текст
  I
Трансляция "графема-фонема"
фонетическая цепочка
    - фильтра, моделирующего влияние излучения речевого   потока с губ  (liP
- radiation filter)!
    -  дополнительного   фрикативного   источника,   который   автоматически
подключается  при формировании звонких взрывных и   фрикативных.
    Ряд работ,  связанных   с   повышением  качества  синтезированной  речи,
относится   к   проблеме  формализации  правил  наложения  на  фонетическую
цепочку интонационного контура. Они -Зудут     подробно  рассмотрены  в  п.
1.4.4.
    1.4.3. Дифонный синтез речи. Одним из направлений,   обеспечивших синтез
 более  высококачественной речи, стало направление, связанное   с   выбором
иной, чем фонема (или аллофон)  структурной  единицы,  лежащей   в   основе
формирования высказывания.Выяснилось, что основные неприятности, приводящие
 к  ухудшению    естественности  и  разборчивости речи, связаны с явлениями
на стыках  звуков. Поэтому  в   ряде  последних  работ  по  автоматическому
синтезу речи  в  качестве опорного элемента  выбирается  участок   речевого
сигнала,  включающий  переход  между  звуками.  Такие  элементы    называют
"диадами", "дифонами", "транземами", парами фонем,    машинными слогами...
    В  Ll433  описан диадный синтез  французской  речи.  В  памяти  хранятся
эталоны 1000 дифонов (пар фонем), представленных   спектром, полученным   с
гребенки фильтров (отсчеты спектра   брались каждые 13,3 мс)   и   частотой
основного тона.  Система  предусматривает  использование  довольно  простой
грамматики для  сцепления  диад  и   автоматического  определения  просодии
фразы. При обработке  цепочки диад, соответствующей  тексту  для  генерации
синтезируемой  волны,  корректируются  длительности    звуков,   микро-   и
макровариации частоты основного тона, контур интенсивности.
    Дифонный синтез рассматривается  и в [.1463 .  Блок-схема  этой  системы
"текст - речь"  приводится  на рис. 1.2.
    Система   юорвомйз   (рис."1.2  )  превращает   орфографическую   запись
предложения   в   звучащую  речь.   Скорость   преобразования   0,1   с   на
предложение,  состоящее   из   70  символов.  Система,    включающая   мини-
компьютер, является полностью автономной.
    Преобразование  "текст  -  речь"   в   первом  приближении  не   требует
синтаксического  анализа  структуры  предложения  (во   французском  языке).
Основным графическим понятием при преобразованиях является  в  этой  системе
слово,  представляющее  собой     субцепочку  графем  между  пробелами   или
знаками  пунктуации.   Слова   сравниваются   со    списком   предварительно
записанных слов -  исключений,    произношение  которых   не   соответствует
стандартам. Если слова в спис-'

Ь6
        Последовательность дифснов      Словарь дифонов
              Буфер
       Синтезатор  речи  из   44   синусо-   |___гт1   гх,.,.   ___идальных
       колебаний____     UJ     -
рис. 1.2. Блок-схема системы "текст  -  речь"  основанной  на  использовании
дифонов

ке исключений нет, оно разделяется на множество буквенных символов,  которые
обрабатываются элементарными правилами типа
Р—[Р]/Н;

                   P—[f]/H, т.е. р произносится как [/?] , если за  ней  не
следует Н, и как [/З.всли следует Н .
    Числа,  встречающиеся  в  тексте,  также  преобразуются  в  фонетическую
цепочку  по  соответствующим  правилам.  Последняя    гласная  перед  знаком
пунктуации удваивает длительность. Общий объем  памяти,  которую  использует
этот алгоритм, 6 кбайт.
    В память словаря должно быть записано для французской речи 627  дифонов.
Однако если учесть, что для некоторых дифонов некоторые спектры    в  первом
приближении можно считать симметричными, обв(ее число  хранящихся  в  памяти
дифонов  уменьшается  до  425  (при  использовании  параметров  8  временных
отрезков  каждого    дифона).  Ойций  объем  памяти  после  сильного  сжатия
информации о   дифонах составил около 8 Кбайт. Средняя разборчивость слов  в
предложениях была  около  96%.  Система  автоматически  находила  по  тексту
просодические  характеристики.  Для  управления  просодическими  параметрами
использовались   различные   уровни   языка:   акустический,   фонетический,
лексический, синтаксический и семантический.     Несколько  Дикторов  читали
один и тот же  текст;  при  этом  сравнивались  кон-'Уры  основного  тона  и
длительности,  полученные  после  нормализации.  Несмотря  на  различие'   в
индивидуальных  просодических     характери.-^чках,  удалось  выявить  общие
закономерности, позволяющие форма-
Зак.480                          57
дизовать просодику  по  фонетической цепочке. Так, для  выявления динамики
основного тона  на  всем высказывании учитывалось,что од, повременно
накладываются друг на друга три явления. Первое обусловлено изменением
основного тона  на  всем предложении, второе -контуром основного тона  на
двух соседних словах ( "элементарный контур")  и  третье - ыикроваризции
основного тона  на  отдельных звуках.
    Структура системы синтеза, основанного  на  объединении ди-фонов,
рассмотрена  также и для итальянского языка [160, 181].Ди-фоны представлены
кодами lpc.   Система проектируется с   ориентацией  на  многоканальность и
ответ в реально».' времени. Для каждого выходного канала этой системы
автоматического речевого  ответа выполняются действия: предварительная
обработка входной  цепочки символов, трансляция  в  соответствующую
последовательность дифонов, порождение просодического контура и управление
в реальном времени аппаратурой синтезатора.
    Блокл речевого ответа, подключенные  к  телефонным   линиям, могут
обеспечивать пользователям получение информации в   речевом виде. Основное
применение такого оборудования - информационно-поисковые системы, читающие
текст автоматические устройства для слепых, в  связи с чем к системе
предъявляются требования:   неограниченный словарь, хорошее качество и
естественность речи, возможность подключения систем речевого ответа к
разным каналам.Матобе с-печение выполняет все действия, необходимые для
преобразования входного текста  в  последовательность команд, необходимых
для управления аппаратурой синтезатора, описанного в [160].
    Система  синтеза основывается  на  объединении коротких  речевых
элемэнтов (дифонов), которые включают переходный   участок от  согласного к
 последующему гласному  CV ,  квазистационарный участок гласного  V2 и
начальный участок гласного звука в  начале слова  VI.
    Элементарные дифоны, извлекаемые   из естественной речи, кодировались
в  соответствии с акустической моделью   речеобразова ния. Математическая
модель состоит только из полюсного   фильтра, представляющего вокальный
тракт,  и  источника возбуждения. Параметры, описывающие вокальный тракт, -
это коэффициенты  отражения неоднородной акустической трубы, подученные
использованием методе линейного предсказания.
    При записи информации  о  дифонах в память используется следующая
 схема. Первый байт  каждого  дифона показывает число  сре' зов,
 Используемых для  кодирования втого дифона. После     атог» каждый фрейм,
 кодирующий  срез  дифона, описывается 13   байтами;

                                     56

представляющими коэ^ициент  усиления  G  ,10  ко-^ициентов  отражения  К,  .
параметр озвонченности  V/UV  и  длину  D  этого    фрейма.  В  среднем  для
кодирования дифонов приходится около 7-6 фреймов.  Общий  объем  памяти  для
запоминания 150 дифонов - около 15 кбайт.
Наиболее важным преимуществом дифонного синтеза,    обеспечивающим  довольно
высокую   естественность   синтетической    речи,    является    возможность
отгэсительно легкой модификации    просодических  параметров.  Просодический
контур  порождается  правилами,    которые  используют  знание  фонетической
природы дифонов и символы, вводимые модулями предварительной обработки.
В [I77J рассмотрен разработанный в США фирмой  ВВЫ  дифон"  ный  синтез  для
фонетического  вокодера,  работающего  со  скоростью  100  бит/с.  С  каждой
финемой вокодер  передает  ее     длительность  и  значение  одного  периода
основного тона.  Для  синтеза  необходимой  фонемной  цепочки  использовался
большой список дифонов.  (Список  дифонов  отбирался  таким  образом,  чтобы
можно было    различить  предвокальные  и  пьствокзльные  аллофоны  сонорных
согласных.)   ду-фоны    извлекались    ис    тщательно    сконструированных
бессмысленных коротких предложений  и  запоминались  как  последовательность
LK3-параметров.  Во  время  синтеза  участки  дифонов   деформировались   во
времени, смыкались и сглаживались, формируя  последовательную  цепочку  LPC-
параметре в, которая использовалась при синтезе.
Дифон определялся  как  область  от  середины  одной    фонемы  до  середины
следующей, что учитывает коартикучяционное   влияние фонем,  простирающееся,
как правило, не более чем на    половину  следующей  фонемы.  Для  получения
высококачественной     речи потребовалось около 2000  дифонов.  В  некоторых
случаях были  записаны  необходимые  Трифоны  (дифоны  в  контексте).  Общий
объем памяти, используемый при синтезе, менее 50 килобайт.
В  Японии  разработан  кепстральный  синтез  речи   из   параметров   слогов
"согласный - гласный", которых в японском языке    около 100 Cl38j .  Каждый
слог анализируется  и  запоминается    в    виде  кепстра,  соответствующего
истинной (сглаженной)   логарифмической спектральной огибающей (a  true  log
spectral envelope   ).Система речевого синтеза превращает  цепочки  символов
в кепстральные параметры с плавным и динамическим переходом от одного  слога
к следующему и порождает плавную картину изменения частоты  основного  тона.
Основным узлом модели преобразования кепстральных параметров в  акустическую
волну является специальный  фильтр,     порождающий  акустическую  волну  из
кепстра в реальном времечи.Экспериментальное матобеспечение  для  реализации
автоматического син-

                                     59

теза речи, основанного  на  подусдогах, описано в [184] . Ддя синтеза
произвольного текста  на  немецком языке используется  около 1300
подуслогов, включающих часть гласного  и  примыкающие    кусочки
согласного. Описаны эксперименты, которые помогли   выбрать правила
соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера,
использовавшего parcor- коэффициенты. Отмечается,что  в немецком языке
используется 47 начальных  и  153 конечных  звукосочетания согласных с  16
типами гласных. Уменьшение словаря подуслогов было осуществлено  за  счет
уменьшения  числа    гласных (до 10)  и  конечных звукосочетаний с
согласными (до 53).   Программа синтеза  автоматически контролирует
амплитуду и   длительность полуслогов, формируя безударные слоги из
эталонных ударных.
    1.4.4. Просодика синтезированной речи.   В  [184]   рассмотрено
управление просодическими параметрами для форматного синтезатора,
основанного  на  соединении дифонов и разработанного для немецкого языка.
Синтезатор используется  в  системе речевого ответа  sam', позволяющей
формировать фразы, составленные из   словарей большого объема. Используются
параллельные форматные фильтры, которые возбуждаются независимо источниками
тона  или   шума. Параметры управления фильтрами вырабатываются специальным
 блоком pcu  , который является частью системы samt • Тексты,    которые
должны быть синтезированы, вводятся в pcu  как звуковая
последовательность; каждый звук кодируется восьмью битами.  Дальнейшая
обработка в рои  базируется на дифонах, чтобы наилучшим образом учесть
влияние коартикуляций. Для  управления просодическими параметрами
синтезируемой речи необходимо,  чтобы звуковая последовательность включала
коды управления просодией. (Эти коды   должны влиять  на  частоту основного
тона, длительность звуков и  интенсивность.)
    В  [122] отмечается,  что интонационная модель для немецкого языка уже
разработана.  В  соответствии с этой моделью  каждое предложение
разделяется  на две или более синтетические   группы (фразы), такие, как
фраза  существительного (не всегда совпадающая  с  группой подлежащего),
глагольная фраза и т.д.   Изменение частоты основного тона первых    г»-1
фраз завершается    повышением тона (нарастающей каденцией ffC ), а
завершающая  предложение фразе - снижением частоты основного тона
(финальная    каденция FC ). Дня каждого слова фразы можно найти один
ритмозадающий ударный слог,  а  для каждой фразы - одно слово, которое
несет главное, смысловое ударение  Ml .  Позиция гласного в   ударном слоге
этого саова  1^,, , определяющем ударение, дает   начальную точку двух
различных типов частоты основного тона /д .   Характер

                                     60

  affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип    или pC-isW)
      1 количественно - другими факторами, такими, как    длина г«всного или
                                         позиция главного ударения во фраае.
   В доподнение к каденции, на изменение /^ влияют основное И вторичное
ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда,
когда необходимо выделить некоторые олова (дроиэнести их бояее
выразительно) или когда в беглой      речи о^вдиняютоя две последовательные
фразы с нарастающей каденцией. Яде обоих типов ударений находится характер
изменения    основного тона     ( S-vw f^ ) на участках, начальные точки
которых определяются позицией гласных ударных слогов.
   Естественная речь большинства дикторов характеризуется постепенным
снижением частоты основного тона (примерно, на   полтона lie) от начала к
концу фразы. (При формировании     синтетической речи это следует
учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На
этот основной тип /д нак-хддюаются НС-, FC- и   Я-тилы основного тона.
Нарастающая ка-данция характеризует возрастание f   в конце гласного V^, ,
 не-суцего основное ритмическое ударение ( the main    ) • Для точной
идентификации типа /д необходимо различать два случая)
    а) V^i - последний звонкий звук фразы;
б) наличие других звонких между Ущ и концом фразы.
Исследования показали, что в обоих случаях частота основного тона нарастает
по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в
случае б) - 190 мо.
Частота fy  возрастает от двух до четырех полутонов. Поо-ае того, как f,
достигнет верхней границы (по синусоиде),    она продолжает медленно
возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные
отклонения частоты Af естественной речи сильно меняются от диктора к
диктору. Ддя    синтетической рв«р| однако эти отклонения не должны быть
слишком велики. Если -ажду главным ритмическим ударением и концом фрааы
содержится ЧНогосложное слово, то часто (например, в одучае ударения    на
червой части длинного составного слова) возникает вторичная каден-4W SC   в
ритмическом ударении последнего олова или части слова э»ов фразы. Начало и-
длительность вторичной каденции соответот-вуеэ этим параметрам главной
каденции, но отклонение частоты Никогда не превышает полутона.
При объединении фраз, име'"'аих нарастающую каденцию, частота 7» яосле
возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на
границах между фразами. Сяад частоты начина-
1)Ййу«Моп80 мс ifiP начала второй фразы и имеет общую  длительность,  «-""ую
190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-
   '°на в I с.                      ^
В конечных фразах синтезируемого высказывания, где   существует каденция
типа  FC,  в начале фраз fg соответствует  частоте основного тона, которая
определяется предшествующей • нарастающей каденцией. Однако  за  80 мс до
начала гласного ^.определяющего главное ритмическое ударение, /д   начинает
синусоидально  уменьшаться  в  течение 190 мс до величины, равной двум
полутонам   по отношению  к основному тону  в  начале предложения. Далее f
продолжает уменьшаться  со  скоростью полтона в I с,  пока не закончится
предложение.
Изменение основного тона  на  ударных слогах зависит от  того, какой
гласный содержит ударный слог: короткий или   длинный. В обоих случаях
5-тип основного тона состоит из  нарастающего и падающего участков. Это
нарастание начинается за 80 мс  до  начала гласного и продолжается  для
коротких слогов 160 мс,для длинных - 240 мс. Такое  же  время продолжается
и синусоидальный спад для слогов первого  и  второго типа. В зависимости от
силы ударения подъем частоты основного тона лежит в пределах от двух до
пяти полутонов,  а  спад - от полутона до двух полутонов.
Исследования по управлению просодическими параметрами   описаны   в  [122]
. В [2, 103, 104, 163]  приводятся исследования различных синтаксических
структур  и  их влияние на микро- и макровариации частоты основного тона  в
 английской речи.Результатом исследований  был алгоритм, определяющий
динамику основного  тона синтезированной английской речи. Алгоритм
рассматривается как последовательность  двух уровней единой системы,
формирующей  контур основного тона.  На  первом (высшем) уровне учитывается
  влияние синтаксической  и  семантической информации, на втором (низшем)
-информации  о  фонемной цепочке и лексическом ударении (рис.1.3).

|оинтаксическая|Систе|Просодические    |Систе|У|
|              |ма   |                 |ма   |Р|
|              |верхн|                 |нижне|в|
|              |его  |                 |го   |-|
|              |уровн|                 |уровн| |
|              |я    |                 |я    | |
|информация    |     |                 |     | |
|Семантическая |     |                 |     | |
|              |     |индикаторы       |     | |
|информация    |     |Фонетическая     |J|• \| |
|              |     |                 |•|Кон| |
|              |     |                 | |т  | |
|              |     |                 | |осн| |
|              |     |                 | |о  | |
|              |     |                 | |ног| |
|              |     |                 | |о  | |
|              |     |информация         |   | |
|              |     |Информация         |   | |


Рис. 1.3. Структура алгоритма, определяющего динамику основного тона
синтезированной речи

                                     62

рассмотрим далее алгоритм, реализующий формирование контура основного тона
для высказывания, в общем случав содержащего несколько предложений, каждое
из которых разбивается на фразы, состоящие из нескольких слов. Для
формирования контура    основного тона на вход системы высшего уровня
поступает   информация о типе высказывания, границах и типах предложений,
границах   и типах фраз, а также о том, какой частью речи является
каждое сдово. Слова упорядочены по степени важности, причем к словам, не
входящим в список важных, относятся артикли, союзы,   относительные
местоимения, предлоги, вспомогательные глаголы и личные 1|еетоимения. Для
каждого высказывания формализована его синтаксическая структура, т.е. для
ввода производится   идентификация синтаксических единиц: выделяются
независимые или зависимые пред-яожения, внутри которых локализуются и
маркируются фразы существительного, фразы глагола, предложные фразы, фразы,
связанные   с прияагательным или употребляющиеся в качестве прилагательных,
фразы, соответствующие наречиям. В системы вводится также   информация о
специальных фразах и пунктуации, определяющая тип мамровариаций основного
тона:
    а) обычные вопросительные и звательные фразы, характеризующиеся
повышением частоты основного тона;
    б) знаки цитирования и восклицания, усиливающие    изменения частоты
основного тона внутри своих областей;
    в) "ответвления" фраз (куски высказываний со скобками    или тире),
уменьшающие динамику основного тона;
г) знак вопроса в конце предложения, дающий тон типа   В для каждого
независимого предложения, не содержащего вопросительного слова; остальные
предложения, дающие тон типа А.
Влияние семантики на контур основного тона учитывается ак-центацией слов,
их ранжированием по степени важности, а также временной близостью
одинаковых слов. Каждое существительное, глагол или прилагательное
высказывания запоминаются в буферной магазинной памяти, способной хранить
до 50 слов. Новые слова сравниваются с содержимым буфера. Для каждого
сравнения   характер изменения /д   коррелируется с тем, на каком месте
буфера находится слово, с который сравнивается вновь поступившее.    Чем
ближе находится слово, аналогичное входному, тем более    высокая степень
редукции /д .
Типы тона А и В характеризуются следующим: тон типа А вызывает снижение /д
на всем предложении, а также резкое   падение   его на последнем важном
(значащем) слове и после   этого.

                                     63

Тип  В  означает относитеяьно пологую /д  с резким подъемом   в конце
предложения.  Эти  типы тонов характеризуют глобальный уровень  иерархии в
рассматриваемой системе.
Предложения,  не  являющиеся конечными (т.е. уже не  связанные  с  типом
тона), характеризуются подъемом fy  на  первом значащем слове  и  его
падением на последнем значащем слове (падении меньшем,  чем  при тоне типа
А), после чего начинается новый последовательный подъем. Размах "понижение
- нарастание" частоты основного тона fy  зависит  от  идентичности
предыдущему   следующего предложения: если  за  предвдущим следует
независимое  предложение, то изменение основного тона  на стыке больше, чем
в случае,  когда второе предложение является  зависимым.  Более  того, если
 в  высказывании остается единственное зависимое    предложение,  то
подъем основного тона после завершения независимого пред. ложения пропадает
вообще. Весь участок "падение - подъем"  основного тона  может не
выявиться, если границы независимого  предложения включают начало
ограниченного вводного предложения (в зависимости  от  числа слов,
предшествующих границе: чем меньше слов, тем меньше Провал "падение -
подъем fg ").
Внутри каждого предяожения  в дополнение к изменению на границах
предложений происходят изменения /д  и на границах фраз  в зависимости  от
числа "важных" слов в каждом предложении. Каждая фраэа  с двумя и болев
такими словами выделяется таким  образом, что  ее начало совпадает с
нарастанием  частоты основного тона, а завершение - со  снижением и
последующим подъемом. Изменение частоты основного тона  на  границах фраз
зависят  от числа  "важных" слов фразы, т.е. фразам  с  большим числом
таких слов  соответствует больший "провал" частоты основного тона;
увеличивают этот провал также границы, помеченные знаками пунктуации.
Внутри фраз начальный подъем  fy   продолжается  на  первом важном слове, а
падение заканчивается  на  последнем важном слове этой фразы  с неким
подъемом  к  концу фразы. Все остальные важные слова "получают" подъем  и
снижение  /д   примерно одинаковой величины.
Ранее  уже  отмечалось, что каждому слову синтезируемого высказывания
приписывается некое значение акцента  в   соответствии с  его  рангом по
порядку важности. Контур изменения  f.  (подъем и падение)  тем резче, чем
важнее слово. Акцентирование слова снижается, если оно обнаруживается  в
магазинном запоминающем  устройстве, т.е.  оно уже недавно произнесено.
Система верхнего уровня снабжает каждое слово входного  высказывания
просодическими индикаторами (рис. 1.3), обеспечивающими получение
просодического контура на нижнем уровне анализа.К таким

                                     64

индикаторам относятся связанные с каждым словом  числа,     определяющие  а)
акцент, б) границу, указывающую позицию слова  внутри  йразы  /  предложения
(положительное  число  определяет   позицию   относительно   начала   фразы,
отрицательное - относительно конца;    при этом большие числа  соответствуют
словам на границах,   отмеченных знаком  препинания,  и  на  границах  между
большими и / иди    важ-щдаи фразами); в) продолжительный подъем fg  ,  т.е.
число,  показывающее  величину  подъема  на  границе  слова,  что   отражает
важность синтаксической границы, предшествующей этому  слову;  г)  тип  тона
(А, В  или  нулевой^,  показывающий,  относится  данное  слово  и  конечному
участку фразы с нарастанием или падением fg или не  относится  (при  типе  А
падение Уд идет до более низкого уровня, чем в других случаях, а при типе  В
подъем fg  продолжает  расти  после  лексически    ударного  слога,  что  не
характерно для  других случаев).
Наряду с просодическими индикаторами каждого слова, система верхнего  уровня
вводит в систему низшего уровня число   слогов,  место  лексически  ударного
слога,  фонемную  структуру,  которая  для   каждого   слога   дополнительно
указывает, начинается ли он или заканчивается взрывным звуком и не  является
ли этот взрывной глухим.
Рассмотрим  далее  работу  системы  нижнего   уровня,   формирующей   контур
основного тона. Алгоритм устанавливает на лексически ударных слогах  каждого
важного слова сначала пиковые уровни /д,  после  чего  вокруг  каждого  пика
строятся акцентированные подъемы и падения  частоты  основного  тона.  Затем
добавляются участки   общего контура, соответствующие участкам  постепенного
нарастания и конечным типам тона. Наконец,  заполняются  по  соответствующим
правилам  и  остальные   участки;   контур   основного   тона   высказывания
сформулирован.
Пики основного тона устанавливаются  пропорционально  величине  акцента  для
каждого важного слова, однако по отношению к начальным  словам  высказывания
пики имеют некую тенденцию  к    уменьшению.  К  ним  добавляется  наклонная
линия, такая, что для слов  равного  .акцента  каждое  последующее  значение
частоты /„ на пике •^УДет уменьшаться пропорционально наклону  этой  кривой.
 Величина этого наклона для предложений,  заканчивающихся  тыом  тона     В,
более полога  по  сравнению  с  другими  предложениями.  Каждое  пред-^«ение
получает свою линию наклона в зависимости  от  того,в  ка-^ом  месте  общего
высказывания находится предложение (и, естествен-н0» в  зависимости  от  пда
тона,  которым  заканчивается  предложение)  .  Пики   каждого   предложения
уменьшаются от начала к концу
   Зак.480                        65
всего высказывания,  но  при этом соблюдается тенденция.что  начальный  пик
каждого предложения более высокий, чем последний пик частоты основного тона
предыдущего предложения,  но более  низкий чем первый пик  этого
предыдущего предложения. Такие линии   нак-жона являются  в  какой-то
степени опорными при формировании контура,  так  что более длинные
предложения начинаются с более  высоких пиков fg .
    Каждый лексически ударный слог значимого слова   приобретает контур  /о
, характеризующийся подъемом  и  спадом» отношения меж. ду которыми
определяются числами, характеризующими границы. Большие положительные числа
ведут  к  значительному подъему, а большие отрицательные - к значительному
спаду. Величины подъемов и   спа-доа пропорциональны акценту,  но  зависят
также  и от числа   соседних неакцентированных слогов. Большое временное
разделение между акцентированными слогами ведет  к  большему отношению на
этом участке, характеризующему  провал.
    Информация  о  продолжительных подъемах /  кодируется в числе, стоящем
 после  последнего слога каждого слова; это    число характеризует  и
 высоту подъема, и его длительность.Формирование контура /д  на
 неакцентированных участках высказывания  основано на  том, что  в
 высказываниях частота /д  имеет тенденцию к понижению. Учет  фонемической
 структуры слогов приводит к тому, что на участках высказываний,
 соответствующих глухим взрывным, контур основного тона отсутствует, а
 акцентированные слоги с  начальными взрывными имеют более высокие пики f ,
 чем слоги,   начинающиеся со звонких. Изменение длительностей звуков
 синтетической     речи рассмотрено ранее  в   п. 1.4.2. Не представляет
 особых   проблем формирование контура интенсивности,  в  какой-то степени
 коррелированного  с  контуром основного тона; имеются известные
 соотношения между средней интенсивности ударных и безударных гласных,
 сонорных согласных,фрикативных и смычных согласных    (включающих участки
 смычек), что позволяет автоматически формировать   контур интенсивности по
 фонетической цепочке.
     1.4.5. Алгоритмическое и  программное обеспечение    синтеза речи.
 Создание алгоритмического  и  программного обеспечения синтеза  речи
 рассматривается в ряде публикаций. Разрабатываются его циализированные
 языки для  перевода графем  в  фонемы  CI26] , 8 также системы программных
 модулей, обеспечивающих автоматический анализ текста  и  синтеза речи
 [103, 133] . Системный подход   к созданию программного обеспечения синтеза
 речи становится все более определяющим.

                          66

В CI26] рассматривается разработанный в0 Франции специализированный язык
программирования ТОР, предназначенный для перевода гоафем французского
текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque
Phonetique ) - это язык правил описания, применение которых зависит от
контекста. Программы, написанные на языке ТОР, содержат три части:
    1) описание используемых кодов;
    2) описанир классов (необязательное);
3) правила.
Система правил основана на частичном упорядоченном    множестве
фонологических правил французского языка. Левая часть каждого правила
указывает на графему, которую необходимо перекодировать в фонему (указанную
в правой части) при условии,   что известен буквенный контекст, в котором
находится перекодируемая графема.
В С.ЮЗ] описана модульная система речевого ответа, представляющая собой
большое количество программных модулей (по одному ^ля каждой структурной
области), связанных между собой     множеством информационных структур.
Каждая структурная область (т.е. морфология, синтаксис, семантика,
фонология) делает свой вклад в   общую систему, но взаимоотношения этих
областей с лингвистической структурой высказывания не всегда однозначны из-
за индивидуальных акустических особенностей синтезируемой волны. Различные
структурные области должны 1ыть представлены так, чтобы  можно было
обеспечить их оптимальное взаимодействие. Лишь таким   образом можно
установить сложные отношения между поверхностной речевой волной и лежащей в
ее основе абстрактной лингвистической структурой, которая должна быть
смоделирована глубоко и всесторонне .
При создании модульной системы предусматривалось:
а) получить такую полную модель в алгоритмической форме, чтобы процесс был
представлен с исчерпывающей полнотой;
б) обеспечить работу системы для моделей переменной сложности, например,
чтобы система работала с фиксированным словарем иди без учета просодических
параметров;
в) обеспечить развитие и достаточную гибкость системы,чтобы изменения,
которые должны быть внесены в один   структурный Уровень, не требовали
изменения других уровней;
г) реализовать эффективную работу отдельных частей алгоритма» ориентируясь
на специфику применения систем речевого ' ответа;
^и  этом  доляно  учитываться  использование  специального     оборудования,
обеспечивающего  минимальные  габариты  системы,время  формирования   фразы,
мощность и стоимость системы. 67
    Модульное матобеспечение, реализующее эти требования, произ-водит анализ
текста  и  синтез речи. На стадии анализа  создается некая абстрактная
лингвистическая структура, общая как для  вход-ного  текста, так и для
речевого вывода. Основными   программными модулями  при  создании такой
структуры являются:
    1. Модуль "Формат", обеспечивающий предварительную  обработку входного
текста  в форм;', удобную для морфологического   анализа  и  порождения
соответствующей фонемной цепочки.
    2. Модуль "Декомпозиция1', осуществляющий морфологический ана-диз  и
находящий каждое слово  в  лексиконе морфем, представляет
последовательность морфем, составляющих входной текст,    кодами,
учитывающими  их  особенности произнесения (в сочетании с    другими
морфемами)  и  грамматические функции.
    3. Модуль "Парсер" (грамматический разбор) работает с цепочкой морфем  и
 определяет, к какой части речи принадлежит  каждое слово; этот модуль
строит грамматические сети и формирует фразы, объединяя слова  в
словосочетания, на которые далее будет   накладываться соответствующий
интонационный контур; основная    роль этого модуля - разрешать фонемные
неопределенности (что-то убрать, что-то добавить)  и  производить
лингвистические описания,  необходимые  для  временных процедур, и
процедуры наложения контура основного тона.
    4. Модуль "Звук-1",  в  котором морфофонетические    правила
(множественного числа, прошедшего времени, палаталлэации)  применяются  к
словам, анализировавшимся модулем "Декомпозиция";  эти правила очищают
фонетическую цепочку  и  позволяют объединять два иди  более смежных корня
в составное слово  ,  а также  построить для слова соответствующий контур
ударения.
    5. Модуль "Звук-2" использует правила перевода букв (графем) в  звуки
для порождения фонетической последовательности,    если модуль
"Декомпозиция"  не  смог полностью превратить слова в последовательность
лексических морфем. После  превращения последовательности букв  в
последовательность фонетических символов  этот модуль использует полный
набор правил лексического ударения, определяющих контур ударности для
этого слова (эти правила,    например, определяют Правильность произношения
аффикса ate в  словах eyatematio и eyetemeUze).
    При синтезе речи используется набор модулей,  обеспечивающих порождение
 входной речевой водны:
    - модуль "Просодика"» определяющий для каждой фонемы формируемого
 предложения частоту основного тона, длительность и интенсивность
 (ударность);
                                     68
    -  модуль  "Синтез",  используя  фонетические  метки  и  проводи-ивокую
ш«формацию, каждые б мо порождает параметры,   достаточные  •ля  управления
цифровой модель»  речевого  тракта,  формирующей  от-очеты  речевой  волны.
Модуль  "Синтез"  -  ато   большая      программа,   мализуккцая   алгоритм
фонетического  синтеза  речи  по  правилам    с  дополнительным  наложением
просодического контура;
- модуль "Речь" превращает полученную последовательность десантных отсчетов
в речевую волну, используя цифроаналоговый Преобразователь.
В  [133]  рассмотрена  интерактивная  система  исследования  речи  tiK;   ,
чозвояяищая  в  диалоговом  режиме  изучать  и    модернн-ащювать   правила
преобразования "текст  -  фонема",  что  дает  возможность  получать  более
качественную синтетическую речь. Система spy  использует  три  вида  правил
преобразования (рис.1.4):
    1)  правила  модификации  текста,  модифицирующие  начальную  тек-стоьуь
строку и связанные с ней признаки;
    2) правила конверсии,  формирующие  цепочку  фонем  и  связанную  в  ней
матрицу  признаков  на  основе  информации,  имеющейся  в   модифицированной
текстовой строке;
3) правила модификации  признаков,  которые  изменяют    матрицу  признаков,
формируемую правилами конверсии.
Рассмотрим алгоритм преобразования "текст-фонема",реализованный  в  [I33J  ,
на примере преобразования слова.
На вход программы преобразования  поступает  слово,  каждой  букве  которого
соответствует присоединенный признак,    определяющий глаонке или  согласные
звуки, соответствующие етим буквам:
                                   с буква

согл..
(символы)
   (присоединенные)
   признаки
                            a  r    L     п     д
                    буква   буква букяа буква      буква

глад. оогл. глао.      согл. глас.

На аерьом уровне текстовая цепочка  и  связанная  о  ней  матрица  Признаков
модифицируются множеством правил модификации    текста.  б»н  аравиле  могут
устранять, добамнгь и  заменять  символы,а  так-*•  делать  соответствуххцие
ыодифхнации матрицы признаков. Правила ч^дифинации •мжста, например,  вводят
символ е*' после   гласного, »» которым следует один или  два  согласных,  и
перед суффиксами 

смотреть на рефераты похожие на "Машины, которые говорят и слушают"