проект ПЕРПЕТУУМ галактика
  • Электроника, информатика, эволюционная информатика
  • Технические решения с использованием эволюционных процессов
  • Машинное моделирование элементов разумного поведения
планета


Распознавание речи, желаемое и возможное...
Идея модели звуковосприятия

       Здесь с некоторыми правками размещен текст, который ранее был расположен на главной странице в 2012 г.

На главную страницу | Назад

Традиционный подход к распознаванию речи в значительной степени основывается на построении большого словаря и модели языка. А что, если пойти другим путем: отказаться от словаря, от модели языка и, может быть... (о, ужас!) от акустической модели? Ну, по крайней мере, в готовом продукте. Возможно ли распознавание речи при таких условиях? Убрав всё, нужно добавить хоть что-то. Пусть это будет модель звуковосприятия. Данное слово подходит, пожалуй, наиболее точно.

Теперь более подробно. Распознавание речи чаще всего представляют как процесс, при котором из звукового потока извлекаются слова путем сравнения неких параметров, получаемых из входного сигнала, с образцами, имеющимися в словаре. В частном случае вместо обычного сравнения может применяться более сложный алгоритм, выполняющий ту же функцию - выделение и идентификацию слов в звуковом потоке на основе данных, имеющихся в словаре. Применяются также правила, устанавливающие возможные связи между словами. Считается, что чем больше слов и вариантов их произношения использовано при создании словаря, тем точнее результат. Попробуем найти другое решение.

Программные продукты
Щёлкнув по картинке, можно перейти на страницу программных продуктов, созданных в рамках проекта. Программы доступны для скачивания.

Давайте для начала посмотрим, где "прячется" информация, передаваемая в виде устной речи. Голос. Несет ли он полезную информацию? Хоть мы и воспринимаем его как неотъемлемую деталь речевого общения, но почти никакой полезной информации он не несет. Голос лишь увеличивает расстояние, на котором нас могут услышать. Им можно, и даже нужно, пренебречь. Мы меняем голос, мы говорим шепотом - содержание сказанного от этого не меняется. Движения органов речевого аппарата - вот где на самом деле начинается кодирование речевой информации. Эти движения оставляют особый след, способный накладываться на любой звук, играющий роль носителя. Носителем может выступать голос, шум, или любой другой звук с более-менее стабильными характеристиками. Например, когда мы говорим шепотом, носителем является шум (хотя, при этом некоторые звуки речи становятся неразличимы, но в целом речь пригодна для общения). А если искусственно наложить такой след, к примеру, на жужжание пчелы, скрип двери или звук работающего мотора, в итоге тоже получится вполне разборчивая речь. Специфический след, формируемый движениями органов речевого аппарата - это и есть звуки речи. Дальше всё более-менее очевидно. Звуки речи собираются в слова, а те, в свою очередь, образуют логические связи между собой. Всё, больше в речевом сообщении ничего ценного мы не найдём. Ещё раз отметим, что полезная информация кодируется в речевом сообщении тремя способами: звуками речи, словами, логическими связями между словами. Все три части этой информации тесно связаны и имеют сложное взаимодействие. В идеале распознавание речи должно учитывать одновременно все составляющие. А можно ли что-то отбросить, чем-то пренебречь? Обычно так и делается, чтобы сложность задачи снизить до приемлемого уровня. Это, естественно, приводит к потерям в качестве распознавания. Все три из обозначенных элементов кодирования информации важны для правильного распознавания. Речь подобна трёхэтажному зданию. На первом "этаже" - звуки речи. На втором - слова. На третьем - логические связи между ними. Что произойдёт, если убрать один из "этажей"?

Если продолжить аналогию с трёхэтажным зданием, то на первом "этаже" должна всё-таки располагаться модель звуковосприятия, а на втором и третьем "этажах" - модель языка, основанная на словаре. В идеальной системе должны присутствовать обе модели и слаженно работать. Невозможно миновать стадию звуков и сразу же перейти к словам, поэтому модель звуковосприятия в том или ином виде в любой системе, конечно, присутствует. Вопрос, только, в каком. Это важно, потому что уровень звуков речи скрывает в себе наибольшее количество полезной для распознавания информации.

Традиционно много внимания принято уделять индивидуальным особенностям диктора. Для того, чтобы охватить разнообразие таких особенностей, обычно привлекаются дикторы с разными голосами и произношениями. Но ведь не менее важны индивидуальные особенности слушателя - особенности его звуковосприятия. Обычно мы об этом даже не задумываемся, считая, что все мы слышим одинаково. Возможно, причина такого мнения кроется в том, что особенности звуковосприятия слушателя не так очевидны, как особенности диктора. Действительно, мы постоянно слышим речь разных людей и легко убеждаемся, что все говорят немного по-разному. Но послушать так, как слышит другой человек, мы не можем. Из-за этого мы невольно исходим из предположения, что все остальные люди слышат звуки так же как и мы. В то же время не так уж сложно доказать, что звуковосприятие очень индивидуально. Более того, для человека звуковосприятие является приобретенным навыком, а значит, сильно зависит от окружающих условий, и, как следствие, не может быть одинаковым у разных людей.

Может показаться, что мы уходим от темы. Зачем изучать звуковосприятие человека, когда нас интересует техническое распознавание речи? Но здесь неизбежно возникает вопрос, каким должно быть звуковосприятие технической системы, если оно даже у людей неодинаково? Ответ, вроде бы, очевиден: оно должно быть в идеале максимально приближено к человеческому - к некоторому среднему значению. Но в любом случае, говоря об индивидуальности людей, следует говорить и об индивидуальности технической системы, а значит распознавание речи всегда субъективно по своей природе. Это важно учитывать, потому что оценить работу технической системы может только человек. И делает он это, опираясь на собственное звуковосприятие.

Цель проекта Перпетуум в той части, что касается распознавания речи, как раз и заключается в создании качественной модели звуковосприятия, максимально приближенной к некоему усреднённому звуковосприятию людей - носителей языка. Более того, проект должен показать, что созданию модели звуковосприятия в задачах распознавания речи стоит уделять первостепенное внимание, и что во многих случаях такая модель может быть даже самодостаточной. Такой подход обещает получение максимальных результатов ценой минимальных затрат вычислительных ресурсов.

Как сказано выше, звуковосприятие человека индивидуально и даже способно формироваться и меняться с течением времени. Рассмотрим пример. Многим знакома ситуация, описанная в данном примере, но обычно мы не обращаем на неё внимания и не интересуемся причинами. Представим такую ситуацию. Перед телевизором на одинаковом расстоянии сидят два (или более) человека. У обоих со слухом всё в порядке. Они смотрят передачу, содержащую большое количество устной речи, но это речь не профессиональных дикторов. Время от времени обнаруживаются моменты, когда один из телезрителей отлично понял сказанное, а другой - нет. Например, звучит фраза: "...странные люди - эти ко...ики". Один из зрителей пытается понять последнее слово. Похоже на "комики", но это слово не подходит по смыслу. Выясняется, что второй зритель отлично всё понял: последнее слово - "конники". Данный пример интересен тем, что слово "конники" в широких кругах употребляется сравнительно редко, а это значит, что второй телезритель вероятнее всего не угадал, а именно расслышал данное слово. Почему один расслышал, а другой - нет. Возможно, это результат небольшого отличия в звуковосприятии людей. По единичному случаю нельзя этого сказать точно, но, согласитесь, подобные ситуации происходят очень часто.

Звуковосприятие носителей одного языка отличается не намного. Хотя это справедливо только в отношении звуков речи. Например, звуки музыки, звуки природы мы всё равно воспринимаем по-разному. Отсюда различия во вкусах, предпочтениях, в реакции на одни и те же звуки. Родную речь мы осваиваем с детства и приобретаем способность различать звуки речи в соответствии с общепринятым "стандартом". А возможно ли выучить иностранный язык только письменно, и как при этом будет восприниматься устная речь носителей изучаемого языка? Допустим, у нас имеется отличный учебник иностранного языка. Мы располагаем неограниченным количеством литературы на этом языке, но при этом мы не имеем возможности слышать речь на этом языке. Потратив какое-то количество времени, мы сможем научиться отлично писать и читать на данном языке. Мы научимся правильно строить предложения, формулировать мысли, но только на бумаге. Если же после этого у нас появится возможность пообщаться с носителем языка устно, то ничего не получиться. Совсем ничего! Речь собеседника будет восприниматься как тарабарщина! Это будет бессмысленный набор звуков, ни на что не похожих, и не вызывающих никаких ассоциаций. Умение читать и писать на каком-то языке ещё не даёт возможности воспринимать его звуки. Попытка что-либо сказать, не владея устной речью на данном языке, приведёт к невольному использованию навыков, заимствованных из родного языка. В результате собеседник тоже ничего не сможет понять.

Навык восприятия человеком устной речи (точнее - его аналог) реализуется в технической системе в виде модели звуковосприятия. Аналогично, навык чтения и письма - в виде модели языка. Приведённый выше пример с изучением иностранного языка демонстрирует, что звуковосприятие человека не только способно формироваться с течением времени, но и существует обособлено, независимо от навыка чтения и письма. Впрочем, это также подтверждается и тем, что человек, зная язык в устной форме, может быть при этом абсолютно неграмотным. Отсюда следует, что применительно к технической системе вполне разумно рассматривать модель звуковосприятия и текстовую модель языка тоже как в значительной степени независимые и отдельно создаваемые компоненты. Приведённых примеров должно быть достаточно для обоснования необходимости создания модели звуковосприятия, которая в минимальных условиях могла бы работать и без модели языка.

Можно возразить, что неграмотный человек знает слова и умеет строить из них предложения, а в технической системе это было бы равносильно наличию модели языка. Но это не совсем так, потому что, во-первых, неграмотный человек всё же владеет лишь звуковыми образами. Текстовая часть языка ему недоступна (без чего техническая модель языка не обходится). Во-вторых, можно научиться воспринимать, идентифицировать и даже записывать звуки вообще не имеющие никакого отношения к речи. Например, слушая пение соловья, можно постепенно выделить повторяющиеся фрагменты, присвоить им графические символы. Это позволит записывать соловьиную песню в виде текста. Обнаружить в этом тексте хоть какую-то полезную информацию, конечно, будет проблематично, но здесь важно то, что возможно приобретение навыка звуковосприятия, и даже письма, но без привязки к какому-либо языку. Можно записывать звуки, не зная языка. Это опять же говорит о том, что навык звуковосприятия в определённой степени может быть самодостаточным. В качестве примера можно также привести музыку и ноты. Как известно, человек, обладающий соответствующим навыком, может записывать ноты на слух. В основе идеи создания модели звуковосприятия стоит утверждение, что техническая система, способная хорошо различать звуки речи, не зная языка, тем более хорошо будет распознавать речь, зная язык.

В дополнение к вышесказанному несколько принципов, характерных для "Перпетуум":

  1. Никаких образцов и эталонов речи в готовом продукте.
    Программа, как готовый продукт, не должна содержать в себе образцов/эталонов речи в любом виде (по крайней мере, до стадии работы с текстом). Это значит, что все операции должны производиться только над поступающей звуковой информацией. Не должно быть операций с участием какой-либо речевой базы данных.
  2. Ограничение использования статистических методов.
    При распознавании речевых образов обычно выполняется оценка их вероятностей. Это хорошо только до тех пор, пока вероятности оцениваются на основе данных, извлекаемых из речевого сигнала. Недопустимо брать во внимание оценку вероятностей, основанную на статистических данных. Статистику можно и нужно использовать лишь для исключения абсолютно невозможных вариантов. Нельзя применять сравнение вероятностей, полученных статистическими методами, в качестве дополнительной информации при принятии решений по идентификации речевых образов. Система должна исходить из предположения, что диктор с равной вероятностью может сказать всё, что только возможно сказать, не "сломав" язык. Исключение составляют случаи, когда разные по написанию и значению слова имеют абсолютно одинаковое произношение.
  3. Результат должен записываться сразу в виде последовательности букв.
    С учётом смещения приоритета в сторону работы со звуком, наличие текстовой части в системе (словаря, модели языка) не является обязательным. Это значит, что создаваемая модель звуковосприятия сама должна уметь выводить результат своей работы сразу в символах алфавита используемого языка.
  4. Словарь может работать только с текстом и не должен работать со звуком.
    При использовании в системе словаря недопустимо его участие в работе со звуком (т.е. до получения или букв, или символов специализированного алфавита). Несоблюдение этого правила ведёт к искажению модели звуковосприятия из-за ограничений, навязываемых текстовым словарём. Таким образом, словарю может отводиться функция корректировки текста и идентификации команд, но не более того. При таком подходе словарём может выступать даже любой список слов или фраз, представленный в виде простого текста. Это в свою очередь даёт возможность моментально менять состав словаря, когда это необходимо.
  5. Предельная простота и легкость в использовании.
    Пользователь должен быть полностью избавлен от необходимости обучать, тренировать программу, или выполнять иные подобные действия по её настройке. Допускается только обычная настройка функциональности.
  6. Использование распространённого оборудования.
    Программа не должна требовать применения дорогого или редкого оборудования.

Чтобы ознакомиться с готовыми программными продуктами, посетите страницу "Программные продукты". Там имеются прямые ссылки для скачивания.

На главную страницу | Назад


Использование материалов данного сайта в публикациях допустимо только при условии сопровождения этих материалов ссылками на источник - сайт projectveka.ru с указанием автора: Е.А.Котов.   Авторские права защищены законами РФ. Евгений Котов. 2017г.
Яндекс.Метрика