Использование нейросетей для анализа звуковой информации

       

Система распознавания речи как самообучающаяся система


С целью изучения особенностей самообучающихся систем  модели распознавания и синтеза речи были объединены в одну систему, что  позволило наделить её  некоторыми свойствами самообучающихся систем.  Это объединение является одним из ключевых свойств создаваемой модели.  Что послужило причиной этого объединения?

Во-первых, у системы присутствует возможность совершать действия (синтез) и анализировать их (распознавание), т.е. свойство (2).  Во-вторых, система обладает  свойством (1), так как при разработке в систему не закладывается никакая информация, и возможность распознавания и синтеза звуков речи – это результат  обучения. Так как система реализована на основе нейросети, то она обладает и свойством (4), ведь самоорганизация - один из базовых принципов нейросетевой обработки информации. Наконец, свойство (3) наделяет систему возможностью автоматического обучения синтезу. Механизм этого обучения описывается в разделе 5.2.3.

Ещё одной очень важной особенностью является  возможность перевода запоминаемых образов в новое параметрическое пространство с гораздо меньшей размерностью. Эта особенность на данный момент в разрабатываемой  системе не реализована и на практике не проверена, но тем не менее я постараюсь кратко изложить её суть на примере распознавания речи.

Предположим, входной сигнал задается вектором первичных признаков в N-мерном пространстве. Для хранения такого сигнала необходимо N элементов. При этом на этапе разработки мы не знаем специфики сигнала или она настолько сложна, что учесть её затруднительно. Это приводит к тому, что представление сигнала, которое мы используем, избыточно. Далее предположим, что у нас есть возможность синтезировать такие же сигналы (т.е. синтезировать речь), но при этом синтезируемый сигнал является функцией вектора параметров в M-мерном пространстве, и M<<N (действительно, число параметров модели синтеза речи намного меньше числа первичных признаков модели распознавания речи). Но тогда мы можем запоминать входной сигнал не по его первичным признакам в N-мерном пространстве, а по параметрам  модели синтеза в M-мерном пространстве.  Возникает вопрос: а как переводить сигнал из одного параметрического пространства в другое? Есть все основания предполагать, что это преобразование можно осуществить при помощи довольно простой нейросети. Более того, по моему мнению, такой механизм запоминания работает в реальных биологических системах, в частности, у человека.



Содержание раздела