Загальне
Терейковський І.А.
Національний технічний університет України «КПІ»
Актуальні задачі розпізнавання голосових сигналів в Moodle
Одним із найбільш перспективних шляхів підвищення якості навчання слухачів системи дистанційного навчання (СДН) Moodle є застосування інтерактивних навчальних матеріалів, котрі базуються на застосуванні засобів автоматизації голосової взаємодії між користувачем та системою. Крім того, застосування засобів автоматизації голосової взаємодії дозволяє зменшити витрати на оплату праці викладачів, підвищити зручність використання Moodle за рахунок відсутності жорсткої прив’язки до розкладу занять та краще забезпечити потреби слухачів з обмеженими можливостями. Можливість застосування таких засобів підтверджується широким впровадженням відповідних компонентів в офісних інформаційних системах провідних виробників (Google, Microsoft). Разом з тим, результати аналізу СДН та подібних до них інформаційних систем підтримки навчального процесу вказують на відсутність в них штатних засобів автоматизації голосової взаємодії.
В загальному випадку розробка комплексної системи голосової взаємодії СДН є складною науково-практичною проблемою. Разом з тим результати аналізу СДН вказують на те, що для Moodle найбільш актуальними практичними завданнями є розробка засобів голосової ідентифікації користувача при вході в систему, засобів визначення голосової відповіді в процесі комп’ютерного тестування та засобів визначення голосової команди.
Засоби голосової ідентифікації користувача Moodle повинні перевірити легітимність такого користувача шляхом аналізу висловленої ним фрази, що може складатись із одного або декількох слів. Фраза висловлюється користувачем при вході в систему і в загальному випадку повинна бути відповіддю на деякий запит. Наприклад, користувач повинен прочитати текст, що відображається перед ним на екрані, або висловити відому тільки йому парольну фразу. Слід зазначити, що висновок про легітимність користувача може бути здійснений в результаті дикторозалежного розпізнавання висловлених ним слів.
На відміну від засобів голосової ідентифікації інші засоби голосової взаємодії можуть бути реалізовані в результаті дикторонезалежного розпізнавання слів висловлених користувачем або у відповідь на поставлене перед ним запитання, або як голосова управляюча команда до інтерфейсу Moodle.
Таким чином, в базовому випадку, розробка засобів автоматизації голосової взаємодії між користувачем та системою зводиться до вирішення задачі розпізнавання ізольованих слів в голосовому сигналі.
Складність розв’язку такої задачі пояснюється необхідністю врахування варіативності голосового сигналу, типу введення мови, розміру словника, рівня навколишнього шуму. Для вирішення задачі розпізнавання голосових сигналів створюються системи розпізнавання голосових сигналів (СРГС), створення яких ускладнюється необхідністю врахування різноманітних факторів, наприклад, розташування мікрофону.
Сучасні СРГС, як правило, мають ієрархічну структуру. На першому акустичному рівні виконується попередня обробка та виділення акустичних ознак, які характеризують голосовий сигнал. Наступний рівень СРГС – лінгвістичний, в який входить процедура пошуку голосового сигналу по словниках еталонів. Крім того, СРГС можуть включати в себе фонетичний, фонологічний, морфологічний, лексичний, синтаксичний та семантичний рівні.
На сьогодні вважається, що найбільш складним етапом роботи СРГС є реалізація процедури розпізнавання, результатом якої є визначення еталону, що відповідає невідомому голосовому сигналу. Складність процедури розпізнавання пояснюється нелінійною зміною темпу мовлення слів та різною тривалістю пауз на початку і в кінці слова. Тому процедура розпізнавання розділяється на декілька етапів. Вхідний голосовий сигнал розділяється на елементи – фонеми, алофони, дифони, трифони, склади. Для вказаних елементів знаходяться еталони, а вже за допомогою еталонів елементів знаходяться еталони окремих слів. Розділ голосового сигналу на окремі елементи виконується на основі аналізу його енергетичних складових [1]. Методи розпізнавання окремих слів на основі еталонів елементів вважаються достатньо апробованими та надійними. В той же час задача знаходження еталонів окремих елементів далека від свого вирішення [1, 2]. Результати наукових робіт, присвячених розпізнаванню слів дозволяють стверджувати про перспективність використання в якості окремих елементів фонем, що пояснюється їх відносною малочисельністю в порівнянні з кількістю складів, алофонів, дифонів та трифонів [1, 2]. Процес визначення меж окремих фонем в голосовому сигналі описано в роботах Гусєва М.Н. [2]
Переважна більшість апробованих СРГС будуються на основі методів динамічного програмування, нейронних мереж та схованих марківських процесів.
Перевагами методу динамічного програмування є простота встановлення часової відповідності між вхідним голосовим сигналом та еталонним, а недоліками є висока обчислювальна складність та дикторозалежність.
Застосування нейронних мереж базується на їх здатності класифікувати голосові сигнали, задані за допомогою коефіцієнтів, які відповідають розрахованому вектору ознак ГС [3]. Переваги нейромережевих методів: доведена ефективність при вирішенні важкоформалізуємих задач, стійкість до шумів у вхідних даних, висока швидкість розрахунків та низькі потреби обчислювальних ресурсів при прийнятті рішення, стійкість до часткових відмов при апаратній реалізації нейромережевих моделей. До недоліків відносять складність адаптації нейромережевої моделі до нестаціонарного вхідного сигналу, проблеми вибору параметрів нейромережевих моделей.
Використання схованих марківських процесів базується на постулаті, що голосовий сигнал може бути представлений за допомогою схованого ланцюга Маркова. Перевагами методу є простота його застосування. До основних недоліків схованих марківських процесів відносять складність формування бази різноваріантних еталонних елементів слів та високу обчислювальну складність розрахунку параметрів марківської моделі. Вказані недоліки дещо компенсуються за рахунок сумісного використання марківських моделей та нейромережевих моделей, що в свою чергу негативно впливає на складність моделі. Крім того, відомі спроби застосування в СРГС динамічних мереж Байєса, машини опорних векторів, а також теорії несилової взаємодії. Широкому використанню цих методів заважає низька апробованість та необхідність адаптації до практичних аспектів застосування в СРГС.
Таким чином вказана задача розробки засобів автоматизації голосової взаємодії між користувачем та системою може бути вирішена за рахунок нейромережевого розпізнавання фонем, попередньо виділених із голосового сигналу. При цьому у вимогах до очікуваних умов застосування системи розпізнавання голосового сигналу на стороні клієнта (користувача) можливо зазначити характеристики каналу передачі даних, характеристики мікрофону, розташування мікрофону, акустику приміщень, можливості апаратно-програмного забезпечення, що відносно загального випадку суттєво зменшує кількість факторів, які впливають на ефективність розпізнавання. Крім того, очікувані умови впровадження нейромережевих засобів розпізнавання голосових сигналів характеризуються варіативністю обмежень на термін розробки та залучення трудових ресурсів. Окремо слід зазначити обмеження на використання баз даних прикладів аудіозаписів, необхідних для проведення навчання нейромережевих моделей, що в значній мірі впливає на точність розпізнавання засобів, які створені на їх основі. Також, виходячи із клієнт-серверної архітектури, можливо зробити висновок, що для надання функцій автоматичного розпізнавання голосового сигналу в СДН слід додати новий серверний модуль розпізнавання. Функціонування такого модулю може призвести до використання додаткових обчислювальних ресурсів сервера, обсяг яких у вітчизняних СДН фіксований та досить обмежений. Тому застосування системи розпізнавання голосового сигналу в СДН призводить до необхідності прогнозування достатності обсягу обчислювальних ресурсів веб-серверу.
Список використаних джерел1. Винцюк Т.К. Анализ распознавание и интерпретация речевых сигналов / Т.К. Винцюк – К. : Наукова думка. – 1987. – 262 с.
2. Гусев М. Н. Методы и модели распознавания русской речи в информационных системах: дис. … доктора техн. наук : 05.13.01 / М. Н. Гусев – СПб., 2014. – 378 с.
2. Терейковський І. Нейронні мережі в засобах захисту комп’ютерної інформації: монографія / І. Терейковський. К. : ПоліграфКонсалтинг. 2007. – 209 с.