Загальне
Терейковська Л. О.
Київський національний університет будівництва і архітектури, Україна
Концепція забезпечення ефективності нейромережевого розпізнавання фонем в голосовому сигналі в системі дистанційного навчання Moodle
Одним із основних шляхів підвищення ефективності систем дистанційного навчання (СДН) вважається впровадження інтерактивних засобів навчання, які базуються на нейромережевих засобах (НМЗ) розпізнавання фонем, виділених із голосового сигналу (ГС).
Для цього необхідно вирішити наукове завдання нейромережевого розпізнавання фонем, попередньо виділених із ГС. Особливістю сформульованого завдання є необхідність теоретичного обґрунтування характеристик нейромережевих моделей та методів, адаптованих до умов СДН як у випадку дикторозалежного, так і у випадку дикторонезалежного розпізнавання. До вказаних умов відносяться допустимий термін розробки, можливість залучення трудових ресурсів, наявність доступу до баз даних аудіозаписів, необхідних для навчання нейромережевих моделей, особливості акустичних параметрів ГС та доступний обсяг обчислювальних ресурсів веб-серверу СДН. Вирішення наведеного наукового завдання дозволить розв’язати такі практичні задачі, як розпізнавання голосової відповіді в процесі комп’ютерного тестування, розпізнавання голосової команди та голосової аутентифікації користувачів СДН за рахунок розпізнавання висловленого ним секретного слова (паролю). У випадку дикторозалежного розпізнавання у вказаних практичних задачах враховуються особливості ГС конкретного користувача, а у випадку дикторонезалежного розпізнавання ці особливості не враховуються. При цьому задачі фільтрації ГС, виділення із ГС фонем та формування із розпізнаних фонем окремих слів вважаються вирішеними.
Очевидно, що відправним пунктом створення цих НМЗ є розробка концептуальної моделі забезпечення ефективності нейромережевого розпізнавання фонем. В загальному випадку концептуальна модель представляє собою модель предметної області, що складається з переліку взаємопов’язаних понять, котрі використовуються для опису цієї області разом з властивостями й характеристиками, класифікацією цих понять за типами, ситуаціями, ознаками в даній області, і законів протікання в ній процесів. Концептуальна модель являється відображенням концепції, під поняттям якої розуміють певний спосіб судження, трактовки деяких явищ, основну точку зору, керівну ідею для їх систематичного висвітлення. Зазначимо, що розробка концептуальної моделі є загальноприйнятим відправним пунктом розвитку методологічної бази, яка представляє собою систему принципів і способів організації та побудови теоретичної і практичної діяльності, а також вчення про цю систему. Оскільки практичний результат дослідження передбачає створення програмно-апаратного забезпечення для розпізнавання фонем, то для визначення ефективності процесу нейромережевого розпізнавання фонем в ГС СДН передбачено використовувати визначення з області комп’ютерної та програмної інженерії. Відповідно міжнародних стандартів цієї області, ефективність – це множина атрибутів, які визначають взаємозв'язок рівнів виконання програмної системи, використання ресурсів (засоби, апаратура, матеріали та ін.) і послуг, що виконуються штатним обслуговуючим персоналом та ін.
До характеристик ефективності програмної системи належать:
– оперативність – атрибут, що вказує на час відгуку, обробки й виконання функцій;
– ресурсоємність – атрибут, що визначає кількість і тривалість використовуваних ресурсів при виконанні функцій програмної системи;
– погодженість – атрибут, що вказує на відповідність даного атрибута заданим стандартам, правилам та приписам.
Відповідно наведених визначень, на першому етапі створення концептуальної моделі було проведено гармонізацію термінології, що використовується в області застосування НМ для розпізнавання ГС. Гармонізація проведена з позицій відображення сучасного стану науки і практики та підтримує вирішення задач дисертаційної роботи. В результаті визначені наступні терміни:
– ГС – складний акустичний сигнал, джерелом якого являється голос людини. В контексті даної дисертаційної роботи синонімом терміну ГС є мовний сигнал, хоча в загальному випадку між даними термінами є певні відмінності.
– Фонемоподібний елемент – виділений в ГС фрагмент, параметри якого відповідають окремій фонемі [2].
– Фонема – мінімальна структурно-функціональна звукова одиниця мови, яка служить для знаходження відмінностей та ототожнення значимих одиниць мови [2].
– НМ – мережа штучних нейронів, з’єднаних між собою синаптичними (зваженими) зв’язками [1].
– НММ – модель НМ, що характеризується методом навчання, способом розповсюдження сигналу, структурою зв’язків та типом штучного нейрону. Вказані параметри та їх комбінації визначають вид НММ [1]. Синонімом поняття виду НММ є архітектура НМ. Похідними від терміну НММ є нейромережеві методи, НМС та НМЗ, тобто це методи, системи та засоби, які базуються на НМ. Оскільки в загальному випадку під поняттям засіб розуміють знаряддя (предмет, пристрій, сукупність пристроїв), то поняття НМЗ є збірним для НММ та НМС, що застосовуються для розпізнавання фонем в ГС СДН.
Апаратно-програмну реалізацію таких пристроїв будемо називати інструментальним НМЗ. Також визначено, що стосовно задачі даного дисертаційного дослідження концептуальна модель призначена для формалізації причинно-наслідкових зв’язків, які властиві процесу розпізнавання фонем в ГС, визначених необхідністю підвищення ефективності СДН.
Враховуючи технологію застосування НМЗ, доведено, що процес розпізнавання повинен включати:
– формування параметрів навчальних прикладів;
– формування навчальної вибірки;
– визначення параметрів нейромережевих моделей (НММ);
– застосування НММ для розпізнавання в умовах СДН Moodle.
В процесі розробки концептуальної моделі враховано:
- недосконалість методик формування параметрів навчальних прикладів для НММ, що призначені для розпізнавання фонем;
- тривалий термін формування навчальної вибірки для НММ у випадку обмеженого доступу до бази даних (БД) фонем;
- складність доступу до існуючих БД фонем;
- додаткове навантаження на веб-сервер СДН Moodle за рахунок НМЗ.
Також визначено, що ефективність нейромережевого розпізнавання фонем в ГС в СДН Moodle залежить від ефективності навчання та від ефективності застосування НМЗ. При цьому показники ефективності повинні відображати тривалість, ресурсоємність та точність вказаних процесів. В підсумку визначено, що в концептуальній моделі забезпечення ефективності процесу нейромережевого розпізнавання фонем в СДН Moodle необхідно відобразити процеси створення навчальної вибірки, визначення ефективних видів НММ, визначення параметрів НММ, ресурсоємність застосування НМЗ, визначення параметрів навчальних прикладів та формування навчальної вибірки.
Аналіз побудованої концептуальної моделі дозволяє стверджувати, що для ефективного застосування НММ для розпізнавання фонем в ГС в СДН Moodle необхідно доповнити методологічну базу наступними принципами: допустимості застосування виду НММ, визначення множини ефективних видів НММ, оцінювання ефективності виду НММ, визначення очікуваного вихідного сигналу для еталонів фонем, прогнозу використання системою розпізнавання фонем обчислювальних ресурсів веб-сервера СДН, оцінки ефективності НМЗ та використання експертних знань для формування навчальної вибірки.
Розробка означених елементів методологічної бази дозволить перейти до створення відповідних нейромережевих моделей, методів та засобів розпізнавання фонем, адаптованих до використання в СДН.
Список використаних джерел
1. Руденко О.Г. Штучні нейронні мережі. Навч. посіб. / О. Г. Руденко, Є. В. Бодянський. – Харків: ТОВ "Компанія СМІТ", 2006. – 404 с.
2. Щербина А. А. Метод определения нейросетевой архитектуры в задачах голосового взаимодействия дистанционного обучения / А. А. Щербина, Л. А. Терейковская // Науково-технічний збірник “Управління розвитком складних систем” Київського національного університету будівництва і архітектури. – 2014. – Вип. 17. – С. 148 – 155.