Історично
становлення теорії машинного навчання відбувалося із розвитком статистичних
методів розпізнавання образів [121-129], що ґрунтуються, головним чином, на байесівському вирішальному правилі
[121-124]. Суть цього правила полягає
у порівнянні обчислених в процесі навчання СК апостеріорних імовірностей , де
- подія, що відображає дійсну належність реалізації
образу класу
; gl - гіпотеза про належність реалізації класу
,
. Саме завдяки статистичному підходу відбувся стрімкий розвиток
методів і алгоритмів навчання, головною задачею якого був набір статистичних
даних з метою формування апріорних імовірностей. Обчислення
апостеріорних імовірностей за апріорними здійснюється за відомою формулою
Байеса:
(1.4.1)
де – умовна апріорна
ймовірність прийняття гіпотези
за умови існування
основної гіпотези
;
- повна ймовірність прийняття
гіпотези, яка визначається за теоремою про повну ймовірність як
За
байесівським вирішальним правилом гіпотезу gl належить віднести до класу , якщо
апостеріорна ймовірність для цього класу максимальна. Але оскільки оцінка
апостеріорних імовірностей здійснюється за вибірковим методом математичної
статистики, то це обумовлює ризик помилки особливо у тих випадках, коли центри
розсіювання реалізацій образів знаходяться близько один до одного. Тому на
практиці приймається рішення за умови мінімізації функції умовного ризику:
(1.4.2)
де - функція втрат, яка визначає
втрати аі , обумовлені прийняттям гіпотези gl за умови, що реалізація образу, яка розпізнається, належить класу
.
Побудова
розбиття за байесівським правилом здійснюється шляхом
обчислення класифікатором роздільних функцій f(gl ) і
вибору гіпотези gl, для якої роздільна функція є
найбільшою. Застосування класифікатора Байеса на практиці є ускладненим,
оскільки вигляд функцій щільності ймовірностей, як правило, невідомий. Тому з
метою використання класифікатора Байеса розвинулося два підходи: параметричний,
при якому функції щільності подаються в аналітичному вигляді, що не завжди
можливо, і непараметричний підхід, при якому непотрібне апріорне знання вигляду
функції щільності ймовірностей. При непараметричному підході для оцінки основних
величин функції щільності користуються або безпосередньо методами математичної
статистики [118,], або методами парзенівських вікон [123], радіальними методами
(ядра щільності) [63,72], правилом К найближчих сусідів [63,123] та
іншими [63,72,123]. Для оцінки практичного значення байесівського класифікатора
досить послатися на думку визнаного фахівця в галузі технічного зору Ф. Кауфе
[202, с.193], який вважає, що застосування байесівського класифікатора навіть з
використанням відомих непараметричних методів оцінки функції щільності
ймовірностей має «недостатню ступінь успіху для впровадження у виробництво».
Відсутність на практиці повної апріорної інформації про функціональний стан слабо формалізованого процесу, яка повинна включати так само ще і знання про закони розподілу моментів виникнення відхилень і тривалість викидів випадкових величин, є основною причиною низької достовірності розпізнавання за статистичними методами. Найбільш суттєві результати за статистичними методами в області контролю та керування отримано в тих галузях науки і техніки, де є можливість набору репрезентативної статистики при забезпеченні статистичної однорідності та статистичної стійкості, які витікають з центральної граничної теореми теорії ймовірностей [210]. Саме при виконанні умов цієї теореми є можливість застосування добре розробленого апарату теорії статистичних рішень, основаного на параметричних методах математичної статистики. Суть усіх статистичних методів навчання полягає в знаходженні роздільної функції, спосіб побудови якої задає спосіб розбиття простору на класи розпізнавання. Так, наприклад, у працях [63,123] задача навчання трактується як вибір серед можливих вирішальних правил такого, яке мінімізує середній ризик помилкового розпізнавання. З метою збільшення оперативності статистичних алгоритмів класифікації логічним є застосування алгоритмів мінімізації емпіричного середнього ризику, в яких функція емпіричного ризику обчислюється за випадковою та незалежною вибіркою малого обсягу. Але ефективність розв’язання задачі навчання шляхом мінімізації функції емпіричного ризику, як це показано в праці [91], на практиці прямо залежить від умов існування рівномірної збіжності статистичної похибки до заданого значення в класі подій.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.