Таким чином, є статистикою типу χ2, але це
розповсюджена помилка думати, що
має χ2-розподіл.
Насправді частоти
не є незалежними.
Відповідна узагальнена послідовна статистика для тестування випадковості [12], [14], [15]:
і
(Тут =
=0.) Тоді
має χ2-розподіл з 2m-1
ступенями свободи,
має χ2-розподіл з 2m-2
ступенями свободи. Таким чином, для малих значень m,
, можна знайти відповідні 2m Р-значень
за допомогою стандартних формул.
Результат для і звичайний підрахунок частот даний
некоректно в [12] стор.81, формула (5.2): +1 повинна бути замінена на –1.
Збіжність до χ2-розподілу доведена в [2].
Приклад.
Вхід:
e = 0011011101,
n = 10,
m = 3.
Тест:
m = 3:
e' = 001101110100,
v000 = 0, v001 = 1, v010 = 1, v011 = 2, v100 = 1, v101 = 2, v110 = 2, v111 =1;
m = 2:
e' = 00110111010,
v00 = 1, v01 = 3, v10 = 3, v11 = 3;
m = 1:
e' = 0011011101,
v0 = 4, v1 = 6;
-тест пройдено.
4.13. Ентропійний тест
Ентропійні характеристики [16] базуються на повторенні шаблонів у рядку. Якщо Yi(m) = (ε1, …, εi + m - 1), встановлюються
і
,
де - відносна частота входжень шаблона Yi(m)
у строку, і
- ентропія емпіричного розподілу, яка виникає
з безлічі всіх 2m можливих шаблонів довжини m,
де - відносна частота шаблону ℓ = (i1,
…, im) у строці.
Ентропія ApEn порядку m, m ≥ 1, визначається як
ApEn(m)
= -
з ApEn(0) =
- . Згідно [16], “ApEn(m)
вимірює логарифмічну частоту, з якою блоки довжини m, обмежені разом,
залишаються обмеженими разом для блоків, поповнених однією позицією. Таким
чином, малі значення ApEn(m) вказують на строгу регулярність, чи
постійність, у послідовності. І навпаки, великі значення ApEn(m)
вказують на істотне коливання (нестійкість), чи нерегулярність”.
У [17] послідовність називається m – нерегулярною (m -
випадковою), якщо ентропія ApEn(m) приймає найбільше можливе
значення. Тут розраховувалися величини ApEn(m), m = 0, 1,
2 для двійкових і десяткових розширень е, π, ,
з
несподіваним результатом, що полягає в тім, що розширення
демонструє більшу нерегулярність, чим π.
Для фіксованого блоку довжиною m передбачається, що в довгих випадковим (нерегулярних) рядках ApEn(m) ~ log 2. Обмежуючий розподіл n[log2 - ApEn(m)] збігається з χ2-випадковою перемінною з 2m ступенями свободи. Даний факт складає основу тесту [18].
Таким чином, при χ2(obs) = n[log2 – ApEn(m)], звітним Р-значенням є
igamc (2m-1, χ2(obs) / 2).
Насправді, це обмежуюче розподілення ентропії більш точно для модифікованого визначення
де позначає відносну частоту шаблона (i1,
…, im) у поповненій (чи циклічній) версії вихідної строки,
тобто в строці (ε1, …, εn, ε1,
…, εm - 1). Нехай
-
частота шаблона i1, …, im. Відповідно до
нашого визначення,
, так що для будь-якого m,
.
Визначимо модифіковану ентропію як
=
-
.
Згідно нерівності
Дженсена, для будь-якого m, оскільки можливо,
що log s < ApEn(m). Отже, найбільше можливе
значення модифікованої ентропії є просто log s, що досягається
при n = sm, і розподіл усіх m-шаблонів є
рівномірним. Коли обчислюється ентропія для декількох значень m, дуже
зручно мати суму всіх частот m-шаблонів, еквівалентних n.
Коли n велико, ApEn(m) і його модифікована версія
не можуть сильно відрізнятися. Дійсно, при
і З цього випливає, що
і наводить на
думку, що для фіксованих m, і
повинні бути обмежені для великих n.
Отже, ентропія [17] і її модифікована версія також є обмеженими, і їхні
асимптотичні розподіли повинні збігатися.
Приклад.
Вхід:
e = 0100110101,
n = 10,
m = 3.
Тест:
m = 3:
e' = 010011010101,
#000 = 0, #001 = 1, #010 = 3, #011 = 1, #100 = 1, #101 = 3, #110 = 1, #111 = 0;
j(3) = 0×ln0 + 0,1×ln0,1 + 0,3×ln0,3 + 0,1×ln0,1 + 0,1×ln0,1 + 0,3×ln0,3 + 0,1×ln0,1 + 0×ln0 = - 1,6434;
m = 4:
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.