Методика статистичного тестування: Технічний звіт ІІТ – 001-2004, страница 17

Таким чином,  є статистикою типу χ2, але це розповсюджена помилка думати, що  має χ2-розподіл. Насправді частоти  не є незалежними.

Відповідна узагальнена послідовна статистика для тестування випадковості [12], [14], [15]:

і                                                         

(Тут = =0.) Тоді  має χ2-розподіл з 2m-1 ступенями свободи,  має χ2-розподіл з 2m-2 ступенями свободи. Таким чином, для малих значень m, , можна знайти відповідні 2m Р-значень за допомогою стандартних формул.

Результат для  і звичайний підрахунок частот даний некоректно в [12] стор.81, формула (5.2): +1 повинна бути замінена на –1.

Збіжність  до χ2-розподілу доведена в [2].

Приклад.

Вхід:

e = 0011011101,

n = 10,

m = 3.

Тест:

m = 3:

              e' = 001101110100,

              v000 = 0, v001 = 1, v010 = 1, v011 = 2, v100 = 1, v101 = 2, v110 = 2, v111 =1;

m = 2:

              e' = 00110111010,

              v00 = 1, v01 = 3, v10 = 3, v11 = 3;

m = 1:

              e' = 0011011101,

              v0 = 4, v1 = 6;

         

-тест пройдено.

4.13. Ентропійний тест

Ентропійні характеристики [16] базуються на повторенні шаблонів у рядку. Якщо Yi(m) = (ε1, …, εi + m - 1), встановлюються

і

 ,

де - відносна частота входжень шаблона Yi(m) у строку, і  - ентропія емпіричного розподілу, яка виникає з безлічі всіх 2m можливих шаблонів довжини m,

де - відносна частота шаблону = (i1, …, im) у строці.

Ентропія ApEn порядку m, m ≥ 1, визначається як

ApEn(m) =  -

з ApEn(0) = - . Згідно [16], “ApEn(m) вимірює логарифмічну частоту, з якою блоки довжини m, обмежені разом, залишаються обмеженими разом для блоків, поповнених однією позицією. Таким чином, малі значення ApEn(m) вказують на  строгу регулярність, чи постійність, у послідовності. І навпаки, великі значення ApEn(m) вказують на істотне коливання (нестійкість), чи нерегулярність”.

У [17] послідовність називається m – нерегулярною (m - випадковою), якщо ентропія ApEn(m) приймає найбільше можливе значення. Тут розраховувалися величини ApEn(m), m = 0, 1, 2 для двійкових і десяткових розширень е, π, ,  з несподіваним результатом, що полягає в тім, що розширення  демонструє більшу нерегулярність, чим π.

Для фіксованого блоку довжиною m передбачається, що в довгих випадковим (нерегулярних) рядках ApEn(m) ~ log 2. Обмежуючий розподіл n[log2 - ApEn(m)] збігається з χ2-випадковою перемінною з 2m ступенями свободи. Даний факт складає основу тесту [18].

Таким чином, при χ2(obs) = n[log2 – ApEn(m)], звітним Р-значенням є

igamc (2m-1, χ2(obs) / 2).

Насправді, це обмежуюче розподілення ентропії більш точно для модифікованого визначення

де  позначає відносну частоту шаблона (i1, …, im) у поповненій (чи циклічній) версії вихідної строки, тобто в строці (ε1, …, εn, ε1, …, εm - 1). Нехай - частота шаблона i1, …, im. Відповідно до нашого визначення, , так що для будь-якого m, .

Визначимо модифіковану ентропію як

 =  - .

Згідно нерівності Дженсена,  для будь-якого m, оскільки можливо, що log s < ApEn(m). Отже, найбільше можливе значення модифікованої ентропії є просто log s, що досягається при n = sm, і розподіл усіх m-шаблонів є рівномірним. Коли обчислюється ентропія для декількох значень m, дуже зручно мати суму всіх частот m-шаблонів, еквівалентних n.

Коли n велико, ApEn(m) і його модифікована версія не можуть сильно відрізнятися. Дійсно, при

і  З цього випливає, що

і наводить на думку, що для фіксованих m,  і  повинні бути обмежені для великих n. Отже, ентропія [17] і її модифікована версія також є обмеженими, і їхні асимптотичні розподіли повинні збігатися.

Приклад.

Вхід:

e = 0100110101,

n = 10,

m = 3.

Тест:

m = 3:

              e' = 010011010101,

              #000 = 0, #001 = 1, #010 = 3, #011 = 1, #100 = 1, #101 = 3, #110 = 1, #111 = 0;

            

             j(3) = 0×ln0 + 0,1×ln0,1 + 0,3×ln0,3 + 0,1×ln0,1 + 0,1×ln0,1 + 0,3×ln0,3 + 0,1×ln0,1 + 0×ln0 = - 1,6434;

m = 4: