Гистограммы: взгляд на распределение данных, страница 6

Наиболее распространенным типом преобразования данных в бизнесе и экономике является логарифмирование, ко­торое можно использовать только для положительных чисел (т.е. для данных, которые включают отрицательные значения или нуль, этот метод не подходит). Логарифмирование часто преобразует скошенные (асимметричные) данные в симметричные, поскольку происходит растягивание шкалы возле нуля, что, в свою очередь, приводит к распределению малых значений, сгруппированных вместе. В то же время логарифмирование собирает вместе большие значения, ко­торые распределены на правом (положительном) конце шкалы. Оба типа наибо­лее часто используемых логарифмов ("десятичный логарифм" по основанию 10 и "натуральный логарифм" по основанию "е" ) одинаково эффективно можно ис­пользовать для такого рода преобразований. Мы будем использо­вать десятичный логарифм.

Интерпретация и вычисление логарифма

Разница на 1 для значений логарифма по основанию 10 соответствует десяти­кратной разнице для исходных значений. Например, значения 392,1 и 3921 (со­отношение 1:10, разница в 10 раз) после логарифмирования преобразуются соот­ветственно в значения 2,59 и 3,59 (разница на 1). В табл. 3.4.2 содержатся при­меры нескольких чисел и их логарифмов.

Таблица 3.4.2. Результаты логарифмирования по основанию 10

Число

Логарифм

0,001

-3,0000

0,01

-2,0000

0,1

-1,0000

1

0,0000

2

0,3010

5

0,6990

9

0,9542

10

1,0000

100

2,0000

10000

4,0000

20000

4,3010

100000000

8,0000

Из таблицы видно, как логарифм "стягивает вместе" очень большие числа, уменьшая разницу между ними и другими значениями в наборе данных (напри­мер, вместо разницы в 100 миллионов получаем разницу в 8 единиц).

Чаще всего используют логарифмы двух видов. Мы рассмотрели логарифмы по основанию 10. Логарифмы второго вида называют натуральными, их обозна­чают ln и вычисляют по основанию числа е = 2,71828.... Натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономи­ческой эластичности и др. В преобразованиях данных оба вида логарифмов при­водят к одинаковому эффекту, т.е. "стягивают вместе" на числовой оси большие числа и "растягивают" малые.

Многие электронные таблицы, например Microsoft Excel, имеют встроенные функции логарифмирования.

3.5. Бимодальные распределения

Важно уметь определять, когда набор данных состоит из двух или более от­четливо различающихся между собой групп, чтобы можно было при необходи­мости анализировать эти группы отдельно. На гистограмме такой ситуации соот­ветствует разрыв между двумя соседними группами столбиков. Если на гисто­грамме четко видны две отдельные группы, то это говорит о бимодальном распределении данных. Бимодальное распределение — это распределение, имеющее две модыили два различных кластера (блока) данных.

Наличие бимодального распределения может свидетельствовать о том, что си­туация более сложная, чем вы предполагали, и поэтому требует серьезного внима­ния. По меньшей мере, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, вам необходимо изучить обе группы, но сле­дует внести некоторые уточнения, чтобы учесть факт имеющегося различия.

3.6. Выбросы (сильно отклоняющиеся значения)

Иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значе­ния), т.е. такие значения, которые, по-видимому, не принадлежат данному рас­пределению, поскольку они либо слишком велики, либо слишком малы. В зави­симости от причин, вызвавших выбросы, проблему выбросов решают по-разному. Существуют два вида выбросов значений: ошибки и корректные, но "отличающиеся" значения данных.

С ошибками справиться легко — нужно просто откорректировать значение. Например, если значение, соответствующее объему продаж $1597,00, записано как $159700 из-за неправильно поставленной десятичной точки, то это значение будет сильно отличаться от остальных значений на гистограмме. Увидев такое странное значение, нужно перепроверить данные и найти ошибку. Исправив это значение на $1597, вы решите проблему.