Наиболее распространенным типом преобразования данных в бизнесе и экономике является логарифмирование, которое можно использовать только для положительных чисел (т.е. для данных, которые включают отрицательные значения или нуль, этот метод не подходит). Логарифмирование часто преобразует скошенные (асимметричные) данные в симметричные, поскольку происходит растягивание шкалы возле нуля, что, в свою очередь, приводит к распределению малых значений, сгруппированных вместе. В то же время логарифмирование собирает вместе большие значения, которые распределены на правом (положительном) конце шкалы. Оба типа наиболее часто используемых логарифмов ("десятичный логарифм" по основанию 10 и "натуральный логарифм" по основанию "е" ) одинаково эффективно можно использовать для такого рода преобразований. Мы будем использовать десятичный логарифм.
Интерпретация и вычисление логарифма
Разница на 1 для значений логарифма по основанию 10 соответствует десятикратной разнице для исходных значений. Например, значения 392,1 и 3921 (соотношение 1:10, разница в 10 раз) после логарифмирования преобразуются соответственно в значения 2,59 и 3,59 (разница на 1). В табл. 3.4.2 содержатся примеры нескольких чисел и их логарифмов.
Таблица 3.4.2. Результаты логарифмирования по основанию 10
Число |
Логарифм |
0,001 |
-3,0000 |
0,01 |
-2,0000 |
0,1 |
-1,0000 |
1 |
0,0000 |
2 |
0,3010 |
5 |
0,6990 |
9 |
0,9542 |
10 |
1,0000 |
100 |
2,0000 |
10000 |
4,0000 |
20000 |
4,3010 |
100000000 |
8,0000 |
Из таблицы видно, как логарифм "стягивает вместе" очень большие числа, уменьшая разницу между ними и другими значениями в наборе данных (например, вместо разницы в 100 миллионов получаем разницу в 8 единиц).
Чаще всего используют логарифмы двух видов. Мы рассмотрели логарифмы по основанию 10. Логарифмы второго вида называют натуральными, их обозначают ln и вычисляют по основанию числа е = 2,71828.... Натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономической эластичности и др. В преобразованиях данных оба вида логарифмов приводят к одинаковому эффекту, т.е. "стягивают вместе" на числовой оси большие числа и "растягивают" малые.
Многие электронные таблицы, например Microsoft Excel, имеют встроенные функции логарифмирования.
3.5. Бимодальные распределения
Важно уметь определять, когда набор данных состоит из двух или более отчетливо различающихся между собой групп, чтобы можно было при необходимости анализировать эти группы отдельно. На гистограмме такой ситуации соответствует разрыв между двумя соседними группами столбиков. Если на гистограмме четко видны две отдельные группы, то это говорит о бимодальном распределении данных. Бимодальное распределение — это распределение, имеющее две модыили два различных кластера (блока) данных.
Наличие бимодального распределения может свидетельствовать о том, что ситуация более сложная, чем вы предполагали, и поэтому требует серьезного внимания. По меньшей мере, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, вам необходимо изучить обе группы, но следует внести некоторые уточнения, чтобы учесть факт имеющегося различия.
3.6. Выбросы (сильно отклоняющиеся значения)
Иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые, по-видимому, не принадлежат данному распределению, поскольку они либо слишком велики, либо слишком малы. В зависимости от причин, вызвавших выбросы, проблему выбросов решают по-разному. Существуют два вида выбросов значений: ошибки и корректные, но "отличающиеся" значения данных.
С ошибками справиться легко — нужно просто откорректировать значение. Например, если значение, соответствующее объему продаж $1597,00, записано как $159700 из-за неправильно поставленной десятичной точки, то это значение будет сильно отличаться от остальных значений на гистограмме. Увидев такое странное значение, нужно перепроверить данные и найти ошибку. Исправив это значение на $1597, вы решите проблему.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.