Гистограммы: взгляд на распределение данных, страница 8

Из этих примеров видно, что при наличии выброса значений статистическое обобщение результатов мо­жет быть ошибочным. Если вы прочитаете только эти показатели крупных компаний — увеличение на 27% (или 20%), — то можете сделать неверный вывод о том, что большинство компаний испытывают сильный экономический рост. Исключив выбросы и сделав повторный анализ, получим более реальное впечатление о ситуации в этой группе компаний.

Резюме

Набор данных простейшего вида представляет собой список чисел, содержащих некоторую информацию (единственная статистическая переменная), измеренную для каждого изучаемого объекта (каждой элементарной единицы). Такой список чисел может быть представлен либо действительно в виде списка, либо в виде таб­лицы, где записано, сколько раз каждое из значений повторяется в списке.

Первым шагом в анализе списка чисел является изучение гистограммы, кото­рая дает представление об основных свойствах набора данных, таких как типич­ные значения, особые значения, концентрация, распределение значений, харак­тер данных и наличие в данных отдельных групп значений. Гистограмма пред­ставляет частоты в виде столбиковой диаграммы, расположенной над числовой осью и показывающей, сколько раз различные значения встречаются в наборе данных. Числовая ось представляет собой прямую линию, обычно горизонталь­ную, с нанесенными под ней числами, образующими шкалу.

Нормальное распределение представляет собой теоретическую гладкую в форме колокола гистограмму, без случайных отклонений. Ей соответствует иде­альный набор данных, в котором большинство значений сконцентрировано в средней части диапазона, а оставшиеся значения симметрично с затуханием час­тоты расположены по обе стороны от вершины колокола. Набор данных имеет нормальное распределение, если форма его гистограммы близка к идеальной гладкой в форме колокола кривой, возможно, с некоторыми случайными откло­нениями. Нормальное распределение играет важную роль в теории и практике статистического анализа.

Асимметричное (скошенное) распределение не является ни симметричным, ни нормальным, поскольку значения данных с одной стороны затухают более резко, чем с другой. Асимметричные распределения очень часто встречаются в бизнесе. К сожалению, большинство статистических методов не применимы к сильно скошенным распределениям.

Преобразование заключается в замене каждого значения другим числом (на­пример, логарифмом этого значения) с целью упрощения статистического анализа. Логарифмирование часто преобразует асимметрию в симметрию, поскольку позво­ляет растянуть шкалу в окрестности нуля, растягивая по шкале все сгруппирован­ные вместе малые значения. Логарифмирование также группирует большие значе­ния, растянутые на правом конце исходной шкалы. Логарифмировать можно только положительные числа. Для правильной интерпретации результата лога­рифмирования необходимо учитывать, что равным расстояниям на логарифмиче­ской шкале соответствуют на исходной шкале равные процентные увеличения, а не равные увеличения значений (как, например, объем финансов в долларах).

Если на гистограмме четко видны две отдельные группы, то это говорит о бимодальном распределении данных. Важно уметь определять наличие бимо­дального распределения, чтобы предпринимать соответствующие действия при анализе. Возможно, выяснится, что вас интересует только одна из этих групп данных, а вторую можно не рассматривать. Возможно, придется вносить в ана­лиз определенные изменения, чтобы справиться с этой более сложной ситуацией.

Иногда данные могут содержать выбросы (сильно отклоняющиеся значения), т.е. одно или несколько таких значений, которые, по-видимому, не принадлежат данному распределению, поскольку либо слишком велики, либо слишком малы. Выбросы затрудняют статистический анализ, поэтому их следует идентифициро­вать и обработать специально. Если выброс представляет собой просто ошибку, то ее следует исправить и продолжить анализ. Если ошибки нет, а значение сильно отличается от остальных значений из набора данных, то этот выброс можно либо исключить, либо не исключить из анализа. Если вы убедите себя и других, что выброс не принадлежит изучаемой системе данных, его можно ис­ключить. Если вы не можете обосновать исключение выброса, может потребо­ваться выполнить два анализа: с выбросом и без него. В любом случае в отчете вам необходимо четко написать о наличии выброса и предпринятых действиях.