Из этих примеров видно, что при наличии выброса значений статистическое обобщение результатов может быть ошибочным. Если вы прочитаете только эти показатели крупных компаний — увеличение на 27% (или 20%), — то можете сделать неверный вывод о том, что большинство компаний испытывают сильный экономический рост. Исключив выбросы и сделав повторный анализ, получим более реальное впечатление о ситуации в этой группе компаний.
Резюме
Набор данных простейшего вида представляет собой список чисел, содержащих некоторую информацию (единственная статистическая переменная), измеренную для каждого изучаемого объекта (каждой элементарной единицы). Такой список чисел может быть представлен либо действительно в виде списка, либо в виде таблицы, где записано, сколько раз каждое из значений повторяется в списке.
Первым шагом в анализе списка чисел является изучение гистограммы, которая дает представление об основных свойствах набора данных, таких как типичные значения, особые значения, концентрация, распределение значений, характер данных и наличие в данных отдельных групп значений. Гистограмма представляет частоты в виде столбиковой диаграммы, расположенной над числовой осью и показывающей, сколько раз различные значения встречаются в наборе данных. Числовая ось представляет собой прямую линию, обычно горизонтальную, с нанесенными под ней числами, образующими шкалу.
Нормальное распределение представляет собой теоретическую гладкую в форме колокола гистограмму, без случайных отклонений. Ей соответствует идеальный набор данных, в котором большинство значений сконцентрировано в средней части диапазона, а оставшиеся значения симметрично с затуханием частоты расположены по обе стороны от вершины колокола. Набор данных имеет нормальное распределение, если форма его гистограммы близка к идеальной гладкой в форме колокола кривой, возможно, с некоторыми случайными отклонениями. Нормальное распределение играет важную роль в теории и практике статистического анализа.
Асимметричное (скошенное) распределение не является ни симметричным, ни нормальным, поскольку значения данных с одной стороны затухают более резко, чем с другой. Асимметричные распределения очень часто встречаются в бизнесе. К сожалению, большинство статистических методов не применимы к сильно скошенным распределениям.
Преобразование заключается в замене каждого значения другим числом (например, логарифмом этого значения) с целью упрощения статистического анализа. Логарифмирование часто преобразует асимметрию в симметрию, поскольку позволяет растянуть шкалу в окрестности нуля, растягивая по шкале все сгруппированные вместе малые значения. Логарифмирование также группирует большие значения, растянутые на правом конце исходной шкалы. Логарифмировать можно только положительные числа. Для правильной интерпретации результата логарифмирования необходимо учитывать, что равным расстояниям на логарифмической шкале соответствуют на исходной шкале равные процентные увеличения, а не равные увеличения значений (как, например, объем финансов в долларах).
Если на гистограмме четко видны две отдельные группы, то это говорит о бимодальном распределении данных. Важно уметь определять наличие бимодального распределения, чтобы предпринимать соответствующие действия при анализе. Возможно, выяснится, что вас интересует только одна из этих групп данных, а вторую можно не рассматривать. Возможно, придется вносить в анализ определенные изменения, чтобы справиться с этой более сложной ситуацией.
Иногда данные могут содержать выбросы (сильно отклоняющиеся значения), т.е. одно или несколько таких значений, которые, по-видимому, не принадлежат данному распределению, поскольку либо слишком велики, либо слишком малы. Выбросы затрудняют статистический анализ, поэтому их следует идентифицировать и обработать специально. Если выброс представляет собой просто ошибку, то ее следует исправить и продолжить анализ. Если ошибки нет, а значение сильно отличается от остальных значений из набора данных, то этот выброс можно либо исключить, либо не исключить из анализа. Если вы убедите себя и других, что выброс не принадлежит изучаемой системе данных, его можно исключить. Если вы не можете обосновать исключение выброса, может потребоваться выполнить два анализа: с выбросом и без него. В любом случае в отчете вам необходимо четко написать о наличии выброса и предпринятых действиях.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.