Гистограммы: взгляд на распределение данных, страница 7

К сожалению, труднее решать проблемы выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют тому, что изучается, то их можно просто удалить и анализировать оставшиеся более согла­сованные между собой данные. Например, в наборе данных относительно дохо­дов денежного рынка может появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной си­туации для обычных фондов, то эти выбросы лучше исключить из общей карти­ны. В качестве другого примера предположим, что ваша компания оценивает новый фармацевтический продукт. В одном из опытов лаборант чихнул в обра­зец перед его анализом. Если вы не изучаете несчастные случаи с лабораторны­ми материалами, то этот образец можно не анализировать.

Если вы решили не учитывать некоторые выбросы, вы должны быть готовы к тому, что в правильности этого решения нужно убедить не только себя, но и то­го, кому предназначен ваш отчет (хотя этот человек может иметь и другое мне­ние). Таким образом, на вопрос, учитывать или не учитывать выбросы, нет однозначного и единственно верного ответа. Например, для упрощения первоначаль­ного внутрифирменного анализа можно исключить некоторые выбросы. Однако если исследование предназначено для общественности или представляет собой государственное исследование, то следует очень осторожно и со всей ответствен­ностью отнестись к исключению выбросов значений.

При отсутствии достаточно обоснованного аргумента для исключения выбросов как компромисс можно выполнить два различных анализа: один с учетом выбро­сов, а другой — с исключением их. Тогда ваш отчет будет содержать все результа­ты. В лучшем случае результаты обоих анализов будут одинаковыми, тогда можно будет сделать вывод, что наличие выбросов не имеет существенного значения. В более сложном случае, когда эти два анализа дадут разные результаты, ваши вы­воды и рекомендации будут менее определенными и однозначными. К сожалению, нет исчерпывающего решения этой достаточно тонкой проблемы.

При исключении из анализа выбросов рекомендуется руководствоваться одним важным правилом, которое поможет вам защитить себя от возможных обвинений:

Всегда объясняйте, что вы сделали и почему!

Другими словами, четко объясните в отчете (может быть, достаточно сноски), что ваши данные содержат выбросы (сильно отклоняющиеся значения). Опиши­те эти значения. Объясните и обоснуйте предпринятые вами действия.

Почему проблемы с выбросами нужно обязательно решать? Есть две причи­ны, по которым наличие выбросов может приводить к проблемам при анализе данных. Во-первых, трудно интерпретировать подробности структуры набора данных, если одно значение доминирует в общей картине и поэтому привлекает к себе повышенное внимание. Во-вторых, как и в случае асимметрии, многие из распространенных современных статистических методов нельзя использовать для анализа тех данных, распределение которых сильно отличается от нормального. Нормальное распределение является симметричным и обычно не содержит вы­бросы. Следовательно, прежде чем заняться серьезными статистическими выво­дами, вам придется разобраться с выбросами в данных.

Пример. Растут или падают чистые поступления?

По сообщению The WallStreetJournal , чистый доход за второй квартал крупнейших компаний США возрос на 27% (по результатам анализа данных о 677 открытых акционерных торговых компаниях). Од­нако в данных есть выбросы значений: в результате отделения от компании U.S. West доход компании MediaOne составил во втором квартале 24,5 миллиардов долларов. Если это значение исключить из анализа, то увеличение чистого дохода фактически упадет до 1,5%.

Почти такая же ситуация наблюдалась в предыдущем квартале, когда чистый доход возрос на 20% бла­годаря продажам компании Ford Motors. Если исключить этот выброс, то вместо сильного роста получим просто рост на 2,5%.

В современной статистике есть раздел "устойчивость" (робастность), в котором применяется мощ­ный вычислительный аппарат для учета наличия выбросов значений, а также разрабатываются ус­тойчивые методы, доступные для многих (но не для всех) наборов данных.