К сожалению, труднее решать проблемы выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют тому, что изучается, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка может появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, то эти выбросы лучше исключить из общей картины. В качестве другого примера предположим, что ваша компания оценивает новый фармацевтический продукт. В одном из опытов лаборант чихнул в образец перед его анализом. Если вы не изучаете несчастные случаи с лабораторными материалами, то этот образец можно не анализировать.
Если вы решили не учитывать некоторые выбросы, вы должны быть готовы к тому, что в правильности этого решения нужно убедить не только себя, но и того, кому предназначен ваш отчет (хотя этот человек может иметь и другое мнение). Таким образом, на вопрос, учитывать или не учитывать выбросы, нет однозначного и единственно верного ответа. Например, для упрощения первоначального внутрифирменного анализа можно исключить некоторые выбросы. Однако если исследование предназначено для общественности или представляет собой государственное исследование, то следует очень осторожно и со всей ответственностью отнестись к исключению выбросов значений.
При отсутствии достаточно обоснованного аргумента для исключения выбросов как компромисс можно выполнить два различных анализа: один с учетом выбросов, а другой — с исключением их. Тогда ваш отчет будет содержать все результаты. В лучшем случае результаты обоих анализов будут одинаковыми, тогда можно будет сделать вывод, что наличие выбросов не имеет существенного значения. В более сложном случае, когда эти два анализа дадут разные результаты, ваши выводы и рекомендации будут менее определенными и однозначными. К сожалению, нет исчерпывающего решения этой достаточно тонкой проблемы.
При исключении из анализа выбросов рекомендуется руководствоваться одним важным правилом, которое поможет вам защитить себя от возможных обвинений:
Всегда объясняйте, что вы сделали и почему!
Другими словами, четко объясните в отчете (может быть, достаточно сноски), что ваши данные содержат выбросы (сильно отклоняющиеся значения). Опишите эти значения. Объясните и обоснуйте предпринятые вами действия.
Почему проблемы с выбросами нужно обязательно решать? Есть две причины, по которым наличие выбросов может приводить к проблемам при анализе данных. Во-первых, трудно интерпретировать подробности структуры набора данных, если одно значение доминирует в общей картине и поэтому привлекает к себе повышенное внимание. Во-вторых, как и в случае асимметрии, многие из распространенных современных статистических методов нельзя использовать для анализа тех данных, распределение которых сильно отличается от нормального. Нормальное распределение является симметричным и обычно не содержит выбросы. Следовательно, прежде чем заняться серьезными статистическими выводами, вам придется разобраться с выбросами в данных.
Пример. Растут или падают чистые поступления?
По сообщению The WallStreetJournal , чистый доход за второй квартал крупнейших компаний США возрос на 27% (по результатам анализа данных о 677 открытых акционерных торговых компаниях). Однако в данных есть выбросы значений: в результате отделения от компании U.S. West доход компании MediaOne составил во втором квартале 24,5 миллиардов долларов. Если это значение исключить из анализа, то увеличение чистого дохода фактически упадет до 1,5%.
Почти такая же ситуация наблюдалась в предыдущем квартале, когда чистый доход возрос на 20% благодаря продажам компании Ford Motors. Если исключить этот выброс, то вместо сильного роста получим просто рост на 2,5%.
В современной статистике есть раздел "устойчивость" (робастность), в котором применяется мощный вычислительный аппарат для учета наличия выбросов значений, а также разрабатываются устойчивые методы, доступные для многих (но не для всех) наборов данных.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.