Гистограммы: взгляд на распределение данных
Ваш партнер уже полчаса рассматривает огромную таблицу расходов потребителей на покупку изделий ваших конкурентов, надеясь узнать как можно больше из чисел в колонках и даже отчасти преуспев в этом (об этом свидетельствуют периодические восклицания типа "Большинство тратит от 10 до 15 долларов!", "Практически никто не тратит больше 35 долларов!" и "О-о! Один потратил 58 долларов!"). Вы понимаете, что следует посоветовать партнеру использовать вместо этой таблицы какой-нибудь график, например гистограмму, поскольку это сэкономит время и даст более полную картину. Единственная проблема — чисто психологическая: как объяснить это партнеру, не задев его самолюбия.
Здесь вы узнаете, как придать смысл колонке чисел. Гистограмма — это графическое изображение данных, которое дает визуальное представление многих основных свойствах набора данных в целом и позволяет ответить на следующие вопросы:
Первый. Какие значения типичны для этого набора данных?
Второй. Как различаются между собой значения?
Третий. Сконцентрированы ли данные вокруг некоторого типичного значения?
Четвертый. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер "затухания" для малых и больших значений данных?
Пятый. Есть ли в этом наборе такие значения, которые настолько сильно отличаются от остальных, что требуют специальной обработки?
Шестой. Можно ли сказать, что это в целом однородный набор или отчетливо наблюдается наличие групп, которые необходимо анализировать отдельно? Многие стандартные методы статистического анализа требуют, чтобы набор данных был приблизительно нормально распределенным. Вы узнаете, как распознать эту, похожую на колокол, форму и как преобразовать данные, если они не удовлетворяют этому требованию.
3.1. Последовательность данных
Набор данных простейшего вида — это последовательность чисел, представляющих некоторое свойство (единственная статистическая переменная), измеренное для каждого из рассматриваемых объектов (для каждой элементарной единицы). Последовательность чисел можно представить в нескольких, на первый взгляд сильно различающихся, формах. Помочь отличить результаты измерений (значения) от частот может ответ на вопрос: "Что представляют собой элементарные единицы, для которых проводились измерения?"
Пример. Деятельность региональных менеджеров по продажам
Рассмотрим пример очень короткой последовательности (только три наблюдения), где переменной является "объем продаж последнего квартала", а элементарными единицами — "региональные менеджеры по продажам".
Имя |
Объем продаж (десятки тысяч) |
Билл Дженифер Генри |
28 32 18 |
Этот набор данных в дополнение к трем числам объема продаж содержит информацию для интерпретации (т.е. имя менеджера по продажам, которое помечает каждую элементарную единицу набора данных). Иногда такая первая колонка опускается, и значения переменной записываются непосредственно в первую колонку.
Пример. Размер домохозяйства
Иногда последовательность чисел имеет вид таблицы частот, как в приведенном ниже примере данных о количестве членов семьи в выборке из 17 домохозяйств.
Размер домохозяйства (количество человек) |
Число домохозяйств (частота) |
1 2 3 4 5 6 |
3 5 6 2 0 1 |
При интерпретации такой таблицы необходимо учитывать, что она представляет собой такую последовательность чисел, в которой каждое число из левой колонки (размер домохозяйства) повторяется такое количество раз, как указало в соответствующей строке в правой колонке (частота такого наблюдения, количество домохозяйств такого размера). В таблице представлен следующий перечень чисел, отражающий количество людей в каждом домохозяйстве:
1,1,1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 6
Число 1 повторяется в этом списке трижды (как показано в первой строке таблицы), число 2 — 5 раз (что следует из второй строки) и т. д.
Таблица частот особенно полезна для представления длинных перечней чисел с относительно небольшим количеством различных значений. Поэтому для выборки большого размера размеры домохозяйств можно было бы обобщить следующим образом:
Размер домохозяйства (количество человек) |
Число домохозяйств (частота) |
1 2 3 4 5 6 7 |
342 581 847 265 23 11 2 |
В этой таблице представлено много данных! Соответствующий перечень чисел начинается последовательностью из 342 единиц, затем идет 581 двойка и т.д. Таблица содержит размеры всех 2071 домохозяйства из этой большой выборки.
Числовая ось
Чтобы наглядно представить значения последовательности, мы расположим числа вдоль прямой. Числовая ось представляет собой прямую линию с нанесенной на ней шкалой числовых значений.
--0------------10------------20------------30------------40------------50--
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.