Гистограммы: взгляд на распределение данных

Страницы работы

Содержание работы

Гистограммы: взгляд на распределение данных

Ваш партнер уже полчаса рассматривает огромную таблицу расходов потре­бителей на покупку изделий ваших конкурентов, надеясь узнать как можно больше из чисел в колонках и даже отчасти преуспев в этом (об этом свидетель­ствуют периодические восклицания типа "Большинство тратит от 10 до 15 дол­ларов!", "Практически никто не тратит больше 35 долларов!" и "О-о! Один по­тратил 58 долларов!"). Вы понимаете, что следует посоветовать партнеру исполь­зовать вместо этой таблицы какой-нибудь график, например гистограмму, поскольку это сэкономит время и даст более полную картину. Единственная проблема — чисто психологическая: как объяснить это партнеру, не задев его самолюбия.

Здесь вы узнаете, как придать смысл ко­лонке чисел. Гистограмма — это графическое изо­бражение данных, которое дает визуальное пред­ставление многих основных свойствах набора дан­ных в целом и позволяет ответить на следующие вопросы:

Первый. Какие значения типичны для этого набора данных?

Второй. Как различаются между собой значения?

Третий. Сконцентрированы ли данные вокруг некоторого типичного значения?

Четвертый. Какой характер имеет эта концентра­ция данных? В частности, одинаков ли характер "за­тухания" для малых и больших значений данных?

Пятый. Есть ли в этом наборе такие значения, которые настолько сильно отличаются от осталь­ных, что требуют специальной обработки?

Шестой. Можно ли сказать, что это в целом одно­родный набор или отчетливо наблюдается наличие групп, которые необходимо анализировать отдельно? Многие стандартные методы статистического анализа требуют, чтобы набор данных был приблизительно нормально распределенным. Вы узнаете, как распо­знать эту, похожую на колокол, форму и как преобразовать данные, если они не удовлетворяют этому требованию.

3.1. Последовательность данных

Набор данных простейшего вида — это последовательность чисел, представ­ляющих некоторое свойство (единственная статистическая переменная), изме­ренное для каждого из рассматриваемых объектов (для каждой элементарной единицы). Последовательность чисел можно представить в нескольких, на пер­вый взгляд сильно различающихся, формах. Помочь отличить результаты изме­рений (значения) от частот может ответ на вопрос: "Что представляют собой элементарные единицы, для которых проводились измерения?"

Пример. Деятельность региональных менеджеров по продажам

Рассмотрим пример очень короткой последовательности (только три наблюдения), где переменной явля­ется "объем продаж последнего квартала", а элементарными единицами — "региональные менеджеры по продажам".

Имя

Объем продаж (десятки тысяч)

Билл

Дженифер

Генри

28

32

18

Этот набор данных в дополнение к трем числам объема продаж содержит информацию для интерпрета­ции (т.е. имя менеджера по продажам, которое помечает каждую элементарную единицу набора дан­ных). Иногда такая первая колонка опускается, и значения переменной записываются непосредственно в первую колонку.

Пример. Размер домохозяйства

Иногда последовательность чисел имеет вид таблицы частот, как в приведенном ниже примере данных о количестве членов семьи в выборке из 17 домохозяйств.

Размер домохозяйства (количество человек)

Число домохозяйств (частота)

1

2

3

4

5

6

3

5

6

2

0

1

При интерпретации такой таблицы необходимо учитывать, что она представляет собой такую последова­тельность чисел, в которой каждое число из левой колонки (размер домохозяйства) повторяется такое количество раз, как указало в соответствующей строке в правой колонке (частота такого наблюдения, количество домохозяйств такого размера). В таблице представлен следующий перечень чисел, отра­жающий количество людей в каждом домохозяйстве:

1,1,1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 6

Число 1 повторяется в этом списке трижды (как показано в первой строке таблицы), число 2 — 5 раз (что следует из второй строки) и т. д.

Таблица частот особенно полезна для представления длинных перечней чисел с относительно небольшим количеством различных значений. Поэтому для выборки большого размера размеры домохозяйств мож­но было бы обобщить следующим образом:

Размер домохозяйства (количество человек)

Число домохозяйств (частота)

1

2

3

4

5

6

7

342

581

847

265

23

11

2

В этой таблице представлено много данных! Соответствующий перечень чисел начинается последова­тельностью из 342 единиц, затем идет 581 двойка и т.д. Таблица содержит размеры всех 2071 домохо­зяйства из этой большой выборки.

Числовая ось

Чтобы наглядно представить значения последовательности, мы расположим числа вдоль прямой. Числовая ось представляет собой прямую линию с нанесен­ной на ней шкалой числовых значений.

--0------------10------------20------------30------------40------------50--

Похожие материалы

Информация о работе