Структуры данных: классификация различных типов наборов данных
Данные могут быть представлены в различной форме. Полезно иметь базовую классификацию различных типов данных, чтобы сразу же определять тип новых данных и использовать соответствующий метод анализа. Набор данных состоит из результатов наблюдений объектов, обычно включающих регистрацию одной и той же информации для каждого объекта. Мы определяем элементарные единицы как сами объекты (например, компании, люди, домохозяйства, города, телевизоры), чтобы отличать их от результатов измерений или наблюдений (например, объемы продаж, вес, доход, население, размер). Можно указать четыре основных способа классификации наборов данных.
Первый. По количеству порций информации (переменных) для каждой элементарной единицы.
Второй. По типу измерения (числа или категории) для каждого наблюдения.
Третий. По тому, важна или нет упорядоченность во времени записей о результатах измерений.
Четвертый. По тому, собиралась ли информация специально для этого анализа или данные собирались ранее кем-то другим для своих нужд.
2.1. Сколько переменных?
Порция информации, регистрируемая для каждого объекта (например, стоимость), называется переменной. Количество переменных, или порций информации, регистрируемых для каждого объекта, указывает на сложность набора данных и определяет соответствующий тип анализа. В зависимости от того, имеем ли мы дело с одной, двумя или многими переменными, мы получаем соответственно одномерный, двумерный или многомерный набор данных.
Одномерные данные
Одномерные наборы данных (одна переменная) содержат только один признак, зарегистрированный для каждой элементарной единицы. В этом случае статистические методы используют для обобщения основных свойств этого единственного признака, отвечая на такие вопросы.
1. Чему равно типичное (обобщенное) значение?
2. Насколько различаются эти объекты?
3. Имеются ли в этом наборе данных отдельные элементы или группы элементов, требующие особого внимания?
Указанная ниже таблица одномерных данных содержит объемы прибыли 12 компаний сферы общественного питания (из списка Fortune 500).
Компания |
Прибыль в 1997 г., млн. дол. |
Компания |
Прибыль в 1997 г., млн. дол. |
Advantica |
-134,5 |
Outblack Steakhouse |
61,5 |
Brinker International |
60,5 |
Performance Food Group |
13,2 |
Darden Restaurants |
-91,0 |
ProSource |
-13,7 |
Foodmaker |
34,1 |
Shoney's |
-35,7 |
Host Marriott Services |
20,8 |
Viad |
89,3 |
McDonald's |
1642,5 |
Wendy's International |
130,5 |
Приведем еще несколько примеров одномерных наборов данных.
1. Доходы отдельных людей, выявленные в ходе маркетингового исследования. Статистический анализ выявил бы структуру (или распределение) доходов, выявив типический уровень дохода, степень вариации доходов и процент людей, доход которых находится в любом заданном диапазоне.
2. Количество дефектов в каждом телевизоре из выборки объемом 50, взятой из телевизоров, изготовленных сегодня утром. Статистический анализ можно использовать для учета качества (оценивание) и наблюдения за тем, чтобы производственный процесс не вышел из под контроля (проверка гипотез).
3. Сделанные 25 экспертами прогнозы уровня процентной ставки. Анализ показал бы, как вы и подозревали, что оценки экспертов не согласуются и (если проверить позже) все они не верны. Хотя статистика не может на основе этих 25 оценок дать один точный прогноз, она, по крайней мере, позволит изучить данные на степень их согласованности.
4. Цвета, выбранные членами фокус-группы. Анализ поможет сделать подходящий выбор для нового вида продукции.
5. Оценки платежеспособности фирм в инвестиционном портфеле
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.