АНАЛИЗ ВАЖНОСТИ КОРРЕКТНОГО ПРИМЕНЕНИЯ МЕТОДИКИ ЭКОНОМЕТРИЧЕСКИХ ИЗМЕРЕНИЙ
(разбор ошибок публикации в журнале «Вопросы статистики»)
При изучении социально-экономических дисциплин студентами важная роль принадлежит эконометрическим методам и моделям, позволяющим определять количественные оценки многих явлений, их тесноту взаимовлияния, взаимозаменяемость факторов и др. Применять методы статистического анализа данных в научных и прикладных исследованиях крайне необходимо, но возникает вопрос корректности их использования на практике?
Наличие на современном рынке мощных компьютерных программ статистического анализа данных (Statistica, SPSS, СтатЭксперт, ФинЭксперт и др.) позволяет эффективно использовать самые разнообразные статистические методы и процедуры - корреляционно-регрессионный, факторный, кластерный, дискриминантный анализ и др. Методика их практического применения подробно раскрыта в ряде трудов [2, 5, 10]. Однако формальное использование на практике эффективных компьютерных программ без тщательного анализа производимых статистических процедур часто ведет к ошибочным выводам и к ощутимому ущербу для методологии научных исследований.
Раскроем это утверждение с привлечением работы [1], в которой дан анализ одной из статей журнала «Вопросы статистики» за 2004 г. [3]. Опубликованная статья охватывала широкий круг вопросов: постановку задачи, классификацию, анализ факторов развития человеческого потенциала, статистическое моделирование на основе регрессионного анализа.
Опустив первые аспекты, авторы работы [1], выступив в роли критиков, подробно остановились лишь на анализе построенной регрессионной модели, отражающей зависимость уровня рентабельности региона Белоруссии от ряда объясняющих факторов (табл. 1):
- х1 - доли занятого экономически активного населения;
- структуры уровня образования населения (х2- с высшим и х3 – средним профессиональным образованием; х4 – со средним и х5 – с базовым (4 класса) образованием);
- х6 - соотношения начисленной среднемесячной заработной платы и минимального потребительского бюджета;
- х7 - уровня безработицы;
-х8 – уровня доли расходов на оплату труда в себестоимости.
Рациональность выбора именно этого набора показателей в статье [1] не рассматривалась, а анализу подверглись лишь методологические ошибки и неточности, относящиеся к эконометрическим исследованиям и общей теории статистики. Приведем их перечисление с их и нашими комментариями.
1. Из курса эконометрики известно, что в регрессионную модель в качестве предикторов не могут быть включены сильно коррелирующие переменные из-за эффекта мультиколлинеарности: вероятность его проявления значительно возрастает при значениях коэффициента корреляции rxixj между переменными более 0,8 (по модулю), что может кардинально исказить интерпретацию коэффициентов регрессионной модели, полученной в [3].
2. Не была проведена проверка коррелированности исходных предикторов. Корреляционный анализ же показывает, что в модель нельзя включать одновременно переменные типа доли занятого экономически активного населения и уровня безработицы, с одной стороны, и все без исключения показатели структуры уровня образования, в сумме равные единице, с другой (см. табл. 1). Коэффициент корреляции между уровнем занятости и уровнем безработицы составляет величину -0,969, а доля лиц со средним и с базовым (неполным средним) образованием коррелирует с долей лиц с высшим образованием с коэффициентом линейной корреляции - соответственно -0,899 и -0,803. В силу этого в уравнение регрессии принципиально не могут быть включены все восемь выбранных переменных.
3. Используемый результативный признак (уровень рентабельности региона) довольно слабо коррелирует практически со всеми входными переменными: наибольшее по абсолютной величине значение коэффициента корреляции у уровня рентабельности — с долей лиц со специальным профессиональным образованием, а также с долей оплаты труда в себестоимости (-0,520 и -0,259 соответственно, см. табл. 1).
4. Современные компьютерные программы анализа данных позволяют проводить в автоматическом режиме отбор переменных, входящих в регрессионную модель, без предварительного корреляционного анализа. Однако отбор предикторов лучше выполнять на основе содержательного анализа и с учетом их информативности. Так, из пары коррелирующих показателей «уровень занятости - уровень безработицы» предпочтительнее использовать предиктор «уровень безработицы», так как коэффициент вариации этого показателя значительно выше аналогичной характеристики для уровня занятости (196 и 0,56% соответственно).
Таблица 1. Корреляционная матрица показателей развития человеческого
потенциала по регионам Белоруссии (1998-2001 гг.)
Показатель, обозначение |
У |
Х1 |
Х2 |
Хз |
Х4 |
Х5 |
Х6 |
Х7 |
Х8 |
Рентабельность, у |
1,000 |
0,053 |
0,204 |
-0,520 |
-0,126 |
0,027 |
0,122 |
-0,122 |
-0,259 |
Занятость населения, х1 |
0,053 |
1,000 |
0,608 |
-0,736 |
-0,425 |
-0,427 |
0,478 |
-0,969 |
0,598 |
Доля лиц с высшим образованием, х2 |
0,204 |
0,608 |
1,000 |
-0,551 |
-0,899 |
-0,803 |
0,824 |
-0,572 |
0,183 |
Доля лиц со специальным профессиональным образованием, х3 |
-0,520 |
-0,736 |
-0,551 |
1,000 |
0,293 |
0,305 |
-0,440 |
0,801 |
-0,363 |
Доля лиц со средним образованием, х4 |
-0,126 |
-0,425 |
-0,899 |
0,293 |
1,000 |
0,556 |
-0,654 |
0,398 |
0,019 |
Доля лиц с базовым образованием, х5 |
0,027 |
-0,427 |
-0,803 |
0,305 |
0,556 |
1,000 |
-0,802 |
0,335 |
-0,264 |
Отношение заработной платы к минимальному потребительскому бюджету, х6 |
0,122 |
0,478 |
0,824 |
-0,440 |
-0,654 |
-0,802 |
1,000 |
-0,403 |
0,439 |
Уровень безработицы, х7 |
-0,122 |
-0,969 |
-0,572 |
0,801 |
0,398 |
0,335 |
-0,403 |
1,000 |
-0,553 |
Доля оплаты труда в себестоимости, х8 |
-0,259 |
0,598 |
0,183 |
-0,363 |
0,019 |
-0,264 |
0,439 |
-0,553 |
1,000 |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.