Под качественными (булевыми) показателями мы понимаем показатели, значения которых не являются числами, но характеризуют различную степень выражения соответствующего свойства у объекта (например, температура тела больного — пониженная, нормальная, повышенная). Оценка знаний учащихся — типичный качественный показатель. Действительно, хотя значениям этого показателя приписываются числа, имеет смысл говорить лишь о порядке значений (5>4>3>2>1), но не всегда можно утверждать, что 5—4 = 2—1. Отсюда следует, что подход к анализу данного типа показателей должен быть иным, чем к анализу количественных показателей.
Под классификационными показателями подразумеваются такие, значениями которых являются имена. Пример подобных показателей — профессия рабочего, вид используемого им инструмента, номер цеха, в котором он работает, рабочая поза и т. д. Так, значениями показателя «профессия» могут быть имена: слесарь, токарь, машинист и т. д. Обычно для ввода в ЭВМ имена кодируют числами. Ясно, что с этими значениями бессмысленно оперировать как с числами.
И, наконец, под булевыми признаками понимаются признаки, принимающие два значения — «да» и «нет». Пример такого показателя — боль в кистях при работе. Обычно значения данного показателя также кодируют числами: 1 — для «да», О — для «нет». С этими значениями также бессмысленно опери-poiiiiTi) как с числами.
Таким образом, любой алгоритм распознавания при разнотипных показателях должен учитывать тип показателя.
Известные в настоящее время в литературе по распознаванию образов и математической статистике алгоритмы не позволяют эффективно работать с подобного рода комплексной информацией (число показателей велико, они зависимы и разнотипны по своей природе).
Все существующие методы распознавания можно условно разбить на четыре группы:
1) статистические, в основе которых лежит восстановление во всем исходном пространстве показателей функций распределе ния вероятности образов;
2) метрические, основанные на введении для каждой пары объектов того или иного типа «расстояния» в пространстве пока зателей;
3) тестовые, основанные на вычислении всех тупиковых тес тов исходной таблицы данных;
4) логические, основанные на предварительном сведении всех исходных показателей к булевому типу и построении ре шающих функций алгебры логики.
Всем этим методам присущи следующие недостатки. При ограниченном объеме выборки невозможно надежно восстанавливать неизвестную произвольную функцию распределения вероятности в пространстве большого числа зависимых показателей (даже одного типа).
Введение одного или другого типа «расстояния», как того требует метрический подход, при разнотипных показателях методологически никак не обосновывается. Определение же набора оптимальных значений информационных показателей (как этого требует данный подход) сводится к решению сложной задачи математического программирования.
Тестовый и логический подходы, требующие предварительного сведения всех показателей к одному типу, всегда связаны с потерей информации. Иногда эта потеря может быть очень существенной. Кроме того, тестовый подход предполагает значительную вычислительную работу, что делает его практически неприменимым для большого числа показателей.
Кроме того, метрические, тестовые и логические методы не позволяют оценить по малой обучающей выборке статистическую устойчивость получаемых решений.
OM, разработанный нами, в значительной степени лишен MUJIoiiiiiiix недостатков. Суть его состоит в построении таких ИЧРОИИХ утверждений (сочетаний) на множество показате-piкоторые выполняются, как правило, на реализациях одно-, oflpaunи не выполняются на реализациях других образов. Щчоскио утверждения конструируются с учетом типа показа-|Ni Причем в любой количественный или качественный пока-UJIti нходит сочетание в виде некоторого условного интерва-r, границы которого зависят от конкретных значений других КМШП'олей этого сочетания. Пусть, например, логические ут-|рждония строятся только на двух показателях: Хг — боль в Ном плечевом суставе (булевый показатель); Х2 — гепариновой число (количественный показатель). Тогда, если первый по-Щшатоль принимает значение Хг = 0 (боль отсутствует), наи-[учший условный интервал для показателя Х2 3 < Х2 > 5. ,,10 если Х1 = 1, то больше подойдет интервал Х2 > 4. Из ука-|||ниых двух сочетаний выбирается наилучшее исходя из кри-качества сочетания.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.