Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 6

Как и следовало ожидать, для документов класса К вероятность угадывания К указанных тематик из К автоматически выбранных резко падает. Стоит отметить устойчивое значительное (более 40%) увеличение этой вероятности для случая ” К из К + 1”.

4.3 Ошибки классификации

Для того, чтобы лучше понять как можно улучшить качество классификации мы исследовали некоторые из случаев в которых описываемый в данной работе метод дает сбои. Мы рассмотрим два основных класса ошибок классификащш: ложный выбор и промаши. ЛоЖНЫЙ выбор — это ситуация, когда метод слишком высоко оценивает тематики, не указанные экспертами как релевантные для рассматриваемого документа. Промаши это случаи, в которых указанные экспертами коллекции получали слишком низкие оценки.

4.3.1 Ложный выбор

Существует несколько разных причин по которым наилучшие оценки близости данному документу получают тематики, которые не были отмечены экспертами:

• неточные описания тематик

Описание тематики может быть слишком ”широким” и тогда документы из других тематик получают неоправданно высокие оценки релевантности.

Качество описания тематики зависит от множества параметров наборов документов используемых для описания всес тематик, алгоритма выбора слов для описания коллекции, и т.п. Построить идеальное начальное описание очекњ сложно, однако последовательное изменение описаний в процессе работы может помочь улучшить его качество.

• поглощение тематик

Из-за того, что для многих тематик в нашей экспериментальной базе существовали ”поглощающие” тематики (рис. 2), то соответствующие тематики зачастую портят друг другу результаты классифика-

• неполнота экспертных данных

Эксперты TREC указывали одну или несколько подходящих тематик для каждого документа, но TREC не гарантирует, что ими были указаны все подходящие тематики. На самом деле это зачастую не так. Конечно эта проблема проявляется исключитально при экспериментах с TREC и не является актуальной для работы с реальными данными.

4.3.2 Промахи

Хотя в большинстве случаев указанные экспертами тематики получали довольно высокие оценки при выполнении классификации, но для некоторых документов происходили заметные промахи.

Основной причиной промахов при классификации является некоторое различие тематики рассматриваемого документа и документов из группы, которая использовалась для задания тематики. Так, например, документ LA010190-0069, относящийся к тематике финансовых судебных разбирательств, содержит только небольшое описание махинаций золотодобывающей компании и информацию о размере выплат инвесторам. Поскольку использовавшиеся при описании данной тематики документы были в основном посвящены махинациям с акциями, то построенное описание плохо соответствовало этому документу.

По-видимому часть подобных проблем может быть исправлена во время работы системы за счет постепенного уточнения описаний тематик и функции тематической близости термов.

5 Обсуждение

Хотя проведенные эксперименты продемонстрировали перспективность предлагаемого подхода, они выявили ряд вопросов, требующих отдельного обсуждения.

5.1 Вычислительная трудоемкость

Применимость метода классификации к реальным задачам сильно зависит от его производительности, которая определяется его вычислительной трудоемкостью.

Вычислительные ресурсы затрачиваемые при использовании данного метода классификации делятся на два класса ресурсы, необходимые для единовременного проведения подготовительной работы, и ресурсы, необходимые для классификации отдельного документа.

Первая группа вычислительных затрат состоит из следующих компонент:

е Построение общего словаря И7 е Построение описаний тематик  Построение “тематических” словарей

 Выбор оптимального описания

*  Построение функции близости термов

 Построение матрицы термы на документы

 Нахождение К наибольших сингулярных значений матрицы термы-на-Документы