Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 7

Отметим, что в общем случае вычисление сингулярных значений является очень трудоемкой задачей, однако сильная разреженность матрицы термы- наДокументы позволяет использовать весьма эффективный алгоритм Ланкоша7 [6].

Трудоемкость операции классификации одного документа складывается из затрат на:

*  Вычисления оценки близости документа данной тематике (для каждой тематики)

 Поиск требуемой информации про каждый терм из описания тематики и документа

 Вычисление оценки близости двух термов

 Вычисление общей оценки близости документа тематике

*  Выбора наиболее близкой тематики

Общая трудоемкость классификации одного документа составляет порядка lDlavr lCllWlk) операций, где  — общее число тематик, Davr среднее количество термов в документе, — среднее количество термов в описании тематики, — число термов в общем словаре, К — размерность пространства гипотез (число используемых сингулярных значений матрицы термы- наДокументы).

Описанный нами подход требует значительных вычислительных ресурсов на подготовительном этапе, однако собственно классификация требует значительно меньших ресурсов. Так, во время проведения наших экспериментов, на компьютере с процессором PII—350 и 128 МЬ оперативной памяти под управлением ОС Linux подготовительный этап занимал несколько часов машинного времени, а производительность системы достигала 32 документов в секунду. Такая скорость классификации показывает возможность применения разработанного метода для работы с потоковой информацией.

5.2 Настройка метода

В рамках описанного выше базового подхода для получения лучшего качества классификации в конкретных приложениях полезной оказывается дополнительная настройка метода.

• Выбор функии оценки близости документа и тематики

Для вычисления общей оценки близости документа тематики мы опробовали несколько схем, из которых, в рамках наших экспериментов наилучшие результаты показала представленная в разделе 3.2 схема.

7

В рамках наших экспериментов мы использовали реализацию алгоритма Ланкоша из распространяемого свободно пакета SVDPACk.

Однако при работе со слишком маленькими или слишком большими документами (содержащими менее 20 или более 1000 различных термов), эта схема дает сбои. В таких ситуациях лучше работает следующая оценка:

          Goodness(C, d) — (2)

Указанных документов достаточно мало и они не несут большого объема информации, поэтому, мы выкинули их из рассмотрения для упрощения эксперимента, однако сам этот факт говорит о проблеме поиска универсальной формы.

• Выбор размера описания коллекции

Как уже отмечалось в п. 3.1.1 нам необходимо всего несколько термов для описания коллекции, однако оптимальное количество так и не выяснено в экспериментах мы использовали п = 10, и даже такие малекњкие описания дали достаточно хороший результат. Нами рассматривались и другие схемы получения описаний, однако, учитывая спещтфику задачи, описанный метод оказался оптимальным.

• Выбор документов для задания коллекции

Набор документов используемых для задания тематики коллекции в значительной степени определяет набор слов, которые будут использоваться в качестве описания данной коллекции, а также косвенно влияет на описания других коллекций.

Кроме этого весь набор документов, используемых для задания тематик, также определяет общий словарь и задает функцию тематической близости. В общем случае довольно сложно собрать достаточный набор документов для получения хорошего начального описания для всех тематик. Однако в процессе работы возможно расширение наборов документов, описывающих тематики, для того чтобы уточнить описание тематик, и, как следствие, улучшить общее качество классификации.

5.3 Дальнейшее улучшение качества

Для дальнейшего улучшения качества классификации мы планируем исследовать ряд идей:

• Многоуровневая классификация

Много трудностей при классификации вызвано тем фактом, что некоторые тематики значительно ближе друг к другу, чем в среднем. Как следствие, в общем тематическом пространстве описания таких тематик слишком похожи друг на друга, что ухудшает результаты классификации.