Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 8

Для решения этой проблемы мы предполагаем использовать многоуровневый подход:

1.  обнаруженные группы очень близких тематик объединяются в мегатематики

2.  производится классификация по полученному множеству мегатематик

З. для каждой мегатематики производится дополнительная классификация попавших в нее Предварительные эксперименты показывают, что такой подход позволяет значительно повысить точность классификации на этапе классификации по мегатематикам .

Однако, поскольку описываемый метод классификации требует использования нескольких тысяч документов для построения функции семантической близости термов, то применение его для классификации в рамках небольшой мегатематики затруднено. Использование же функции семантической близости термов построенной на этапе классификации мегатематик не дает должного эффекта в силу резкого сужения общего тематического поля.

Возможно, что хорошие результаты покажет гибридный подход — использование для классификации в рамках мегатематики другого метода классификции.

 Учет обратной связи

Перспективным методом улучшения качества классификации является учет комментариев пользователей системы для уточнения описаний тематик и функции тематической близости. Такой подход называется месаНИзмом обратной связи (releXvXance feedback) и привлекает много внимания в научной литературе в течении нескольких лет [2, З].

 Лучшие методы построения описаний тематик

В результатах наших экспериментов выяснилось, что, при используемом нами способе вычисления общей оценки близости документа и тематики, наилучшие результаты получаются при относительно небольшом размере описания. И выбор этих нескольких термов оказывает значительное влияние на общее качество классификации.

На данном этапе наших исследований мы использовали достаточно простой алгоритм для отбора термов в описание коллекции, и весьма вероятно, что полученные таким способом описания не являются оптимальными. В качестве теста на качество описаний можно использовать результаты тестовой классификации документов, используемых для задания тематик, по построенным описаниям.

6 Заключение

В этой работе рассматривается задача классификации множества документов по заданным тематикам, каждая из которых задается некоторым набором относящихся к данной тематике документов.

Предложеный метод классификации оштрается на использование латентно-семантического анализа для выделения семантических зависимостей между термами.

Для экспериментальной проверки предлагаемого метода использовалась обширная экспериментальная база, построенная на основе стандартных наборов данных и экспертных оценок предоставляемых Text REtrieval Conference. Классификация более чем 25000 документов проводилась по 104 тематикам.

В отличие от большинства известных работ, используемые в наших экспериментах тематики зачастую являются довольно близкими и рассматриваемые документы могут относится сразу к нескольким из них. Несмотря на


документов of Sixth International World Wide Web Conference (www-6), 1996.

[5]  L. D. Baker and A. K. McCallum. Distributional clustering of words for text classification. In Proceedings of the 21st Annual International ACM

SIGIR Conference on Research and Development in Information Retrieval, Categorisation, pages 96—103, 1998.

[6]  M. Berry. Large scale singular value computations. International Journal of Supercomputer Applications, 1992.

[7]  J. Cullum and R. Willougby. Lanczos algorithms for large symmetric eigenvalue computations, volume 1, chapter "Real rectangular matrix". Brikhauser, Boston, 1985.