Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 2

Латентно-семантический анализ (LSA [2] ) — это теория и метод для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных [15]. В течении нескольких последних лет этот метод не раз использовался как в области поиска информации [1, 10], так и в задачах фильтрования и классификации [12].

Латентно-семантический анализ основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степени позволяют определить похожесть смысловых значени:й слов и множеств слов между собой.

Наиболее распространенный вариант LSA основан на использовании разложения матрицы по сингулярным значениям (SVD 3 ) [7]. Огромная исходная матрица термы-на-Дтсументы, которая описывает используемый набор данных, разлагается во множество из К, обычно от 70 до 200, ортогональных матриц, лжейная комбинация которых является неплохим приближением исходной матрицы.

Более формально, любая прямоугольная матрица Х, например матрица термы- на- Документы размерности t х d, может быть разложена в произведение трех других матриц:

                                                                            (1)

таких, что матрицы U и V состоят из ортонормированных колонок, Е — диагональная матрица, а — это ранг матрицы Х. Такое разложение и называется разложением по сингулярным значениям.

Если в Е оставить только К наибольших сингулярных значений и выбрать только соответствующие колонки в матрицах U и У, то произведение получившихся матриц Elsa, Ulsa и Vlsa будет наилучшим приближением ИСХОДной матрицы Х матрицей ранга К:

Х = Х = UlsaElsaVlsa

Основная идея латентно-семантического анализа в том, что матрица Х , содержащая только К первых штейно независимых компонент Х, отражает основную структуру ассоциативных зависимостей присутствующих в исходной матрице, в то же время не содержит шума.

Таким образом каждый терм и документ представляются при помощи векторов в общем пространстве размерности К (так называемом пространстве гипотез) . Близость между любой комбинацией термов и или документов может быть легко вычислена при помощи скалярного произведения векторов.

Выбор наилучшей размерности К для LSA — открытая исследовательская проблема. В идеале, К должно быть достаточно велико для отображения всей реально существующей структуры данных, но в то же время достаточно мало чтобы не захватить случаиные и маловажные зависимости. Если выбранное К слишком велико, то метод теряет свою мощь и приближается по характеристикам к стандартным векторным методам. Слишком малекњкое К не позволяет улавливать различия между похожими словами или документами. Исследования показывают, что с ростом К качество сначала возрастает, а потом начинает падать [9].

З Классификация с учетом семантической близости слов

В рамках этой работы мы рассматриваем классическую задачу классификации документов по заданному набору тематик О [5, 19, 16, 14, 17]. Задача состоит в определении для каждого поступающего в систему документа одной (или нескольких) тематик к которым этот документ относится. Отметим, что в отличие от задачи фильтратщи документов [12], здесь подразумевается что, в системы не поступает ”мусор”, т.е. что каждый из рассматриваемых документов в действительности относится хотя бы к одной из заданных тематик.

Все методы классификации используют один и тот же обобщенный алгоритм, который состоит из следующих этапов:

е задания [построения описаний для всех тематик е построения описания рассматриваемого документа е вычисления оценок близости между описаниями тематик и описанием документа и выбора наиболее близких тематик

Методы реализации этих этапов и отличают один метод классификации от другого.

3.1 Описания тематик и документов