Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 3

В рамках этой работы мы основывались на предположении, что тематика документа определяется его словарным запасом. При этом естественно предположить, что различные синтаксические формы одного и того же слова не отражаются на общей тематике документа и следовательно могут представляться единой базовой словоформой или термом. Кроме этого мы не рассматривали так называемые стоп-слова, наиболее употребительные слова, которые могут использоваться в документах любой тематики. Примерами таких слов являются такие слова как: yes, have, and[3]

В качестве описания документа используется все множество встречающихся в документе термов, за исключением общеупотребительных.

Тематики также представляются в системе наборами термов, однако эти наборы содержат не все употребляющиеся в данной тематике слова, а только небольшое, автоматически выбранное их подмножество.

3.1.1 Построение описаний тематик

Вообще, тематика в рамках рассматриваемого подхода задается относительно небольшим множеством относящихся к ней документов. Внутренее описание тематики в виде набора термов автоматически строится по результатам анализа этого множества документов, а также множества документов задающих остальные тематики системы.

Целью этого анализа является выявление отличий этой тематики по сравнению с другими и выбору термов, наилучшим образом подчеркивающих особенности этои тематики.

Выбор слов для описания каждой из тематик производится при помощи следующего алгоритма:

Построение общего словаря термов W: В этот словарь включаются все термы, которые используются хотя бы в одном из документов задающи:х тематики.

Вычисление вероятностных оценок: Для каждого терма ш е И7 вычисляется оценка вероятности его использования в документах данной тематики С:

 C,d) шу

TermProb(w, С) —

Построение “тематических“ словарей: Для каждой тематики С строится ”тематический” словарь. В этот словарь попадают термы, вероятность использования которых в этой тематике превосходит вероятность их использования в любой другой тематике

Е TermProb(w, Ci) TermProb(w, С) >

Для каждого из отобранных термов вычисляется его значимость в рамках данной тематики:

TermProb3 (ш , С)

TermValue(w, С) —

Е TermProb(w, (76) 2

Отбор термов для описания: Значимость термов, полученная на предыдущем этапе, задает отношение порядка на каждом из ”тематических” словарей. Используя это отношение из ”тематического” словаря тематики, выбирается несколько термов для использования в качестве описания этой тематики.

Число тематических коллекций

Среднее число документов в коллекции

з 94

Общий размер коллекций (в документах)

40970

Число различных документов в коллекциях

25181

Среднее число коллекций, содержащих один и тот же документ

1.6

Table 1: Характеристики данных построенных на основе коллекции LA Times TREC-5

Оптимальное количество термов для включения в описание зависит от конкретной задачи. Наши эксперименты показали, что с ростом числа термов качество классификации вначале улучшается, а потом начинаете ухудшаться. При этом оптимум достигается при небольшом размере описания — от 10 до 30 термов.

3.2 Вычисление оценок близости

Как уже было сказано выше, описываемый подход основывается на предположении, что тематика документа определяется его словарным запасом.

В рамках этой работы мы определяем функцию FSR которая сопоставляет каждой паре термов оценку их тематической близости, т.е. вероятность их использования в документах одной тематики. Оценка тематической близости документа и тематики определяется тематической близостью термов входящих в их описания.

В наших экспериментах мы рассмотрели несколько вариантов вычисления оценок близости документа и тематики. Наиболее эффективным оказалось вычисление оценки, как среднего арифметического попарных оценок тематической близости термов из описаний документа d и тематики С е О •