В рамках этой работы мы основывались на предположении, что тематика документа определяется его словарным запасом. При этом естественно предположить, что различные синтаксические формы одного и того же слова не отражаются на общей тематике документа и следовательно могут представляться единой базовой словоформой или термом. Кроме этого мы не рассматривали так называемые стоп-слова, наиболее употребительные слова, которые могут использоваться в документах любой тематики. Примерами таких слов являются такие слова как: yes, have, and[3]
В качестве описания документа используется все множество встречающихся в документе термов, за исключением общеупотребительных.
Тематики также представляются в системе наборами термов, однако эти наборы содержат не все употребляющиеся в данной тематике слова, а только небольшое, автоматически выбранное их подмножество.
Вообще, тематика в рамках рассматриваемого подхода задается относительно небольшим множеством относящихся к ней документов. Внутренее описание тематики в виде набора термов автоматически строится по результатам анализа этого множества документов, а также множества документов задающих остальные тематики системы.
Целью этого анализа является выявление отличий этой тематики по сравнению с другими и выбору термов, наилучшим образом подчеркивающих особенности этои тематики.
Выбор слов для описания каждой из тематик производится при помощи следующего алгоритма:
Построение общего словаря термов W: В этот словарь включаются все термы, которые используются хотя бы в одном из документов задающи:х тематики.
Вычисление вероятностных оценок: Для каждого терма ш е И7 вычисляется оценка вероятности его использования в документах данной тематики С:
C,d) шу |
Построение “тематических“ словарей: Для каждой тематики С строится ”тематический” словарь. В этот словарь попадают термы, вероятность использования которых в этой тематике превосходит вероятность их использования в любой другой тематике
Для каждого из отобранных термов вычисляется его значимость в рамках данной тематики:
TermProb3 (ш , С)
TermValue(w, С) —
Е TermProb(w, (76) 2
Отбор термов для описания: Значимость термов, полученная на предыдущем этапе, задает отношение порядка на каждом из ”тематических” словарей. Используя это отношение из ”тематического” словаря тематики, выбирается несколько термов для использования в качестве описания этой тематики.
Число тематических коллекций |
|
Среднее число документов в коллекции |
з 94 |
Общий размер коллекций (в документах) |
40970 |
Число различных документов в коллекциях |
25181 |
Среднее число коллекций, содержащих один и тот же документ |
1.6 |
Table 1: Характеристики данных построенных на основе коллекции LA Times TREC-5
Оптимальное количество термов для включения в описание зависит от конкретной задачи. Наши эксперименты показали, что с ростом числа термов качество классификации вначале улучшается, а потом начинаете ухудшаться. При этом оптимум достигается при небольшом размере описания — от 10 до 30 термов.
Как уже было сказано выше, описываемый подход основывается на предположении, что тематика документа определяется его словарным запасом.
В рамках этой работы мы определяем функцию FSR которая сопоставляет каждой паре термов оценку их тематической близости, т.е. вероятность их использования в документах одной тематики. Оценка тематической близости документа и тематики определяется тематической близостью термов входящих в их описания.
В наших экспериментах мы рассмотрели несколько вариантов вычисления оценок близости документа и тематики. Наиболее эффективным оказалось вычисление оценки, как среднего арифметического попарных оценок тематической близости термов из описаний документа d и тематики С е О •
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.