Информатика и выч. техника \ Архитектура ЭВМ и систем

Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA)

Страницы работы

8 страниц (Word-файл)

Посмотреть все страницы

Скачать файл

Содержание работы

Автоматическая классификация документов на основе латентно-семантического анализа

Санкт-Петербургский Государственный Университет

Abstract

В работе рассматривается задача автоматической классификации документов по множеству заданных тематик. Предлагаемый подход использует метод латентносемантического анализа для извлечения семантических зависимостей между термами. На основе этих зависимостей и происходит классификация документов.

Эксперименты на базе стандартных тестовых данных Text REtrieval Conference продемонстрировали перспективность предложенного подхода. Вычислительная трудоемкость метода на этапе классификации относительно невелика, что позволяет применять предлагаемый подход при классификации потоков документов.

1 Введение

В связи с бурным развитием Интернет все более актуальными становятся проблемы организации эффективного доступа к информации. В частности, в последние годы много внимания привлекает проблема автоматической классификации документов по определенному множеству тематических интересов.

В близком классе задач фильтрации документов [13, 12, З] главной целью является обнаружение потенциально интересующих пользователя документов, по описанико множества тематических интересов пользователя, за счет отсева прочих документов.

Особенностью задачи классификации является предположение, что классифицируемое множество документов не содержит ”мусора”, т.е. каждый из документов соответствует какой-нибудь из заданных тематик. В силу этой особенности, методы применяемые в задачах фильтрации показывают не лучшие результаты в области классификации. Поэтому проблеме классификации разнообразной динамической информации за последни:и несколько лет было посвящено много научных ра-

бот [4, 18, 8, 16, 19, 5, 17].

Эта работа выполнялась в рамках международного европейского проекта OASIS (номер контракта Р Г, 96 1116)

Первая Всероссийская научная конференция ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ:

ПЕРСПЕКТИВНЫЕ МЕТОДЫ И ТЕХНОЛОГИИ,

ЭЛЕКТРОННЫЕ КОЛЛЕКЦИИ

19 - 21 октября 1999 г., Санкт-Петербург

Большинство предложенных методов классификатщи [18, 13] основываются на использовании простой векторной модели описания документов (Vector Space M0del) — классической модели в области поиска информадии. В рамках этой модели документ описывается вектором, в котором каждому используемому в документе терму сопоставляется его значимость (вес) в рамках этого документа. Значимость терма основывается на статистической информации о встречаемости термов в рамках этого и возможно других документов. Описание тематики также представляется вектором и для оценки близости документа и тематики используется скалярное произведение векторов описания тематики и вектора документа.

В последние годы в задачах организации доступа к информации, в том числе и в области автоматической классификации, все больше внимания привлекают более сложные подходы, обеспечивающие лучшее качество [12,

Одним из перспективных направлений является применение латентно-семантического анализа (LSA) [15] для выявления структуры семантических взаимосвязей между используемыми словами, за счет статистического анализа большой группы документов. Благодаря этому становится возможным автоматически отличать разјшчные смысловые оттенки одного и того же слова в зависимости от контекста его использования. Отметим, что выявление семантической структуры при помощи латентно-семантического анализа происходит полностью автоматически и не требует ручного составления словарей, и т. п.

Мы занимались исследованием вопросов классификатщи документов в рамках проекта 0ASIS ^{^[1]}

Описываемый в этой работе метод основывается на применении латентно-семантического анализа [15]. Хотя предлагаемый подход и требует много вычислительных ресурсов на подготовительном этапе, на этапе классификации вычислительные затраты невелики, что позволяет использовать этот метод в системах автоматической классификации потоков документов.

Еще одной отличительной особенностью нашей работы является использование обширного тестового набора данных. Во многих опубликованных работах по классификции для экспериментов использовались малекњкие наборы данных (до 1000 документов), и или зачастую большая часть доступных данных использовалась на этапе настройки системы. Поэтому зачастую качество работы таких методов в реальных условиях оказывается значитально хуже качества продемонстрированого во время экспериментов [13] .

В наших экспериментах использовалось более 25000 документов относящихся к 104 тематикам. При этом многие тематики сильно перекрываются, т.е. один и тот же документ может относится сразу к нескольким тематикам.

Несмотря на сложность экспериментальной базы проведенные эксперименты показывают хорошее качество классификации с помощью описываемого метода и подтверждают перспективность предлагаемого подхода.

Далее статья организована следующим образом. В следующем разделе кратко излагаются основы латентносемантического анализа. В разделе З описывается базовая теоретическая основа метода, экспериментальная база и результаты экспериментов представлены в разделе 4. В последнем разделе обсуждаются вычислительные характеристики метода и возможности его дальнейшего улучшения.