Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 9

9T0, Pe3YJ1bTaTb1 9KcnepMMeHT0B 110Ka3b1BaK)T BblCOKOe Ka-


T. Landauer, P. Foltz, and D. Laham. Discourse

-qeCTBO K.naCCÞ1(þÞIKaunn       

Processes, volume 25, chapter "An introduction to

npeA.noxeHHoro 110ZÞ<0Aa.

Ilpn OTHOCWreJ1bHO BblCOKMX BblHMCJIMTeJ1bHb1X 3ærparrax

Latent Semantic Analysys' , pages 259—284. 1998.

Ha 110APOTOBWreJ1bHOM 9Tane npeA.naraeMb1ìi MeTOA He Tpe-


D. Lewis and M. Ringuette. A comparison of two

6yer 3HaHWreJ1bHb1X pecypcoB    caM0ìi K.naCCM(þMKaunn.

learning algorithms for text categorisation. In Proc. of

TaKMM 06pa30M MeTOA 11PMMeHMM                     K.naCCÞ1(þÞIKaunn no-

the Third Annual Symposium on Document Analysys


and Information Retrieval, pages 81—93, 1994.


R. Papka and J. Allan. Document classification using multiword features. In G. Gardarin, J. French,

[1] Latent Semantic Indexing and TREC-2. In D. Harman,

N. Pissinou, K. Makki, and L. Bouganim, editors,

Proceedings of the ACM International Conference on

editor, The Second Tect REtrieval Conference, 1994.

Information and Knowledge Management (CIKM-98),

[2] J. Allan.             Incremental relevance feedback.         In

pages 124-131, New York, Nov. 1998. ACM Press.

Proceedings of the 19th International Conference on


Scott A. Weiss, Simon Kasif, Eric Brill.                         Text

Research and Development in Information Retrieval

Classification in USENET Newsgroups: A Progress

(SIGIR '96), pages 298-306, Apr. 1996.


[3] J. Allan. Learning while filtering documents. In Proc.


Y. Yang and J. Pederson.                 Feature selection in

of SIGIR '98, Melbourne, Australia, 1998.

statistical learning of text categorization. In Proc. of

[4] Andrei Z. Brooder, Steven C Glassman, Mark S. Manasse. Syntactic Clustering of the Web. In Proc.

the ICML '97, pages 412-420, 1997.

[8]  Daphen, Koller and Mehran, Sahami. Hierarchically classifying documents using very few words.

[9]  S. Dumais. Improving the retrieval of information from external sources. 23:229—236, 1991.

[10]  S. Dumais. Latent Semantic Indexing: TREC-3 Report. In The Third Tect REtrieval Conference, 1995.

[11]  Ellen M. Voorhees, Donna Harman. Overview of the Sixth Text REtrieval Conference (TREC-6). In Tect RBtTieval Conference, 1998.

[12]  P. Foltz. Using Latent Semantic Indexing for information filtering. In R. Allen, editor, ACM Conference on Office Information Systems (COIS), pages 40—47, Cambridge, 1990.

[13]  F. llander, J. Palm, and E. Fahraus. The private filtering news agent. Feb. 1997.

[14]  T. Joachims. A probabilistic analysis of the rochio algorithm with TFIDF for text categorization. In Proc. of the International Conference on Machine Learning (ICML), 1997.

[1] Проект OASIS (Ореп Architecture Server for Information Server and Delivery) занимается разработкой архитектуры распределенной поисковой системы на базе тематических коллекций. Дополнительная информация о проекте общедоступна в Интернет по адресу HHH.oasis-europe . org .

[2] LSA — Latent Semantic Analisys зSVD — Singular-value decomposition

[3] Поскольку эксперименты проводились с англоязычными документами, то и приведены английских стоп-слов. Русскими стопсловами являются, например: Да, нан, мы, или.

[4] Процент документов, использовавшихся для задания тематики, изменялся от 7% до 2670 в зависимости от общего числа доступных документов на данную тему.

[5] Первая тематика в соответствующем этому документу упорядоченном списке.