Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 9

9T0, Pe3YJ1bTaTb1 9KcnepMMeHT0B 110Ka3b1BaK)T BblCOKOe Ka-

[15]

T. Landauer, P. Foltz, and D. Laham. Discourse

-qeCTBO K.naCCÞ1(þÞIKaunn       

Processes, volume 25, chapter "An introduction to

npeA.noxeHHoro 110ZÞ<0Aa.

Ilpn OTHOCWreJ1bHO BblCOKMX BblHMCJIMTeJ1bHb1X 3ærparrax

Latent Semantic Analysys' , pages 259—284. 1998.

Ha 110APOTOBWreJ1bHOM 9Tane npeA.naraeMb1ìi MeTOA He Tpe-

[16]

D. Lewis and M. Ringuette. A comparison of two

6yer 3HaHWreJ1bHb1X pecypcoB    caM0ìi K.naCCM(þMKaunn.

learning algorithms for text categorisation. In Proc. of

TaKMM 06pa30M MeTOA 11PMMeHMM                     K.naCCÞ1(þÞIKaunn no-

the Third Annual Symposium on Document Analysys

TOKOB

and Information Retrieval, pages 81—93, 1994.

[17]

R. Papka and J. Allan. Document classification using multiword features. In G. Gardarin, J. French,

[1] Latent Semantic Indexing and TREC-2. In D. Harman,

N. Pissinou, K. Makki, and L. Bouganim, editors,

Proceedings of the ACM International Conference on

editor, The Second Tect REtrieval Conference, 1994.

Information and Knowledge Management (CIKM-98),

[2] J. Allan.             Incremental relevance feedback.         In

pages 124-131, New York, Nov. 1998. ACM Press.

Proceedings of the 19th International Conference on

[18]

Scott A. Weiss, Simon Kasif, Eric Brill.                         Text

Research and Development in Information Retrieval

Classification in USENET Newsgroups: A Progress

(SIGIR '96), pages 298-306, Apr. 1996.

Report.

[3] J. Allan. Learning while filtering documents. In Proc.

[19]

Y. Yang and J. Pederson.                 Feature selection in

of SIGIR '98, Melbourne, Australia, 1998.

statistical learning of text categorization. In Proc. of

[4] Andrei Z. Brooder, Steven C Glassman, Mark S. Manasse. Syntactic Clustering of the Web. In Proc.

the ICML '97, pages 412-420, 1997.

[8]  Daphen, Koller and Mehran, Sahami. Hierarchically classifying documents using very few words.

[9]  S. Dumais. Improving the retrieval of information from external sources. 23:229—236, 1991.

[10]  S. Dumais. Latent Semantic Indexing: TREC-3 Report. In The Third Tect REtrieval Conference, 1995.

[11]  Ellen M. Voorhees, Donna Harman. Overview of the Sixth Text REtrieval Conference (TREC-6). In Tect RBtTieval Conference, 1998.

[12]  P. Foltz. Using Latent Semantic Indexing for information filtering. In R. Allen, editor, ACM Conference on Office Information Systems (COIS), pages 40—47, Cambridge, 1990.

[13]  F. llander, J. Palm, and E. Fahraus. The private filtering news agent. Feb. 1997.

[14]  T. Joachims. A probabilistic analysis of the rochio algorithm with TFIDF for text categorization. In Proc. of the International Conference on Machine Learning (ICML), 1997.



[1] Проект OASIS (Ореп Architecture Server for Information Server and Delivery) занимается разработкой архитектуры распределенной поисковой системы на базе тематических коллекций. Дополнительная информация о проекте общедоступна в Интернет по адресу HHH.oasis-europe . org .

[2] LSA — Latent Semantic Analisys зSVD — Singular-value decomposition

[3] Поскольку эксперименты проводились с англоязычными документами, то и приведены английских стоп-слов. Русскими стопсловами являются, например: Да, нан, мы, или.

[4] Процент документов, использовавшихся для задания тематики, изменялся от 7% до 2670 в зависимости от общего числа доступных документов на данную тему.

[5] Первая тематика в соответствующем этому документу упорядоченном списке.