Информатика и выч. техника \ Архитектура ЭВМ и систем

Автоматическая классификация документов на основе латентно-семантического анализа. Латентно-семантический анализ (LSA), страница 9

9T0, Pe3YJ1bTaTb1 9KcnepMMeHT0B 110Ka3b1BaK)T BblCOKOe Ka-	[15]	T. Landauer, P. Foltz, and D. Laham. Discourse
-qeCTBO K.naCCÞ1(þÞIKaunn		Processes, volume 25, chapter "An introduction to
npeA.noxeHHoro 110ZÞ<0Aa. Ilpn OTHOCWreJ1bHO BblCOKMX BblHMCJIMTeJ1bHb1X 3ærpa^rrax		Latent Semantic Analysys' , pages 259—284. 1998.
Ha 110APOTOBWreJ1bHOM 9Tane npeA.naraeMb1ìi MeTOA He Tpe-	[16]	D. Lewis and M. Ringuette. A comparison of two
6yer 3HaHWreJ1bHb1X pecypcoB caM0ìi K.naCCM(þMKaunn.		learning algorithms for text categorisation. In Proc. of
TaKMM 06pa30M MeTOA 11PMMeHMM K.naCCÞ1(þÞIKaunn no-		the Third Annual Symposium on Document Analysys
TOKOB		and Information Retrieval, pages 81—93, 1994.
	[17]	R. Papka and J. Allan. Document classification using multiword features. In G. Gardarin, J. French,
[1] Latent Semantic Indexing and TREC-2. In D. Harman,		N. Pissinou, K. Makki, and L. Bouganim, editors, Proceedings of the ACM International Conference on
editor, The Second Tect REtrieval Conference, 1994.		Information and Knowledge Management (CIKM-98),
[2] J. Allan. Incremental relevance feedback. In		pages 124-131, New York, Nov. 1998. ACM Press.
Proceedings of the 19th International Conference on	[18]	Scott A. Weiss, Simon Kasif, Eric Brill. Text
Research and Development in Information Retrieval		Classification in USENET Newsgroups: A Progress
(SIGIR '96), pages 298-306, Apr. 1996.		Report.
[3] J. Allan. Learning while filtering documents. In Proc.	[19]	Y. Yang and J. Pederson. Feature selection in
of SIGIR '98, Melbourne, Australia, 1998.		statistical learning of text categorization. In Proc. of
[4] Andrei Z. Brooder, Steven C Glassman, Mark S. Manasse. Syntactic Clustering of the Web. In Proc.		the ICML '97, pages 412-420, 1997.

[8] Daphen, Koller and Mehran, Sahami. Hierarchically classifying documents using very few words.

[9] S. Dumais. Improving the retrieval of information from external sources. 23:229—236, 1991.

[10] S. Dumais. Latent Semantic Indexing: TREC-3 Report. In The Third Tect REtrieval Conference, 1995.

[11] Ellen M. Voorhees, Donna Harman. Overview of the Sixth Text REtrieval Conference (TREC-6). In Tect RBtTieval Conference, 1998.

[12] P. Foltz. Using Latent Semantic Indexing for information filtering. In R. Allen, editor, ACM Conference on Office Information Systems (COIS), pages 40—47, Cambridge, 1990.

[13] F. llander, J. Palm, and E. Fahraus. The private filtering news agent. Feb. 1997.

[14] T. Joachims. A probabilistic analysis of the rochio algorithm with TFIDF for text categorization. In Proc. of the International Conference on Machine Learning (ICML), 1997.

[1] Проект OASIS (Ореп Architecture Server for Information Server and Delivery) занимается разработкой архитектуры распределенной поисковой системы на базе тематических коллекций. Дополнительная информация о проекте общедоступна в Интернет по адресу HHH.oasis-europe . org .

[2] LSA — Latent Semantic Analisys зSVD — Singular-value decomposition

[3] Поскольку эксперименты проводились с англоязычными документами, то и приведены английских стоп-слов. Русскими стопсловами являются, например: Да, нан, мы, или.

[4] Процент документов, использовавшихся для задания тематики, изменялся от 7% до 2670 в зависимости от общего числа доступных документов на данную тему.

[5] Первая тематика в соответствующем этому документу упорядоченном списке.

1 2 3 4 5 6 7 8 9

Скачать файл