Complex hierarchical approach for document clusterization
Keywords:
text mining, data mining, dendogramms, k-means, hierarchical clusterization, vector model, cosine measureAbstract
In this article we present integrated hieratical approach of text classification, based on dendrogramme and k-means clusterizations on computer. This approach allows us to present the computer-integrated new method of hierarchical clusterization, which can classify the amounts of classes given without a preliminary task, which allows keep structure documents on a computer. This approach is based on two methods related to the area text and data mining. The first stage is preprocessing of documents, as a result, time is reduced and a accurate result is calculated. The second stage is the use of vectorial model which allows expressly to define meaningfulness of words in a document. Then we use a hierarchical clusterization. It includes dendrogramms and k-means. Dendrogram method allows preliminary to define the amount of clusters (folders), the method of k-means attributes documents to certain clusters. The finishing stage is application of method of dendrogramms for creation of hierarchical sequence of documents into every cluster (folders).References
1. Ліфшиц Ю. Автоматична класифікація текстів [Електронний ресурс] : [лекція з Data Mining] / Ю. Ліфшиц // Алго-ритми для Інтернету : (лекція №6). — Осінь, 2006. — Режим доступу до лк.: http://logic.pdmi.ras.ru/~yura/internet/06ia.pdf — Назва з екрану.
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html
Downloads
-
PDF (Українська)
Downloads: 355
Abstract views: 294
Published
2010-11-12
How to Cite
[1]
T. B. Shatovska and I. V. Kamenieva, “Complex hierarchical approach for document clusterization”, Вісник ВПІ, no. 1, pp. 47–50, Nov. 2010.
Issue
Section
Information technologies and computer sciences
License
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).