КОМБІНОВАНИЙ ІЄРАРХІЧНИЙ ПІДХІД ДО  КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ

T. B. Shatovska; I. V. Kamenieva

Authors

T. B. Shatovska Харківський національний університет радіоелектроніки
I. V. Kamenieva Харківський національний університет радіоелектроніки

Keywords:

text mining, data mining, dendogramms, k-means, hierarchical clusterization, vector model, cosine measure

Abstract

In this article we present integrated hieratical approach of text classification, based on dendrogramme and k-means clusterizations on computer. This approach allows us to present the computer-integrated new method of hierarchical clusterization, which can classify the amounts of classes given without a preliminary task, which allows keep structure documents on a computer. This approach is based on two methods related to the area text and data mining. The first stage is preprocessing of documents, as a result, time is reduced and a accurate result is calculated. The second stage is the use of vectorial model which allows expressly to define meaningfulness of words in a document. Then we use a hierarchical clusterization. It includes dendrogramms and k-means. Dendrogram method allows preliminary to define the amount of clusters (folders), the method of k-means attributes documents to certain clusters. The finishing stage is application of method of dendrogramms for creation of hierarchical sequence of documents into every cluster (folders).

Author Biographies

T. B. Shatovska, Харківський національний університет радіоелектроніки

доцент кафедри програмного забезпечення електронних обчислювальних машин

I. V. Kamenieva, Харківський національний університет радіоелектроніки

студентка

References

1. Ліфшиц Ю. Автоматична класифікація текстів [Електронний ресурс] : [лекція з Data Mining] / Ю. Ліфшиц // Алго-ритми для Інтернету : (лекція №6). — Осінь, 2006. — Режим доступу до лк.: http://logic.pdmi.ras.ru/~yura/internet/06ia.pdf — Назва з екрану.
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html

Complex hierarchical approach for document clusterization

Authors

Keywords:

Abstract

Author Biographies

T. B. Shatovska, Харківський національний університет радіоелектроніки

I. V. Kamenieva, Харківський національний університет радіоелектроніки

References

Downloads

Published

How to Cite

Issue

Section

Metrics

Downloads

License

Language

Make a Submission

Information

Visitors

Current Issue