КОМБІНОВАНИЙ ІЄРАРХІЧНИЙ ПІДХІД ДО КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ

Автор(и)

  • Т. Б. Шатовська Харківський національний університет радіоелектроніки
  • І. В. Каменєва Харківський національний університет радіоелектроніки

Ключові слова:

техt mіnіng, dаtа mіnіng, дендрограма, к-середніх, ієрархічна кластеризація, векторна модель, соsіnе mеаsurе

Анотація

Запропоновано інтегрований ієрархічний підхід до класифікації тексту, заснований на дендрограмі та k-середніх кластеризаціях. Цей підхід дозволяє нам подати інтегрований новий метод ієрархічної кластеризації, який може класифікувати дані без попереднього задавання кількості класів, що дозволяє структуровано зберігати документи на комп'ютері. Цей підхід засновано на двох методах, які відносяться до області text і data mining. Першим етапом є попереднє оброблення документів, внаслідок чого скорочується час і якісно обчислюється результат. Другим етапом є використання векторної моделі, яка дозволяє чітко визначити значущість слів у документі. Використано ієрархічну кластеризацію, в яку входять два методи дендрограма і k-середніх. Метод дендрограми дозволяє заздалегідь визначити кількість кластерів (тек), метод k-середніх відносить документи до певних кластерів. Завершальним етапом є використання методу дендрограми для створення ієрархічної послідовності документів усередині кожного кластера (теки).

Біографії авторів

Т. Б. Шатовська, Харківський національний університет радіоелектроніки

доцент кафедри програмного забезпечення електронних обчислювальних машин

І. В. Каменєва, Харківський національний університет радіоелектроніки

студентка

Посилання

1. Ліфшиц Ю. Автоматична класифікація текстів [Електронний ресурс] : [лекція з Data Mining] / Ю. Ліфшиц // Алго-ритми для Інтернету : (лекція №6). — Осінь, 2006. — Режим доступу до лк.: http://logic.pdmi.ras.ru/~yura/internet/06ia.pdf — Назва з екрану.
2. Bellot P. Query Length, Number of Classes and Routes through Clusters :Experiments with a Clustering Method for Information. [Електронний ресурс] : (In Proceedings of IEEE ICSC’99) / P. Bellot, M. El-Beze // Springer-Verlag — Berlin, Heidelberg, 1999. — Р. 196–205. — Режим доступу до статті: http://wotan.liu.edu/docis/dbl/icscic/1999__196_QLNOCA.htm
3. Zoubin Ghahramani. Unsupervised Learning [Електронний ресурс] : [Data Mining vs Machine learning]: (Machine Learning, Proceedings of the Twenty-Fourth International Conference) / Zoubin Ghahramani // ICML — Corvalis, Oregon, USA — 2007.— Режим доступу до статті:http://www.gatsby.ucl.ac.uk/~zoubin/course05/ul.pdf
4. Lewisand D. Acomparison of two learning algorithms for text categorization [Електронний ресурс] : (In Third Annual Symposium on Document Analysis and Information Retrieval)/ David D. Lewisand, M. Ringuette // 1994. — Р. 81—93. — Режим доступу до статті : http://www.research.att.com/~lewis/papers/lewis94b.ps.
5. Porter M. F. An algorithm for suffix stripping [Електронний ресурс] : [Text retrieval] / M. F. Porter // Program – 1980. — №4(3). — Р. 130—137. — Режим доступу до статті: http://tartarus.org/~martin/PorterStemmer/def.txt . — Назва з екрану.
6. Everitt B. Cluster Analysis [english] / B. Everitt. — NewYork : Wiley,1993. — 283 p. — Heinemann Educational Books LTD. — Бібліогр. в підрядк. Прим. — ISBN 034057237X / 9780340572375 / 0-340-57237-X
7. Чубукова І. А. Методи кластерного аналіза. Ієрархічні методи [Електронний ресурс]: (INTUIT.ru::Інтернет-Університет Інформаційних Технологій. Дистанційна освіта. — 2003-2008)/ І. А. Чубукова // Data Mining : (лекція № 13). — 2006. — Режим доступу до лк.:http://www.intuit.ru/department/database/datamining/13/2.html
8. Bradley, P. S. Constrained k-means clustering [Електронний ресурс] / Bradley, P. S., Bennett, K. P. Demiriz, A. // Microsoft Research. MSR-TR-2000-65. 2000. — Redmond, W. A. — Режим доступу до статті.: http://www.litech.org/~wkiri/Papers/wkiri.html

##submission.downloads##

Переглядів анотації: 318

Опубліковано

2010-11-12

Як цитувати

[1]
Т. Б. Шатовська і І. В. Каменєва, «КОМБІНОВАНИЙ ІЄРАРХІЧНИЙ ПІДХІД ДО КЛАСТЕРИЗАЦІЇ ДОКУМЕНТІВ», Вісник ВПІ, вип. 1, с. 47–50, Листоп. 2010.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.