Unsupervised classification of text documents

Aparicio-Carrasco, Roxana K.

Publication

Unsupervised classification of text documents

Aparicio-Carrasco, Roxana K.

Abstract

The automatic extraction of knowledge from very large document collections is becoming an important issue in order to exploit the increasing available information stored in text form. A significant aspect of this extraction of knowledge consists in organize the collection into clusters of related documents; this task is known as unsupervised classification or clustering. As a result of preprocessing the collection using the vector space model, a vector representation of each document is obtained. The main characteristics of these vectors are their high dimensionality and sparsity. In this thesis we had studied and implemented algorithms for clustering large document collections, that fully exploit these characteristics. We propose a sparse representation of the document vectors stored in a relational database and developed SQL implementations of two different clustering algorithms: PAM and EM using Multinomial Naive Bayes Mixtures.
La extracción automática de conocimiento de grandes colecciones de documentos se esta convirtiendo en un asunto cada vez mas importante con el fin de explotar la creciente información disponible en forma de texto. Un aspecto importante de esta extracción de conocimiento consiste en organizar la colección en grupos de documentos relacionados; esta tarea es conocida como clasificación no supervisada o análisis de conglomerados. Como resultado de preprocesar la información usando el modelo de espacio vectorial se obtiene un vector como representación de cada documento. Las características principales de estos vectores son su gran dimensión y esparcidad. En esta tesis estudiamos e implementamos algoritmos para clasificación no supervisada de grandes colecciones de documentos, que explotan estas características. Proponemos una representación esparcida de los vectores de documentos almacenada en una base de datos relacional y desarrollamos implementaciones en lenguaje SQL de dos distintos algoritmos: PAM y EM usando mezclas de distribución Naive Bayes multinomial.