Publication:
Unsupervised classification of text documents

dc.contributor.advisor Acuña-Fernández, Edgar
dc.contributor.author Aparicio-Carrasco, Roxana K.
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee González, Ana C.
dc.contributor.committee Urintsev, Alexander
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Hernández-Rivera, William
dc.date.accessioned 2019-04-15T15:50:41Z
dc.date.available 2019-04-15T15:50:41Z
dc.date.issued 2007
dc.description.abstract The automatic extraction of knowledge from very large document collections is becoming an important issue in order to exploit the increasing available information stored in text form. A significant aspect of this extraction of knowledge consists in organize the collection into clusters of related documents; this task is known as unsupervised classification or clustering. As a result of preprocessing the collection using the vector space model, a vector representation of each document is obtained. The main characteristics of these vectors are their high dimensionality and sparsity. In this thesis we had studied and implemented algorithms for clustering large document collections, that fully exploit these characteristics. We propose a sparse representation of the document vectors stored in a relational database and developed SQL implementations of two different clustering algorithms: PAM and EM using Multinomial Naive Bayes Mixtures. en_US
dc.description.abstract La extracción automática de conocimiento de grandes colecciones de documentos se esta convirtiendo en un asunto cada vez mas importante con el fin de explotar la creciente información disponible en forma de texto. Un aspecto importante de esta extracción de conocimiento consiste en organizar la colección en grupos de documentos relacionados; esta tarea es conocida como clasificación no supervisada o análisis de conglomerados. Como resultado de preprocesar la información usando el modelo de espacio vectorial se obtiene un vector como representación de cada documento. Las características principales de estos vectores son su gran dimensión y esparcidad. En esta tesis estudiamos e implementamos algoritmos para clasificación no supervisada de grandes colecciones de documentos, que explotan estas características. Proponemos una representación esparcida de los vectores de documentos almacenada en una base de datos relacional y desarrollamos implementaciones en lenguaje SQL de dos distintos algoritmos: PAM y EM usando mezclas de distribución Naive Bayes multinomial. en_US
dc.description.graduationYear 2007 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/1976
dc.language.iso English en_US
dc.rights.holder (c) 2007 Roxana K. Aparicio-Carrasco en_US
dc.rights.license All rights reserved en_US
dc.subject Unsupervised classification en_US
dc.title Unsupervised classification of text documents en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Scientific Computing en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE_AparicioCarrascoR_2007.pdf
Size:
427.33 KB
Format:
Adobe Portable Document Format
Description: