Show simple item record

dc.contributor.advisorAcuña, Edgar
dc.contributor.authorAparicio-Carrasco, Roxana K.
dc.date.accessioned2019-04-15T15:50:41Z
dc.date.available2019-04-15T15:50:41Z
dc.date.issued2007
dc.identifier.urihttps://hdl.handle.net/handle/20.500.11801/1976
dc.description.abstractThe automatic extraction of knowledge from very large document collections is becoming an important issue in order to exploit the increasing available information stored in text form. A significant aspect of this extraction of knowledge consists in organize the collection into clusters of related documents; this task is known as unsupervised classification or clustering. As a result of preprocessing the collection using the vector space model, a vector representation of each document is obtained. The main characteristics of these vectors are their high dimensionality and sparsity. In this thesis we had studied and implemented algorithms for clustering large document collections, that fully exploit these characteristics. We propose a sparse representation of the document vectors stored in a relational database and developed SQL implementations of two different clustering algorithms: PAM and EM using Multinomial Naive Bayes Mixtures.en_US
dc.description.abstractLa extracción automática de conocimiento de grandes colecciones de documentos se esta convirtiendo en un asunto cada vez mas importante con el fin de explotar la creciente información disponible en forma de texto. Un aspecto importante de esta extracción de conocimiento consiste en organizar la colección en grupos de documentos relacionados; esta tarea es conocida como clasificación no supervisada o análisis de conglomerados. Como resultado de preprocesar la información usando el modelo de espacio vectorial se obtiene un vector como representación de cada documento. Las características principales de estos vectores son su gran dimensión y esparcidad. En esta tesis estudiamos e implementamos algoritmos para clasificación no supervisada de grandes colecciones de documentos, que explotan estas características. Proponemos una representación esparcida de los vectores de documentos almacenada en una base de datos relacional y desarrollamos implementaciones en lenguaje SQL de dos distintos algoritmos: PAM y EM usando mezclas de distribución Naive Bayes multinomial.en_US
dc.language.isoEnglishen_US
dc.subjectUnsupervised classificationen_US
dc.titleUnsupervised classification of text documentsen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2007 Roxana K. Aparicio-Carrascoen_US
dc.contributor.committeeGonzález, Ana C.
dc.contributor.committeeUrintsev, Alexander
dc.contributor.representativeHernández-Rivera, William
thesis.degree.levelM.S.en_US
thesis.degree.disciplineScientific Computingen_US
dc.type.thesisThesisen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationYear2007en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record