Publication:
Componentes principales supervisados para clasificación de datos de expresión genética

Thumbnail Image
Authors
Porras-Cerrón, Jaime C.
Embargoed Until
Advisor
Acuña-Fernández, Edgar
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2005
Abstract
The gene expression data obtained through the technology of microarrays are characterized by its considerably greater amount of features in comparison to the number of observations. The direct use of traditional statistics techniques of supervised classification can give poor results in gene expression data. Therefore before analyzing this type of data is advisable to perform a dimension reduction. The present work combines two types of dimensional reduction techniques: feature selection and feature extraction. In the first step of the proposed method feature selection is applied, and in the second step principal components are formed with the selected features. This technique is called Supervised Principal Components (SPC). Three classifiers are applied to these components and the misclassification error is estimated. Two algorithms of SPC are presented; they essentially, differ in the time in which the feature selection is made. Finally, the results of this new technique are applied to nine gene expression data sets.

Los datos de expresiones genéticas obtenidos a través de la tecnología de microarreglos tienen como característica principal contar con una cantidad considerablemente mayor de variables en comparación al número de observaciones. En estos casos utilizar directamente técnicas estadísticas tradicionales de clasificación supervisada puede brindar resultados poco satisfactorios. Por esta razón es recomendable realizar una reducción de dimensionalidad, antes de analizar este tipo de datos. El presente trabajo combina dos formas de reducción de dimensionalidad: selección de variables y extracción de variables. Como primer paso del método propuesto, se realiza una selección de variables (se usaron diferentes procedimientos) para posteriormente, con las variables seleccionadas, formar Componentes Principales, los cuales son llamados Componentes Principales Supervisados (CPS). A estos componentes se les pueden aplicar distintos clasificadores para obtener finalmente el error de mala clasificación. Se presentan dos algoritmos de CPS, que esencialmente, se diferencian en el momento en que se hace la selección de variables. Finalmente, se muestran los resultados de esta nueva técnica aplicada a nueve conjuntos de datos de expresión genética.
Keywords
Datos de expresión genética
Cite
Porras-Cerrón, J. C. (2005). Componentes principales supervisados para clasificación de datos de expresión genética [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2000