Publication:
Evaluación de métodos de imputación para datos de expresión genética

Thumbnail Image
Authors
Díaz-Hernández, Sindy
Embargoed Until
Advisor
Acuña-Fernández, Edgar
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2007
Abstract
The technology of microarrays introduced in the middle of the nineties allow the analysis of the gene expression levels of thousands of genes simultaneously. The identification of genes with an expression level very different to the others is crucial to identify the possible causes of certain illness and it permits to create a treatment for its cure. Due to many reasons related to the microarray technology is common to find missing values in the gene expression matrix. Other characteristic of the gene expression matrix is its high dimensionality. That is, it has a very large number of columns representing the genes, and few rows representing the arrays that are coming from samples taken to patients. The imputation of missing values is absolutely necessary for the application of several tasks of Data Mining and Knowledge Discovery in Bioinformatics. One of there tasks is the identification of differentially expressed genes. There are several imputation methods for this kind of data. Unfortunately, most of them have been tested in one or two datasets, and until now there is not a general evaluation of the imputation methods. In this thesis, a comparison of five methods for imputation of gene expression data is carried out. Six well known gene expression data related to cancer are used. The comparison is done using two criterion: the normalized root mean squared error (NRMSE) and the percentage of differential expressed genes lost after the imputation. Finally, a recommendation on the use of the imputation methods is given, and an explanation of such recommendation is discussed.

La tecnología de microarreglos, introducida en la mitad de la década de los 90, permite que se pueda analizar simultáneamente los niveles de expresión genética de miles de genes. La identificación de los genes con un nivel de expresión muy diferente a los otros genes es crucial en medicina para determinar las posibles causas de una enfermedad y poder establecer un tratamiento para su cura. Debido a varias razones relacionadas a la tecnología del microarreglo es común que haya valores faltantes en la matriz de expresión genética. Otra característica peculiar de la matriz de expresión genética es su alta dimensionalidad. Es decir, tiene un gran número de columnas, representando los genes, y pocas filas, representando los arreglos que resultan de muestras tomadas en pacientes. La imputación de los valores faltantes se hace absolutamente necesaria para la aplicación de tareas de minería de datos y descubrimiento del conocimiento en Bioinformática. Una de estas tareas es la identificación de genes diferencialmente expresados. Hay varios métodos de imputación especializados para este tipos de datos. Desafortunadamente, muchos de estos métodos han sido probados en uno o dos conjuntos de datos y hasta ahora no se ha hecho una evaluación mas general de los mismos. En esta tesis se compararán experimentalmente cinco métodos de imputación de datos faltantes en matrices de expresión genética usando seis conjuntos de datos de expresión genética, todos ellos relacionados con cáncer y bien conocidos en la literatura genómica. Para ello usamos dos criterios: la raíz cuadrada del cuadrado medio del error normalizada (NRMSE) y el porcentaje de genes diferencialmente expresados que dejan de ser identificados después de hacer la imputación. Al final se hace una recomendación acerca del uso de los métodos de imputación y se trata de justificar dicha recomendación.
Keywords
Microarrays
Cite
Díaz-Hernández, S. (2007). Evaluación de métodos de imputación para datos de expresión genética [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1978