Show simple item record

dc.contributor.advisorAcuña-Fernández, Edgar
dc.contributor.authorDíaz-Hernández, Sindy
dc.date.accessioned2019-04-15T15:50:41Z
dc.date.available2019-04-15T15:50:41Z
dc.date.issued2007
dc.identifier.urihttps://hdl.handle.net/handle/20.500.11801/1978
dc.description.abstractThe technology of microarrays introduced in the middle of the nineties allow the analysis of the gene expression levels of thousands of genes simultaneously. The identification of genes with an expression level very different to the others is crucial to identify the possible causes of certain illness and it permits to create a treatment for its cure. Due to many reasons related to the microarray technology is common to find missing values in the gene expression matrix. Other characteristic of the gene expression matrix is its high dimensionality. That is, it has a very large number of columns representing the genes, and few rows representing the arrays that are coming from samples taken to patients. The imputation of missing values is absolutely necessary for the application of several tasks of Data Mining and Knowledge Discovery in Bioinformatics. One of there tasks is the identification of differentially expressed genes. There are several imputation methods for this kind of data. Unfortunately, most of them have been tested in one or two datasets, and until now there is not a general evaluation of the imputation methods. In this thesis, a comparison of five methods for imputation of gene expression data is carried out. Six well known gene expression data related to cancer are used. The comparison is done using two criterion: the normalized root mean squared error (NRMSE) and the percentage of differential expressed genes lost after the imputation. Finally, a recommendation on the use of the imputation methods is given, and an explanation of such recommendation is discussed.en_US
dc.description.abstractLa tecnología de microarreglos, introducida en la mitad de la década de los 90, permite que se pueda analizar simultáneamente los niveles de expresión genética de miles de genes. La identificación de los genes con un nivel de expresión muy diferente a los otros genes es crucial en medicina para determinar las posibles causas de una enfermedad y poder establecer un tratamiento para su cura. Debido a varias razones relacionadas a la tecnología del microarreglo es común que haya valores faltantes en la matriz de expresión genética. Otra característica peculiar de la matriz de expresión genética es su alta dimensionalidad. Es decir, tiene un gran número de columnas, representando los genes, y pocas filas, representando los arreglos que resultan de muestras tomadas en pacientes. La imputación de los valores faltantes se hace absolutamente necesaria para la aplicación de tareas de minería de datos y descubrimiento del conocimiento en Bioinformática. Una de estas tareas es la identificación de genes diferencialmente expresados. Hay varios métodos de imputación especializados para este tipos de datos. Desafortunadamente, muchos de estos métodos han sido probados en uno o dos conjuntos de datos y hasta ahora no se ha hecho una evaluación mas general de los mismos. En esta tesis se compararán experimentalmente cinco métodos de imputación de datos faltantes en matrices de expresión genética usando seis conjuntos de datos de expresión genética, todos ellos relacionados con cáncer y bien conocidos en la literatura genómica. Para ello usamos dos criterios: la raíz cuadrada del cuadrado medio del error normalizada (NRMSE) y el porcentaje de genes diferencialmente expresados que dejan de ser identificados después de hacer la imputación. Al final se hace una recomendación acerca del uso de los métodos de imputación y se trata de justificar dicha recomendación.en_US
dc.description.sponsorshipA la oficina de Investigación Naval (ONR) por el apoyo económico recibido a través de Grant N0014-03-0359. Al Departamento de Defensa por el apoyo económico parcial recibido a través del Grant N0014-06-1-0555.en_US
dc.language.isoSpanishen_US
dc.subjectMicroarraysen_US
dc.titleEvaluación de métodos de imputación para datos de expresión genéticaen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2007 Sindy Díaz-Hernándezen_US
dc.contributor.committeeSaito, Tokuji
dc.contributor.committeeQuintana-Díaz, Julio C.
dc.contributor.representativeFerrer, Mercedes
thesis.degree.levelM.S.en_US
thesis.degree.disciplineMathematical Statisticsen_US
dc.type.thesisThesisen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationYear2007en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record