Publication:
Análisis sobre métodos de pruebas de hipótesis múltiple en la identificación de genes diferencialmente expresados
Análisis sobre métodos de pruebas de hipótesis múltiple en la identificación de genes diferencialmente expresados
Authors
Muñiz-Rivera, Lus M.
Embargoed Until
Advisor
Acuña-Fernández, Edgar
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2009-07
Abstract
The Human Genome Project is the most important reason for the surge of new technologies in the microarray area. These technologies facilitate the experimentation with a large number of genes simultaneously. These experiments allow, for example, to compare the genetic expressions between sick and healthy cells. One of the main goals in analysis of gene expression data from microarray experiments is the identification of genes differentially expressed. To accomplish this goal various methods are used. One of them is to use multiple testing establishing a null hypothesis of not association between the measure of gene expression and the response is tested for each gene. Due to the fact that in microarray experiments thousand of genes are considered, the same amount of tests must be considered. In this situation, the probability of error type I increases with the number of hypothesis. Thus, a p-value near zero can occur randomly due to the large number of hypothesis that are tested simultaneously and not because the gene is differentially expressed. In this thesis, we study methods for multiple testing on data coming from microarray experiments. We compare theoretically and experimentally ten multiple hypothesis testing methods on six gene expression data sets, which are freely available in the internet.
Con el Proyecto del Genoma Humano surgieron nuevas tecnologías, tales como los microarreglos que facilitan la ejecución de experimentos con un gran número de genes simultáneamente. Estos experimentos permiten, por ejemplo, comparar la expresión genética entre una célula sana y una enferma. Una de las principales metas en el análisis de datos de expresión de genes en experimentos de microarreglos es la identificación de genes diferencialmente expresados. Para alcanzar esta meta se han propuesto varios métodos, entre ellos, los métodos de prueba de hipótesis múltiple, los cuales establecen simultáneamente para cada gen una hipótesis nula de no asociación entre la medida de expresión de los genes y la respuesta. Pero debido a que los experimentos de microarreglos consideran miles de genes, la misma cantidad de pruebas ha de ser considerada. Por tanto la probabilidad de cometer un Error Tipo I aumenta con el número de hipótesis; pues, un p-value cercano a cero puede ser producto del azar debido al gran número de hipótesis que se prueban simultáneamente y no porque el gen sea diferencialmente expresado. En esta tesis, estudiamos métodos de prueba de hipótesis múltiple para datos de expresión genética provenientes de experimentos de microarreglos. Para ello examinamos y comparamos, teóricamente y experimentalmente diez métodos de prueba de hipótesis múltiple empleando seis conjuntos de datos de expresión genética, disponibles gratuitamente en la internet.
Con el Proyecto del Genoma Humano surgieron nuevas tecnologías, tales como los microarreglos que facilitan la ejecución de experimentos con un gran número de genes simultáneamente. Estos experimentos permiten, por ejemplo, comparar la expresión genética entre una célula sana y una enferma. Una de las principales metas en el análisis de datos de expresión de genes en experimentos de microarreglos es la identificación de genes diferencialmente expresados. Para alcanzar esta meta se han propuesto varios métodos, entre ellos, los métodos de prueba de hipótesis múltiple, los cuales establecen simultáneamente para cada gen una hipótesis nula de no asociación entre la medida de expresión de los genes y la respuesta. Pero debido a que los experimentos de microarreglos consideran miles de genes, la misma cantidad de pruebas ha de ser considerada. Por tanto la probabilidad de cometer un Error Tipo I aumenta con el número de hipótesis; pues, un p-value cercano a cero puede ser producto del azar debido al gran número de hipótesis que se prueban simultáneamente y no porque el gen sea diferencialmente expresado. En esta tesis, estudiamos métodos de prueba de hipótesis múltiple para datos de expresión genética provenientes de experimentos de microarreglos. Para ello examinamos y comparamos, teóricamente y experimentalmente diez métodos de prueba de hipótesis múltiple empleando seis conjuntos de datos de expresión genética, disponibles gratuitamente en la internet.
Keywords
Probability,
P-value,
Human Genome Project,
Microarrays
P-value,
Human Genome Project,
Microarrays
Usage Rights
Persistent URL
Cite
Muñiz-Rivera, L. M. (2009). Análisis sobre métodos de pruebas de hipótesis múltiple en la identificación de genes diferencialmente expresados [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/693