Publication:
Discrete methods for microarray analysis

Thumbnail Image
Authors
Ortiz Zuazaga, Humberto
Embargoed Until
Advisor
Moreno de Ayala, Oscar
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
PhD
Publisher
Date
2008
Abstract
Microarrays allow researchers to simultaneously measure the expression of thousands of genes. They give invaluable insight into the transcriptional state of biological systems, and can be important in understanding physiological as well as diseased conditions. However, the analysis of data from many thousands of genes, from only a few replications is very difficult. We have devised a novel method of correcting errors in microarray experiments, that also clusters genes into groups, and categorizes their measurements into coarse divisions, suitable for discrete techniques for reverse engineering. These techniques are based on finite fields and algebraic coding theory. We test these new techniques on a data set obtained from behavioral training experiments on rats, and identify two novel genes that may be involved in learning and memory. We extend this method to work with “probe level” microarray data, where each gene is represented by multiple probes. We have applied the error correction procedure to two data sets, one Affymetrix, one NimbleGen, having either 14 (Affymetrix) or approximately 10 (NimbleNen) probes per gene, derived from an odor avoidance experiment on Drosophila. The experiment is designed to validate analysis procedures by examining the degree of concordance the procedures produce across the data sets. For this data we devise a method to measure the concordance quantitatively. We have developed a technique based on mutual information to compare results obtained across the two data sets. Our results show that our error correction techniques result in a greater amount of shared information between data sets than traditional approaches based on averaging of probes and gene expression levels across repetitions. We show how our results can be extended to sets with finer gradations in expression values, and present the analysis of the Drosophila data discretized to 5 separate expression values. Finally, we present some future applications, such as using finite fields to encode expression values, allowing us to use the algebraic properties of finite fields to perform reverse engineering of gene regulatory networks.

Microarreglos de material genético permiten medir niveles de expresión de miles de genes en un solo experimento. Presentan un cuadro de el estado transcripcional de una muestra biológica, y pueden ser de gran valor en elucidar mecanismos de acción de procesos fisiológicos o patológicos. El análisis de datos de estos experimentos, sin embargo, se hace difícil por la gran cantidad de genes medidos, y la carencia de replicados. Hemos desarollado un método novedoso de analizar estos datos. Nuestra técnica agrupa genes en categorías gruesas, permite corregir errores experimentales, y sirve para producir datos discretos de expresión para luego utilizar técnicas discretas para más análisis. Nuestras técnicas se basan en representar valores de expresión genéticas como elementos de cuerpos finitos, y utilizan propiedades algebraicas de tales cuerpos. Hemos demostrado nuestras técnicas en un conjunto de datos provenientes de un experimento conducual en ratas, e identificamos dos genes que parecen estar involucrados en memoria y aprendizaje. Extendimos nuestras técnicas para trabajar con datos de sondas individuales, donde multiples sondas de material genético diferentes miden la expresión de un solo gen. Esta nueva técnica fue demostrada en dos conjuntos de datos provenientes de experimentos iguales hechos en dos tecnologias de microarreglos distintos. El experimento fue diseñado para probar y validar técnicas de análisis, midiendo el grado de concordancia entre los dos tipos de microarreglos Para este experimento diseñamos una metodología para cuantificar la concordancia entre los resultados en ambos tipos de microarreglos. Esta metodología utiliza el concepto de información mutua para asignar un valor cuantitativo al grado de concordancia. Nuestros resultados demuestran que nuestra metodología de discretización y corrección de errores resulta en mayor concordancia, determinado por un aumento en la información mutua, cuando la comparamos con las técnicas usuales de análisis que promedian la información de las distintas sondas y de las repeticiones. También aprovechamos modelos sobre conjuntos finitos para producir un mod- elo con mayor número de niveles de expresión, que puede capturar diferencias más sutiles entre los niveles de expresión de un gen. Por último, demostramos applicaciones futuras utilizando propiedades algebraicas de cuerpos finitos para encontrar una solución algebraica a el problema de determinar una función que explique la relación entre genes.
Keywords
Cite
Ortiz Zuazaga, H. (2008). Discrete methods for microarray analysis [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2225