Publication:
A probabilistic approach to gene expression analysis

Thumbnail Image
Authors
Lluberes, Marie
Embargoed Until
Advisor
Seguel, Jaime
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
Ph.D.
Publisher
Date
2017
Abstract
Technology development has considerably increased the collection and storage of biological data. Nevertheless, the challenge of transforming such data into information, prevails. Such transformation demands the involvement of several disciplines, gathered under the umbrella of Bioinformatics. One of those main challenges under Bioinformatics’s extensive research area is learning the connections that govern gene activity, or gene regulatory networks (GRN). This is a very large scale problem, both because of the amount of variables involved as per the amount of possible interactions among them. Because of this, one very effective, accepted approach to inferring these networks is the use of Boolean representations of GRN. This model takes inputs from the binary domain; therefore, gene expression –which is measured as real data– needs first to be binary quantized with the use of a threshold. But both GRN and gene expression precise mathematical models are unknown; hence, their modeling is based on conjectures, biased at times. As a consequence, different models render different results. We study the effect of the differences that some binary quantization methods have on the resulting binarized gene expression. We call this model uncertainty. Furthermore, the discretization of gene expression subjects the threshold to changes as well. The number of measurements for the study of a gene may be bound, as a result of budgetary constraints, for instance. Have more data become available, this impacts the gene’s expected behavior. We study the effect that these changes on discretization have on a gene’s binarization, under different methods. We call this discretization uncertainty. While these uncertainties may persist due to, as aforementioned, the lack of a precise model, a unified approach may contribute to mitigate their impact. We propose a multi-algorithmic approach, with aggregation rules and voting mechanisms on several methods to countereffect model uncertainty. Rather than relying on a particular number of measurements, we use the gene’s threshold expected behavior to choose its binarization through statistical analysis, considering threshold variations, on an attempt to countereffect discretization uncertainty. This unified approach of statistical analysis and aggregation rules is presented as a framework that allows a customized selection of the methods. Finally, in order to measure the impact of these changes, I propose a simple evaluation method for network binarization changes. The proposed method provides specific metrics for evaluation on each network state individually for the detection of troubled binarizations. Existing network inference methods do not provide information on the binarization of each gene, making difficult to discern if the differences are due to selected binarizaton methods or to the learning mechanism of the implementation.

Los avances tecnológicos en instrumentación han aumentado considerablemente la recopilación y almacenaje de data biológica. No obstante, el desafío de transformar esta data en información, permanece. Tal transformación exige la participación de varias disciplinas, cobijadas balo la sombrilla de la Bioinformática. Uno de esos retos importantes dentro la extensa área de Bioinformática es aprender cuáles son las conexiones que rigen la actividad de los genes, o Redes Regulatorias Genéticas (RRG). Este es un problema de gran tamaño, tanto por la cantidad de variables envueltas como por la cantidad de posibles interacciones entre ellas. Debido a esto, un enfoque muy efectivo y aceptado para inferir estas redes es el uso de representaciones Booleanas de RRG. Este modelo acepta entradas del dominio binario; por consiguiente, la expresión genética –que es medida como data real– primero necesita ser quantizada en forma binaria con el uso de un umbral. Modelos matemáticos precisos, tanto para las RRG como la expresión genética, son desconocidos; por lo tanto, su modelaje está basado en conjeturas, a veces prejuiciadas. Como consecuencia de esto, diferentes modelos ofrecen diferentes resultados. Estudiamos el efecto de las diferencias que algunos métodos de quantización binaria tienen en la expresión genética binarizada resultante. A esto le llamamos incertidumbre del modelo. Mas aún, la discretización elegida para la expresión genética, también somete el umbral a cambios. La cantidad de medidas tomadas para estudiar un gen puede estar controlada, por restricciones presupuestarias, por ejemplo. De hacerse disponible mas data, esto tiene un impacto en el comportamiento del gen. Estudiamos los efectos que estos cambios en discretización tienen en la binarización de un gen, bajo diferentes métodos. Esto lo llamamos incertidumbre de la discretización. A pesar de que estas incertidumbres pueden persistir debido a, como se mencionó antes, la ausencia de un modelo preciso, un acercamiento unificado puede mitigar su impacto. Proponemos un acercamiento multi-algorítmico, con reglas de agregación y mecanismos de votación en varios métodos, para contrarrestar la incertidumbre del modelo. En lugar de basarnos en una cantidad particular de medidas, usamos el comportamiento esperado del umbral del gen para elegir su binarización a través de análisis estadístico, teniendo en cuenta las variaciones del umbral, en un esfuerzo por contrarrestar la incertidumbre de la discretización. Este enfoque unificado de análisis estadístico y reglas de agregación es presentado como un marco que permite adaptaciones en la selección de los métodos. Finalmente, con el propósito de medir el impacto de estos cambios, propongo un método simple de evaluación de los cambios en una red. El método propuesto provee métricas especificas para la evaluación individual de cada estado de la red, ayudando en la identificación de binarizaciones conflictivas. Los métodos de inferencia de redes existentes no proveen información sobre la binarización de cada gen, dificultando el discernimiento de diferencias debido al método seleccionado o al mecanismo de inferencia de la implementación.
Keywords
Bioinformatics,
Gene regulatory networks
Cite
Lluberes, M. (2017). A probabilistic approach to gene expression analysis [Dissertation]. Retrieved from https://hdl.handle.net/20.500.11801/846