Publication:
A probabilistic approach to gene expression analysis

dc.contributor.advisor Seguel, Jaime
dc.contributor.author Lluberes, Marie
dc.contributor.college College of Engineering en_US
dc.contributor.committee Vélez, Bienvenido
dc.contributor.committee Cabrera Ríos, Mauricio
dc.contributor.committee Colón, Omar
dc.contributor.department Department of Electrical and Computer Engineering en_US
dc.contributor.representative Santiago, Aidsa
dc.date.accessioned 2018-09-11T17:50:05Z
dc.date.available 2018-09-11T17:50:05Z
dc.date.issued 2017
dc.description.abstract Technology development has considerably increased the collection and storage of biological data. Nevertheless, the challenge of transforming such data into information, prevails. Such transformation demands the involvement of several disciplines, gathered under the umbrella of Bioinformatics. One of those main challenges under Bioinformatics’s extensive research area is learning the connections that govern gene activity, or gene regulatory networks (GRN). This is a very large scale problem, both because of the amount of variables involved as per the amount of possible interactions among them. Because of this, one very effective, accepted approach to inferring these networks is the use of Boolean representations of GRN. This model takes inputs from the binary domain; therefore, gene expression –which is measured as real data– needs first to be binary quantized with the use of a threshold. But both GRN and gene expression precise mathematical models are unknown; hence, their modeling is based on conjectures, biased at times. As a consequence, different models render different results. We study the effect of the differences that some binary quantization methods have on the resulting binarized gene expression. We call this model uncertainty. Furthermore, the discretization of gene expression subjects the threshold to changes as well. The number of measurements for the study of a gene may be bound, as a result of budgetary constraints, for instance. Have more data become available, this impacts the gene’s expected behavior. We study the effect that these changes on discretization have on a gene’s binarization, under different methods. We call this discretization uncertainty. While these uncertainties may persist due to, as aforementioned, the lack of a precise model, a unified approach may contribute to mitigate their impact. We propose a multi-algorithmic approach, with aggregation rules and voting mechanisms on several methods to countereffect model uncertainty. Rather than relying on a particular number of measurements, we use the gene’s threshold expected behavior to choose its binarization through statistical analysis, considering threshold variations, on an attempt to countereffect discretization uncertainty. This unified approach of statistical analysis and aggregation rules is presented as a framework that allows a customized selection of the methods. Finally, in order to measure the impact of these changes, I propose a simple evaluation method for network binarization changes. The proposed method provides specific metrics for evaluation on each network state individually for the detection of troubled binarizations. Existing network inference methods do not provide information on the binarization of each gene, making difficult to discern if the differences are due to selected binarizaton methods or to the learning mechanism of the implementation. en_US
dc.description.abstract Los avances tecnológicos en instrumentación han aumentado considerablemente la recopilación y almacenaje de data biológica. No obstante, el desafío de transformar esta data en información, permanece. Tal transformación exige la participación de varias disciplinas, cobijadas balo la sombrilla de la Bioinformática. Uno de esos retos importantes dentro la extensa área de Bioinformática es aprender cuáles son las conexiones que rigen la actividad de los genes, o Redes Regulatorias Genéticas (RRG). Este es un problema de gran tamaño, tanto por la cantidad de variables envueltas como por la cantidad de posibles interacciones entre ellas. Debido a esto, un enfoque muy efectivo y aceptado para inferir estas redes es el uso de representaciones Booleanas de RRG. Este modelo acepta entradas del dominio binario; por consiguiente, la expresión genética –que es medida como data real– primero necesita ser quantizada en forma binaria con el uso de un umbral. Modelos matemáticos precisos, tanto para las RRG como la expresión genética, son desconocidos; por lo tanto, su modelaje está basado en conjeturas, a veces prejuiciadas. Como consecuencia de esto, diferentes modelos ofrecen diferentes resultados. Estudiamos el efecto de las diferencias que algunos métodos de quantización binaria tienen en la expresión genética binarizada resultante. A esto le llamamos incertidumbre del modelo. Mas aún, la discretización elegida para la expresión genética, también somete el umbral a cambios. La cantidad de medidas tomadas para estudiar un gen puede estar controlada, por restricciones presupuestarias, por ejemplo. De hacerse disponible mas data, esto tiene un impacto en el comportamiento del gen. Estudiamos los efectos que estos cambios en discretización tienen en la binarización de un gen, bajo diferentes métodos. Esto lo llamamos incertidumbre de la discretización. A pesar de que estas incertidumbres pueden persistir debido a, como se mencionó antes, la ausencia de un modelo preciso, un acercamiento unificado puede mitigar su impacto. Proponemos un acercamiento multi-algorítmico, con reglas de agregación y mecanismos de votación en varios métodos, para contrarrestar la incertidumbre del modelo. En lugar de basarnos en una cantidad particular de medidas, usamos el comportamiento esperado del umbral del gen para elegir su binarización a través de análisis estadístico, teniendo en cuenta las variaciones del umbral, en un esfuerzo por contrarrestar la incertidumbre de la discretización. Este enfoque unificado de análisis estadístico y reglas de agregación es presentado como un marco que permite adaptaciones en la selección de los métodos. Finalmente, con el propósito de medir el impacto de estos cambios, propongo un método simple de evaluación de los cambios en una red. El método propuesto provee métricas especificas para la evaluación individual de cada estado de la red, ayudando en la identificación de binarizaciones conflictivas. Los métodos de inferencia de redes existentes no proveen información sobre la binarización de cada gen, dificultando el discernimiento de diferencias debido al método seleccionado o al mecanismo de inferencia de la implementación. en_US
dc.description.graduationYear 2017 en_US
dc.description.sponsorship National Institute of General Medical Sciences en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/846
dc.language.iso en en_US
dc.rights.holder (c) 2017 Marie Lluberes en_US
dc.rights.license All rights reserved en_US
dc.subject Bioinformatics en_US
dc.subject Gene regulatory networks en_US
dc.subject.lcsh Gene regulatory networks en_US
dc.subject.lcsh Gene expression en_US
dc.subject.lcsh Bioinformatics en_US
dc.subject.lcsh Systems biology en_US
dc.subject.lcsh Discretization (Mathematics) en_US
dc.title A probabilistic approach to gene expression analysis en_US
dc.type Dissertation en_US
dspace.entity.type Publication
thesis.degree.discipline Computing and Information Sciences and Engineering en_US
thesis.degree.level Ph.D. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
CISE_LluberesM_2017.pdf
Size:
2.39 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.64 KB
Format:
Item-specific license agreed upon to submission
Description: