Publication:
Identification of potential cancer biomarkers through multiple criteria optimization using microarray data

Thumbnail Image
Authors
Sánchez Peña, Matilde L.
Embargoed Until
Advisor
Cabrera Ríos, Mauricio
College
College of Engineering
Department
Department of Industrial Engineering
Degree Level
M.S.
Publisher
Date
2010
Abstract
Cancer is a worldwide relevant illness given its mortality rates and associated economic and social repercussions. Genetic profiling has become one of the most important tools for cancer characterization, its diagnosis and prognosis. Microarrays are biological experiments that have been used in recent years with this end in mind due to their capacity to measure the relative genetic expression of tens of thousands of genes simultaneously. One of the principal aims using data from microarray experiments is the selection of relevant genes that can be used as surrogate measures for the state of cancer, i.e. cancer biomarker genes. Many and varied methodologies have been developed and used for this purpose ranging from the simplest statistical approaches to sophisticated Artificial Intelligence methods. The explored literature, however, shows that setting parameters for several of these approaches is often a difficult task for final users, who mainly hail from the biological and medical sciences. As a consequence, analysis results have been reported to vary across different researchers even when using the same microarray datasets. This situation is an opportunity to develop methodologies to find potential cancer biomarkers in a consistent manner. In this work potential biomarker identification is casted as a Multiple Criteria Optimization (MCO) Problem, aiming to remove analysis subjectivity due to parameter adjustment. MCO is a methodology used to find the best compromises between two or more conflicting criteria.The main proposition of this work is that several measures related to microarray data analysis can be seen as criteria to be optimized. It is desirable, for example, that the p-value associated to a particular gene be low when trying to determine its statistical significance. If a gene could be characterized through two or more p-values, then an MCO problem can be formulated. Solving an MCO problem results in a set of solutions representing the best compromises among all the considered criteria. These solutions are called Pareto-efficient solutions and they conform a so-called efficient frontier of the problem. This work proposes that genes on the resulting efficient frontier of an associated MCO problem could be cancer biomarkers. Among the methodologies used to solve MCO problems, Data Envelopment Analysis (DEA) has been chosen in this work because it does not require parameter setting by the user in many of its possible formulations. Furthermore, DEA can be solved through linear programming, the most tractable of optimization problems and for which inexpensive commercial software readily available. To the best extent of our knowledge, this work constitutes the first effort on using Multiple Criteria Optimization to detect potential cancer biomarkers from microarray data.

El cáncer es una enfermedad importante a nivel mundial dado su nivel de mortandad y sus repercusiones sociales y económicas. Los perfiles genéticos se han convertido en una de las herramientas más importantes para la caracterización del cáncer. Los microarreglos son experimentos biológicos que se han venido usando en los últimos años para obtener dichos perfiles, dada su capacidad de medir la expresión relativa de decenas de miles de genes de manera simultánea. Una de las principales tareas al trabajar con datos que provienen de los experimentos de microarreglos, es la selección de genes relevantes que puedan ser utilizados como detectores de la presencia de la enfermedad, en otras palabras, genes biomarcadores de cáncer. Muchas y muy variadas metodologías se han desarrollado con estos propósitos, las cuales van desde los procedimientos estadísticos más simples hasta los métodos más sofisticados de Inteligencia Artificial. Sin embargo, en la literatura explorada se muestra que, en muchos de los enfoques utilizados, la definición de ciertos parámetros resulta ser una tarea difícil para los usuarios finales, los cuales provienen principalmente de los campos de biología y medicina. A consecuencia de ésto, los análisis reportados varían entre los diferentes investigadores aun cuando se utilicen los mismos datos. Esta situación es una oportunidad para desarrollar metodologías para encontrar biomarcadores potenciales de cáncer en una forma consistente.En este trabajo la identificación de biomarcadores potenciales es tratada como un Problema de Optimización de Múltiples Criterios (MCO por sus siglas en inglés), el cual permite extraer la subjetividad que se da por el ajuste de parámetros por los usuarios. La propuesta principal de este trabajo es que muchas medidas relacionadas con el análisis de microarreglos pueden ser vistas como criterios a ser optimizados. Es deseable, por ejemplo, que el valor-p asociado a un gen en particular sea menor cuando se trata de determinar su significancia estadística. Si un gen puede ser caracterizado por medio de dos o mas valores-p, entonces es factible formular un problema de MCO. La solución de un problema de MCO resulta en un conjunto de soluciones llamadas Pareto-eficientes que conforman la frontera eficiente de tal problema. Este trabajo propone que los genes que resulten en la frontera eficiente del problema de optimización de múltiples criterios asociado pueden ser biomarcadores de cáncer. Entre las metodologías existentes para resolver problemas MCO, el Análisis Envolvente de Datos (DEA por sus siglas en inglés) se ha elegido para ser utilizado en este trabajo dado que no requiere el ajuste de parámetros por el usuario en muchas de sus posibles formulaciones. Además, DEA puede ser resuelto por medio de programación lineal, que es el problema más tratable de optimización y para el cual existe una amplia variedad de paquetes computacionales disponibles. De acuerdo con la búsqueda de literatura, llevada a cabo en esta tesis, esta constituye el primer esfuerzo en usar Optimización de Múltiples Criterios para detectar biomarcadores potenciales de cáncer a partir de datos de microarreglos.
Keywords
Cancer,
Microarrays,
Biomarker identification,
Multiple Criteria Optimization,
Data Envelopment Analysis
Cite
Sánchez Peña, M. L. (2010). Identification of potential cancer biomarkers through multiple criteria optimization using microarray data [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1506