Publication:
An integrative data-driven approach to identify molecular patterns in breast cancer patients

Thumbnail Image
Authors
Narváez Bandera, Isis Y.
Embargoed Until
Advisor
Torres García, Wandaliz
College
College of Engineering
Department
Department of Industrial Engineering
Degree Level
M.S.
Publisher
Date
2017
Abstract
El cáncer de mama es una enfermedad heterogénea del genoma que necesita mejores diagnósticos y tratamientos a través de la caracterización de patrones genómicos e interacciones. Actualmente, su comprensión molecular es aún insuficiente incluso con los avances en las tecnologías genómicas. Por lo tanto, esta tesis presenta un enfoque de minería de datos en varias etapas para discriminar los subtipos de cáncer de mama a través de la integración de datos altamente dimensionales de diferentes plataformas genómicas utilizando técnicas de selección y clasificación de características. Esta metodología nos permitió extraer patrones que desempeñan un papel crítico en la clasificación de los subtipos de cáncer de mama (es decir, la subexpresión de FOXA1 para basal). Además, esta tesis proporciona una nueva métrica capaz de evaluar y clasificar las interacciones entre las características pertinentes utilizando un criterio de prevalencia y el clasificador Random Forest. Esta métrica identificó una lista de interacciones de variables importantes para discriminar subtipos. Entre las principales interacciones, encontramos un conjunto de genes correlacionados interactuando frecuentemente con FOXA1 o MLPH tales como CEP55 y UBET2.

El cáncer de mama es una enfermedad heterogénea del genoma que necesita mejores diagnósticos y tratamientos a través de la caracterización de patrones genómicos e interacciones. Actualmente, su comprensión molecular es aún insuficiente incluso con los avances en las tecnologías genómicas. Por lo tanto, esta tesis presenta un enfoque de minería de datos en varias etapas para discriminar los subtipos de cáncer de mama a través de la integración de datos altamente dimensionales de diferentes plataformas genómicas utilizando técnicas de selección y clasificación de características. Esta metodología nos permitió extraer patrones que desempeñan un papel crítico en la clasificación de los subtipos de cáncer de mama (es decir, la subexpresión de FOXA1 para basal). Además, esta tesis proporciona una nueva métrica capaz de evaluar y clasificar las interacciones entre las características pertinentes utilizando un criterio de prevalencia y el clasificador Random Forest. Esta métrica identificó una lista de interacciones de variables importantes para discriminar subtipos. Entre las principales interacciones, encontramos un conjunto de genes correlacionados interactuando frecuentemente con FOXA1 o MLPH tales como CEP55 y UBET2.
Keywords
Random Forest,
Breast cancer,
Genomic patterns
Cite
Narváez Bandera, I. Y. (2017). An integrative data-driven approach to identify molecular patterns in breast cancer patients [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/930