Publication:
Una propuesta multialgorítmica para el análisis de secuencias biológicas

Thumbnail Image
Authors
Garzón-Alfonso, Wilmer E.
Embargoed Until
Advisor
Seguel, Jaime
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
M.S.
Publisher
Date
2012
Abstract
With the completion of the Human Genome Project, between 20,000 and 25,000 genes related to human beings were sequenced, garnering more than 90 % of the DNA (deoxyribonucleic acid) human genome sequences. These are composed of letters that represent four possible nucleotides: Adenine, Cytosine, Guanine and Thymine. Also, the genetic composition of several non-human species was defined, generating an exponential growth in biological databases. As a result, it was necessary to apply computational methods in order to obtain information about the structures and biological evolution between these species. This research presents a multi-algorithmic approach for biological sequence analysis based on statistical and computational methods. These allow for an exhaustive analysis of DNA sequences, offering different perspectives and thus allowing for a better analysis of the information. During the course of this research, the DNA sequences of specimens that appeaed to be related to the Debaryomyces Hansenii yeast were used. These were analyzed by the different methods that were designed through the course of this investigation. The combination of these methods allowed for a simultaneous analysis of the sequences, to then find the genetic regions of interest. The end result of this investigation is the achievement of possible prediction of genes contained in the sequences of the two specimens mentioned above. The exhaustive search was conducted only in some regions of the sequences, due to the high demand of computational resources required to run the gene prediction method proposed here.

Con la finalización del Proyecto Genoma Humano se logró secuenciar entre 20,000 y 25,000 genes relacionados con el ser humano, obteniendo más del 90% de las secuencias de ADN (ácido desoxirribonucleico) del genoma humano. Estas se componen de cuatro posibles letras que representan los nucleótidos: Adenina, Citosina, Guanina y Timina. También se logró definir la composición genética de algunas especies no humanas, generando un crecimiento exponencial en las bases de datos biológicas. Debido a este crecimiento, es necesario utilizar métodos para analizar estos datos y así obtener información sobre la estructura y evolución biológica entre las especies. Esta investigación presenta una propuesta multi-algorítmica para el análisis de secuencias biológicas, basada en métodos computacionales y estadísticos. Estos permiten analizar exhaustivamente las secuencias de ADN, ofreciendo diferentes perspectivas y así permitir un mejor análisis sobre la información. Durante el desarrollo de esta investigación, se utilizaron secuencias de ADN de especímenes posiblemente relacionados con la levadura Debaryomyces Hansenii, los cuales fueron analizadas por los diferentes métodos aquí diseñados. La combinación de estos métodos permitió analizar conjuntamente las secuencias, para luego encontrar las regiones genéticas de mayor interés. Como resultado final, se logró la predicción de los posibles genes contenidos en las secuencias de dos de los especímenes mencionados anteriormente. La búsqueda exhaustiva se realizó solo en algunas regiones de las secuencias, debido a la alta demanda de recursos computacionales requeridos al ejecutar el método de predicción de genes aquí propuesto.
Keywords
Cite
Garzón-Alfonso, W. E. (2012). Una propuesta multialgorítmica para el análisis de secuencias biológicas [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/2193