Publication:
Signatures of selection in the indel-containing coding sequences from human to primate genome comparisons
Signatures of selection in the indel-containing coding sequences from human to primate genome comparisons
Authors
Francis-Guiblet, Wilfried M.
Embargoed Until
Advisor
Oleksyk, Taras K.
College
College of Arts and Sciences - Sciences
Department
Department of Biology
Degree Level
M.S.
Publisher
Date
2013
Abstract
Gene sequences are relatively conserved, and usually show few differences in comparisons between closely related species, such as between humans and non- human primates. In this study, we focused on >10 bp insertions and deletions (Indels) found in the alignments between the human, chimpanzee, gorilla, orangutan, and rhesus macaque reference genome sequences and examined these regions in order to characterize signatures of adaptive and non-adaptive evolution in the phylogenetic lineage leading to our own species. A public data set of 36,422 Indels identified by comparing the reference genomes was filtered to set aside 146 Indels within coding sequences (with a potentially high impact on proteins). Among these, 80 fragments were successfully amplified by PCR and visualized on electrophoresis gels to distinguish real features from the computational artifacts. Only 22 Indels could be related to specific feature in the sequence alignment using the reference genomes. These Indel-containing genes were interrogated for the signatures of selection with PAML package by producing pairwise Ka/Ks ratios in all species comparisons. The significance of this approach was evaluated by a resampling method, where exactly the same procedures and tests were performed with a dataset of randomly created Indels (simdels) matched by size and distributed across the reference genomes. Indels showed significantly higher Ka/Ks ratios indicating that they were located in less constrained sequences, and a trend was observed with first exons showing the largest difference between the observed Indels and simdels. We also searched for more recent signatures of selection by searching for the chromosomal regions demonstrating diminished multilocus heterozygosity and high population divergence (FST) by comparing dense genotyping data in the moving windows along the chromosomes between populations of the Human Genome Diversity Project (HGDP). We identified several genes by comparing the observed distribution to a distribution of simdels and discussed our results in from the prospective of relevant evolutionary history during major human migrations.
Las secuencias de los genes son relativamente conservadas, y usualmente demuestran pocas diferencias entre especies estrechamente relacionadas, tal como humanos y primates. En este estudio, nos enfocamos en las inserciones y deleciones (Indels) > 10 pb que hemos descubierto comparando las secuencias de genomas de referencia de humanos, chimpancés, gorilas, orangutanes y macacos, y examinando estas regiones para caracterizar huellas de evolución adaptativa y no adaptativa en el linaje que compartimos los humanos y primates. Un banco de datos públicos de 36,422 Indels que fueron identificados comparando los genomas de referencia fue filtrado para extraer 146 Indels predichos a estar dentro de secuencias codificantes (con un potencial de impacto fuerte sobre las proteínas). De éstos, 80 fragmentos fueron amplificados con éxito por PCR y corridos en geles de electroforesis para distinguir los Indels reales de aquellos creados por sesgos en los métodos computacionales. Sin embargo, solamente 22 pudieron ser relacionados a Indels específicos en un alineamiento de genes usando los genomas de referencia. Para buscar huellas de selección, usé el paquete PAML para producir razones de Ka/Ks entre especies para los 22 genes que contienen un Indel validado. El significado de la prueba fue evaluado por un método de re-muestreo, donde los mismos procedimientos y pruebas fueron llevadas a cabo sobre un banco de datos de Indels creados y distribuidos a lo largo de los genomas de referencia al azar (simdels), y que eran iguales en tamaño a los Indels reales. Los Indels demostraron unas razones significativamente mayores de Ka/Ks, indicando que están localizados en secuencias bajo menores restricciones selectivas, y una tendencia fue observada en la que los primeros exones demostraron una diferencia mayor entre los Indels observados y los simdels. También buscamos huellas de selección más recientes, buscando regiones cromosómicas demostrando una disminución en varios lugares de heterocigosidad y un aumento en divergencia poblacional (FST) al comparar datos genotípicos densos entre las poblaciones del Human Genome Diversity Project (HGDP). Identificamos varios genes comparando la distribución observada a la distribución de los simdels y discutimos nuestros resultados desde el punto de vista de la historia evolutiva de las grandes migraciones humanas.
Las secuencias de los genes son relativamente conservadas, y usualmente demuestran pocas diferencias entre especies estrechamente relacionadas, tal como humanos y primates. En este estudio, nos enfocamos en las inserciones y deleciones (Indels) > 10 pb que hemos descubierto comparando las secuencias de genomas de referencia de humanos, chimpancés, gorilas, orangutanes y macacos, y examinando estas regiones para caracterizar huellas de evolución adaptativa y no adaptativa en el linaje que compartimos los humanos y primates. Un banco de datos públicos de 36,422 Indels que fueron identificados comparando los genomas de referencia fue filtrado para extraer 146 Indels predichos a estar dentro de secuencias codificantes (con un potencial de impacto fuerte sobre las proteínas). De éstos, 80 fragmentos fueron amplificados con éxito por PCR y corridos en geles de electroforesis para distinguir los Indels reales de aquellos creados por sesgos en los métodos computacionales. Sin embargo, solamente 22 pudieron ser relacionados a Indels específicos en un alineamiento de genes usando los genomas de referencia. Para buscar huellas de selección, usé el paquete PAML para producir razones de Ka/Ks entre especies para los 22 genes que contienen un Indel validado. El significado de la prueba fue evaluado por un método de re-muestreo, donde los mismos procedimientos y pruebas fueron llevadas a cabo sobre un banco de datos de Indels creados y distribuidos a lo largo de los genomas de referencia al azar (simdels), y que eran iguales en tamaño a los Indels reales. Los Indels demostraron unas razones significativamente mayores de Ka/Ks, indicando que están localizados en secuencias bajo menores restricciones selectivas, y una tendencia fue observada en la que los primeros exones demostraron una diferencia mayor entre los Indels observados y los simdels. También buscamos huellas de selección más recientes, buscando regiones cromosómicas demostrando una disminución en varios lugares de heterocigosidad y un aumento en divergencia poblacional (FST) al comparar datos genotípicos densos entre las poblaciones del Human Genome Diversity Project (HGDP). Identificamos varios genes comparando la distribución observada a la distribución de los simdels y discutimos nuestros resultados desde el punto de vista de la historia evolutiva de las grandes migraciones humanas.
Keywords
Gene sequences,
Human Genome Diversity Project (HGDP),
Humans and nonhuman primates
Human Genome Diversity Project (HGDP),
Humans and nonhuman primates
Usage Rights
Persistent URL
Cite
Francis-Guiblet, W. M. (2013). Signatures of selection in the indel-containing coding sequences from human to primate genome comparisons [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/291