Loading...
Thumbnail Image
Publication

Albertlast: A bidirectional encoder representation of a transformer's approach for the estimation of Line-1 content

Chamorro Parejo, AndreĢs David
Citations
Altmetric:
Abstract
Technological breakthroughs in high-throughput sequencing platforms have triggered a revolution in genomics. This revolution has significantly augmented an already large number of genomic datasets, and their sizes. Every increase in the amount of data brings about challenges to the ability to process it. For certain bioinformatics tasks, it is no longer possible, or desirable, to rely exclusively on classical alignment and mapping methods. This is, for example, the case of methods for the identification of LINE-1 in the genome, which present challenges in accurately identifying the variations associated with the inserts in a sample. This dissertation developed a masking model using the Bidirectional Encoder Representations from Transformers (BERT) technique and used it to develop a transformer classification model. The final product is an innovative alignment-free system that detect and analyze polymorphic LINE-1 insertions and content estimation in a sample.
Los avances tecnolĆ³gicos en las plataformas de secuenciaciĆ³n de alto rendimiento han desencadenado una revoluciĆ³n en la genĆ³mica. Esta revoluciĆ³n ha aumentado considerablemente el nĆŗmero de conjuntos de datos genĆ³micos, y su tamaƱo. Todo aumento de la cantidad de datos plantea retos a la capacidad de procesarlos. Para determinadas tareas bioinformĆ”ticas, ya no es posible, o deseable, confiar exclusivamente en los mĆ©todos clĆ”sicos de alineaciĆ³n y mapeo. Es el caso, por ejemplo, de los mĆ©todos de identificaciĆ³n de LINE-1 en el genoma, que plantean retos a la hora de identificar con precisiĆ³n las variaciones asociadas a las inserciones en una muestra. En esta tesis se ha desarrollado un modelo de enmascaramiento mediante la tĆ©cnica de representaciones codificadoras bidireccionales de transformers (BERT) y se ha utilizado para desarrollar un modelo de clasificaciĆ³n. El producto final es un innovador sistema libre de alineamiento que detecta y analiza inserciones polimĆ³rficas LINE-1 y estima de contenido en una muestra.
Description
Date
2023-05-12
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
LINE-1, Machine Learning, Precision Medicine, Transformers
Citation
Embedded videos