El Proyecto Genoma son los esfuerzos científicos que, en última instancia, tienen como objetivo determinar la secuencia completa del genoma de un organismo (ya sea un animal, una planta, un hongo, una bacteria, una arquea, un protista o un virus) y para anotar genes que codifican proteínas y otras características importantes codificadas por el genoma.[1] La secuenciación del genoma de un organismo incluye la recopilación de las secuencias de cada cromosoma en el ADN de un organismo. Para una bacteria, que contiene únicamente un cromosoma, el proyecto genoma buscará mapear la secuencia de ese cromosoma. Para la especie humana, cuyo genome incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia completa del genoma tendrá 46 secuencias separadas de los cromosomas.
El Proyecto Genoma Humano fue un proyecto histórico del genoma que ya está teniendo un impacto importante en la investigación a través de las ciencias de la vida, con potencial para estimular numerosos desarrollos médicos y comerciales.[2]
Ensamblaje de secuencias
El ensamblaje del genoma se refiere al proceso de tomar un gran número de secuencias de ADN cortas y volver a juntarlas para formar una representación de los cromosomas originales de los cuales se originó el ADN. En un proyecto de secuenciación shotgun, todo el ADN de una fuente (normalmente un organismo simple, desde una bacteria hasta un mamífero) primero es separado en millones de piezas pequeñas. Estas piezas son "leídas" por máquinas automatizadas de secuenciación, que pueden leer hasta 1000 nucleótidos o bases al mismo tiempo. (Las cuatro bases son adenina, guanina, citosina, y timina, representadas como AGCT.) El algoritmo de montaje de un genoma funciona al tomar todas las piezas y alinearlas una con otra y detectando todos los lugares donde dos o más de las secuencias cortas o "lecturas" se sobreponen. Estas lecturas sobrepuestas se pueden combinar, y el proceso continúa.
El ensamblaje del genoma es un problema computacional muy difícil porque muchos genomas contienen un gran número de secuencias idénticas, conocidas como repeticiones. Estas repeticiones pueden tener miles de nucleótidos de longitud, y algunas se producen en miles de lugares diferentes, especialmente en los genomas grandes de plantas y animales.
La secuencia resultante de la secuencia del genoma se produce al combinar la información secuenciada Cóntigos de información y luego empleando la información de enlace para crear andamios. Los andamios biológicos se posicionan a lo largo del mapa físico del cromosoma creando una "ruta excelente".
Software de ensamblaje
Originalmente, la mayoría de los centros de secuenciación de ADN a gran escala desarrollaron su propio software para ensamblar las secuencias que produjeron. Sin embargo, esto ha cambiado a medida que el software se ha ido volviendo más complejo y ha ido aumentando el número de centros de secuenciación. Un ejemplo de un ensamblador es Short Oligonucleotide Analysis Package desarrollado por BGI para el nuevo ensamblaje de genomas del tamaño del humano.[3][4][5]
Anotación de genomas
La anotación de genomas es el proceso de juntar la información biológica a las secuencias de ADN.[6][7][8]
Consiste en tres pasos fundamentales:
- Identificar las partes del genoma que no codifica proteínas.
- Identificar los elementos en el genoma, es un proceso llamado predicción de genes.
- Determinar la información biológica de estos elementos.
Las herramientas de anotación automática intentan realizar todo esto por medio de un análisis en la computadora, al contrario de la anotación manual que requiere habilidad humana. Idealmente, estos acercamientos coexisten y se complementan el uno al otro en la misma tubería de anotación.
El nivel básico de anotación utiliza BLAST para encontrar similitudes, y después se anotan los genomas basado en eso.[1] Sin embargo, hoy en día se agrega más y más información a la plataforma de anotación. La información adicional permite a los anotadores manuales encontrar discrepancias entre los genes dados en la misma anotación. Algunas bases de datos usan la información del contexto del genoma, puntajes similares, información experimental, y la integración de otros recursos para generar anotaciones del genoma a través de sus enfoques de subsistemas. Otras bases de datos (e.g. Ensembl) recae tanto en las fuentes de información como en las diferentes herramientas de software en la automatización de la tubería para la anotación del genoma.[9]
Anotación estructural consiste en la identificación de elementos genómicos.
- ORFs y su localización.
- Estructura de los genes.
- Regiones codificantes.
- Ubicación de los motivos reguladores.
Anotación funcional consiste en juntar la información biológica a elementos genómicos.
- Función bioquímica.
- Función biológica.
- Regulación implicada e interacciones.
- Expresión.
Estos pasos puede involucrar ambas, experimentos biológicos y análisis in silico. La proteogenómica basa sus aproximaciones utilizando información de proteínas expresadas, normalmente derivada de un espectrómetro de masas, para mejorar las anotaciones genómicas.[10]
Una variedad de herramientas de software han sido desarrolladas que le permiten a los científicos observar y compartir las anotaciones genómicas.[11][10]
Las anotaciones genómicas siguen siendo un gran reto para los científicos que investigan el genoma humano, ahora que las secuencias del genoma de más mil individiuos humanos y organismos modelos están finalmente completadas.[12][13] Identificar las ubicaciones de los genes y otros elementos genéticos de control normalmente se describen al definir las "lista de partes" biológicas para el montaje y la operación normal de un organismo.[1] Los científicos aún están en una fase temprana del proceso de delinear la "lista de partes" y en entender como todas las pares se "ajustan juntas".[14]
La anotación del genoma es un área de investigación que involucra a diferentes organizaciones en la comunidad de ciencias de la vida, que publican los resultados de sus esfuerzos en bases de datos biológicas disponibles al públicos y accesible vía en línea y otros medios electrónicos. Aquí hay una lista en orden alfabético de proyectos relevantes de anotación del genoma:
- Encyclopedia of DNA elements (ENCODE)
- Entrez Gene
- Ensembl
- GENCODE
- Gene Ontology Consortium
- GeneRIF
- RefSeq
- Uniprot
- Vertebrate and Genome Annotation Project (Vega)
En Wikipedia en inglés, la anotación del genoma ha empezado a automatizarse bajo los auspicios de Gene Wiki portal el cual opera un bot que cosecha datos de genes de bases de datos de investigación y crea resguardos de genes en esa base.[11]
Véase también
- Joint Genome Institute.
- Organismo modelo.
- National Center for Biotechnology Information.
- Illumina, empresa privada involucrada en la secuenciación de genomas.
- Knome, empresa privada que realiza análisis y secuenciación genómica.
Referencias
- ↑ a b c Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2ª ed. edición). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
- ↑ «Potential Benefits of Human Genome Project Research». Department of Energy, Human Genome Project Information. 9 de octubre de 2009. Archivado desde el original el 8 de julio de 2013. Consultado el 18 de junio de 2010.
- ↑ Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (febrero de 2010). «De novo assembly of human genomes with massively parallel short read sequencing». Genome Res. 20 (2): 265-272. ISSN 1549-5469. PMC 2813482. PMID 20019144. doi:10.1101/gr.097261.109.
- ↑ Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM, Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N, Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R, Krogh A, Wang J, Willerslev E (11 de febrero de 2010). «Ancient human genome sequence of an extinct Palaeo-Eskimo». Nature 463 (7282): 757-762. ISSN 1476-4687. PMC 3951495. PMID 20148029. doi:10.1038/nature08835.
- ↑ Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z, Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J, Fang L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z, Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (6 de noviembre de 2008). «The diploid genome sequence of an Asian individual». Nature 456 (7218): 60-65. ISSN 0028-0836. PMC 2716080. PMID 18987735. doi:10.1038/nature07484. Consultado el 22 de diciembre de 2012.
- ↑ Myers, E. W.; Sutton, GG; Delcher, AL; Dew, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM et al. (marzo de 2000). «A whole-genome assembly of Drosophila». Science 287 (5461): 2196-204. PMID 10731133. doi:10.1126/science.287.5461.2196.
- ↑ Batzoglou, S.; Jaffe, DB; Stanley, K; Butler, J; Gnerre, S; Mauceli, E; Berger, B; Mesirov, JP et al. (enero de 2002). «ARACHNE: a whole-genome shotgun assembler». Genome Research 12 (1): 177-89. PMC 155255. PMID 11779843. doi:10.1101/gr.208902.
- ↑ página AMOS con links a varios artículos
- ↑ «Ensembl's genome annotation pipeline online documentation». Archivado desde el original el 5 de marzo de 2016.
- ↑ a b
- ↑ a b Huss, Jon W.; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). «A Gene Wiki for Community Annotation of Gene Function». PLoS Biology 6 (7): e175. PMC 2443188. PMID 18613750. doi:10.1371/journal.pbio.0060175.
- ↑ Consortium, The ENCODE Project (19 de abril de 2011). «A User's Guide to the Encyclopedia of DNA Elements (ENCODE)». PLOS Biol 9 (4): e1001046. ISSN 1545-7885. PMC 3079585. PMID 21526222. doi:10.1371/journal.pbio.1001046. Consultado el 8 de agosto de 2016.
- ↑ Consortium, The 1000 Genomes Project (1 de noviembre de 2012). «An integrated map of genetic variation from 1,092 human genomes». Nature (en inglés) 491 (7422): 56-65. ISSN 0028-0836. PMC 3498066. PMID 23128226. doi:10.1038/nature11632. Consultado el 8 de agosto de 2016.
- ↑ Consortium, The ENCODE Project (6 de septiembre de 2012). «An integrated encyclopedia of DNA elements in the human genome». Nature (en inglés) 489 (7414): 57-74. ISSN 0028-0836. doi:10.1038/nature11247. Consultado el 8 de agosto de 2016.
Error en la cita: La etiqueta <ref>
definida en las <references>
con nombre «Stein2001» no se utiliza en el texto anterior.
<ref>
con nombre «ensembl» definida en el grupo «» para <references>
no tiene contenido.Enlaces externos
- GOLD:Genomes OnLine Database
- Genome Project Database
- The Protein Naming Utility (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
- SUPERFAMILY
- The sea urchin genome database
- NRCPB.