Bioinformática
A bioinformática, segundo unha das súas definicións máis sinxelas, é a aplicación de tecnoloxía de computadores á xestión e análise de datos biolóxicos.[1] Os termos bioinformática, bioloxía computacional e, ás veces, biocomputación, utilízanse en moitas situacións practicamente como sinónimos,[2][3] e fan referencia a campos de estudo interdisciplinares moi vinculados que requiren o uso ou o desenvolvemento de diferentes técnicas estudadas na Universidade na Enxeñaría Informática como ciencia aplicada da disciplina informática.[4] Entre estas poden salientarse as seguintes: matemática aplicada,[5] estatística,[6] ciencias da computación,[7] intelixencia artificial,[8] química[9] e bioquímica[10] coas que o enxeñeiro informático soluciona problemas ao analizar datos, ou simular sistemas ou mecanismos, todos eles de tipo biolóxico, e usualmente (pero non de forma exclusiva) no nivel molecular.[11] O núcleo principal destas técnicas está na utilización de recursos computacionais para solucionar ou investigar problemas sobre escalas dunha magnitude que superan a comprensión humana. A investigación en bioloxía computacional solápase a miúdo coa bioloxía de sistemas.[12]
Os principais esforzos de investigación nestes campos inclúen o aliñamento de secuencias, a predición de xenes, montaxe do xenoma, aliñamento estrutural de proteínas, predición da estrutura de proteínas, predición da expresión xénica, interaccións proteína-proteína, e modelización da evolución biolóxica.[13]
Unha constante en proxectos de bioinformática e bioloxía computacional é o uso de ferramentas matemáticas para extraer información útil de datos producidos por técnicas biolóxicas de alta produtividade, como a secuenciación do xenoma. En especial, a montaxe ou ensamblaxe de secuencias xenómicas de alta calidade a partir de fragmentos obtidos trala secuenciación do ADN a grande escala é unha área de grande interese.[13][14] Outros obxectivos son o estudo da regulación xenética para interpretar perfís de expresión xénica utilizando datos de chips de ADN ou espectrometría de masas.[15]
Conceptos e alcance
editarOs termos bioinformática, bioloxía computacional e biocomputación son utilizados a miúdo como sinónimos, e aparecen con frecuencia na literatura básica de forma indiferenciada nos seus usos comúns. Con todo, hai áreas de aplicación propias para cada termo. Os NIH (National Institutes of Health, Institutos Nacionais da Saúde dos Estados Unidos), por exemplo, aínda recoñecendo previamente que ningunha definición podería eliminar completamente o solapamento entre actividades das diferentes técnicas, define explicitamente os termos bioinformática e bioloxía computacional:[16]
- Bioinformática é a investigación, desenvolvemento ou aplicación de ferramentas computacionais e aproximacións para a expansión do uso de datos biolóxicos, médicos, condutuais ou de saúde, incluíndo aquelas ferramentas que sirvan para adquirir, almacenar, organizar, analizar ou visualizar tales datos.
- Bioloxía computacional sería o desenvolvemento e aplicación de métodos teóricos e de análises de datos, modelaxe matemática e técnicas de simulación computacional ao estudo de sistemas biolóxicos, condutuais e sociais.
Deste xeito, a bioinformática tería máis que ver coa información, mentres que a bioloxía computacional o faría coas hipóteses. Por outra parte, o termo biocomputación adoita enmarcarse nas actuais investigacións con biocomputadoras e, por exemplo, T. Kaminuma defínea da seguinte forma:
- Biocomputación é a construción e uso de computadoras que conteñen compoñentes biolóxicos ou funcionan como organismos vivos.[17]
Á parte das definicións formais de organismos ou institucións de referencia, os manuais desta materia achegan as súas propias definicións operativas, loxicamente vinculadas en maior ou menor medida coas xa vistas. Como exemplo, David W. Mount, no seu difundido texto sobre bioinformática,[18] precisa que:
…a bioinformática céntrase máis no desenvolvemento de ferramentas prácticas para a xestión de datos e a análise (por exemplo, a presentación de información xenómica e análise secuencial), pero con menor énfase na eficiencia e na precisión.
Por outra parte, e segundo o mesmo autor:
…a bioloxía computacional xeralmente relaciónase co desenvolvemento de algoritmos novos e eficientes, que se pode demostrar funcionan sobre un problema difícil, tales como o aliñamento múltiple de secuencias ou a montaxe (ou ensamblaxe) de fragmentos de xenoma.
Por último, encóntrase en ocasións unha categorización explícita destes conceptos segundo a cal a bioinformática é unha subcategoría da bioloxía computacional. Por exemplo, a bióloga Cynthia Gibas anota que:[19]
A bioinformática é a ciencia do uso da información para entender a bioloxía. (...) Falando estritamente, a bioinformática é un subconxunto do campo maior da bioloxía computacional, (sendo esta última) a aplicación de técnicas analíticas cuantitativas no modelado de sistemas biolóxicos.
Porén, e refiríndose ao seu propio texto (Developing Bioinformatics Computer Skills, Desenvolvemento de habilidades computacionais para bioinformática), axiña aclara que:
...pasaremos de bioinformática a bioloxía computacional e viceversa. As distincións entre as dúas non son importantes para o noso propósito aquí.
En moitas ocasións, por tanto, os termos serán intercambiables e, agás en contextos de certa especialización, o significado último manterase claro utilizando calquera deles.
Historia
editarNeste capítulo, ademais dos feitos relevantes directamente relacionados co desenvolvemento da bioinformática, mencionaranse algúns fitos científicos e tecnolóxicos que servirán para poñer nun contexto axeitado dito desenvolvemento.[20]
Iníciase esta breve historia na década de 1950, anos nos que Watson e Crick propoñen a estrutura de dobre hélice do ADN (1953),[21] F. Sanger secuencia a primeira proteína (insulina bovina) (1955),[22] e constrúese o primeiro circuíto integrado grazas aos traballos de Jack Kilby nos laboratorios de Texas Instruments (1958).[23]
As primeiras décadas de 1960 e 1970
editarNa década de 1960, L. Pauling elabora a súa teoría sobre a evolución molecular (1962),[24] e Margaret Dayhoff, unha das pioneiras da bioinformática, publica o primeiro dos Atlas de Secuencias de Proteínas (1965), que terá continuidade en anos posteriores, e converterase nunha obra básica no desenvolvemento estatístico feito algúns anos máis tarde, das matrices de substitución PAM, e será precursor das actuais bases de datos de proteínas.[25] Na área da tecnoloxía de computadoras, presentáronse no ARPA (Advanced Research Projects Agency, Axencia de proxectos de investigación avanzados) os protocolos de conmutación de paquetes de datos sobre redes de computadoras (1968), que permitirán enlazar pouco despois varios computadores de diferentes universidades nos Estados Unidos.:[26] nacera así ARPANET (1969), embrión do que posteriormente será Internet.
En 1970 publícase o algoritmo Needleman-Wunsch para aliñamento de secuencias;[27] establécese o Brookhaven Protein Data Bank (1971),[28] créase a primeira molécula de ADN recombinante (Paul Berg, 1972),[29] E. M. Southern desenvolve a técnica do Southern blot de localización de secuencias específicas de ADN (1976),[30] comeza a secuenciación de ADN e o desenvolvemento de software para analizalo (F. Sanger, software de R. Staden, 1977),[31][32] e publícase en 1978 a primeira secuencia de xenes completa dun organismo, o fago ΦX174 (5.386 pares de bases que codifican 9 proteínas).[33] En ámbitos tecnolóxicos vinculados, neses anos asístese ao nacemento do correo electrónico (Ray Tomlinson, BBN, 1971),[34] ao desenvolvemento de Ethernet (protocolo de comunicacións que facilitará a interconexión entre computadoras, principalmente en redes de ámbito local) feito por Robert Metcalfe (1973),[35] e ao desenvolvemento do protocolo TCP (Transmission Control Protocol, Protocolo de control de transmisión) feito por Vinton Cerf e Robert Kahn (1974), un dos protocolos básicos para Internet.[36]
Década de 1980
editarNesta década prodúcense en diversas áreas importantes avances:
Nos primeiros anos da década de 1980 publícase como investigar a estrutura terciaria mediante RMN; na seguinte década desenvólvense métodos para predicir de novo algunhas estruturas secundarias.
- Científicos: trala secuenciación do fago ΦX174 a finais da década de 1970, en 1982 F. Sanger consegue a secuenciación do xenoma do fago λ (fago lambda) utilizando unha nova técnica, a secuenciación shotgun (secuenciación de escopeta), desenvolvida por el mesmo;[37] tamén entre 1981 e 1982 K. Wüthrich publica o método de utilización da resonancia magnética nuclear (RMN) para determinar estruturas de proteínas;[38] Ford Doolittle traballa co concepto de secuencia motivo (similitudes superviventes, tal como as denomina no resumo do seu artigo) en 1981;[39] o descubrimento en 1983 da PCR (Polymerase Chain Reaction, reacción en cadea da polimerase) leva a poder facer a multiplicación de mostras de ADN, o que permitirá a súa análise;[40] en 1987, D. T. Burke et al. describen o uso de cromosomas artificiais de lévedo (YAC, Yeast Artificial Chromosome),[41] e Kulesh et al. sentan as bases dos chips de ADN.[42]
- Bioinformáticos: polo que se refire ao desenvolvemento de algoritmos, métodos e programas, aparece o algoritmo Smith-Waterman (1981),[43] o algoritmo de busca en bases de datos de secuencias (Wilbur-Lipman, 1983),[44] FASTP/FASTN (para a procura rápida de similitudes entre secuencias, 1985),[45] o algoritmo FASTA para comparación de secuencias (Pearson e Lipman, 1988),[46] e comezan a utilizarse modelos ocultos de Markov para analizar patróns e composición das secuencias (Churchill, 1989),[47] o que permitirá máis adiante localizar xenes[48] e predicir estruturas proteicas;[49] aparecen importantes bases de datos biolóxicas (GenBank en 1982, Swiss-Prot en 1986),[50][51] redes que as interconectan (EMBnet en 1988),[52] e poténcianse ou créanse diferentes organismos e institucións (o EMBL constitúese en 1974 pero desenvólvese no decurso da década de 1980, o NCBI en 1988);[53][54] tamén nestes anos empeza a estudarse a viabilidade da Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un ano despois polo DoE (Department of Energy, Departamento de enerxía do goberno dos Estados Unidos) e que poñerá en marcha proxectos piloto para desenvolver recursos e tecnoloxías esenciais; en 1987 o NIH (National Institutes of Health, Institutos nacionais da saúde dos Estados Unidos) comeza a achegar fondos para os proxectos xenoma, mentres que en 1988 dá comezo a Human Genome Initiative, máis coñecida finalmente como Human Genome Project (Proxecto Xenoma Humano).[14][55]
- Tecnolóxicos: En 1983 aparece o estándar Compact Disc (CD) na súa versión para ser lido por unha computadora (Yellow Book);[56] Jon Postel e Paul Mockapetris desenvolven en 1984 o sistema de nomes de dominio DNS, necesario para un direccionamento correcto e áxil en Internet;[57] en 1987 Larry Wall desenvolve a linguaxe de programación PERL, de amplo uso posterior en bioinformática;[58] e a finais da década aparecen as primeiras compañías privadas importantes con actividades vinculadas ao xenoma, proteínas, bioquímica etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), e que, en xeral, experimentarán importantes transformacións anos máis tarde.[59]
Década de 1990
editarNesta década producíronse os seguintes avances:
- Científicos: en 1991 comeza a secuenciación con EST (Expressed Sequence Tags, marcaxe de secuencias expresadas);[60] ao ano seguinte publícase o mapa de ligamento xenético (a baixa resolución) do xenoma humano completo;[61] en 1995 conseguiuse secuenciar completamente os primeiros xenomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millóns de pares de bases -Mbps- e 0,58 Mbps, respectivamente);[62][63] en 1996, e en diferentes pasos (por cromosoma), faise o mesmo co primeiro xenoma eucariota, o do lévedo (Saccharomyces cerevisiae, de 12 Mbps),[64] e en 1997 co xenoma de Escherichia coli (4,7 Mbps),[65] en 1998 co primeiro xenoma dun organismo multicelular (as 97 Mbp do verme Caenorhabditis elegans),[66] para rematar a década co primeiro cromosoma humano (o 22), que foi completamente secuenciado en 1999 (33,4 Mbps).[67]
- Bioinformáticos: aparecen a busca rápida de similitudes entre secuencias con BLAST (1990);[68] a de datos de pegadas de proteínas PRINTS, de Attwood e Beck (1994);[69] ClustalW, orientado ao aliñamento múltiple de secuencias, en 1994,[70] e PSI-BLAST en 1997;[71] a finais da década desenvólvese T-Coffee, que se publica en 2000.[72] En canto a actividades institucionais e creación de novos organismos, o DoE e os NIH presentan ao Congreso dos Estados Unidos en 1990 un plan de esforzos conxuntos no Human Genome Project para cinco anos;[73] créanse o Sanger Centre (Hinxton, UK, 1993; agora chamado Sanger Institute) e o European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[74][75]
- Tecnolóxicos: Tim Berners-Lee inventa a World Wide Web (1990) mediante aplicación de protocolos de rede que explotan as características do hipertexto;[76] en 1991 aparecen os protocolos definitivos de Internet (CERN)[77] e a primeira versión do sistema operativo Linux,[78] moi utilizado posteriormente en aplicacións científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará a secuenciación por escopeta de F. Sanger e analizará os resultados con software propio.[79]
No século XXI
editarHai que salientar que na década do 2000 culminaron moitos proxectos de secuenciación de xenomas de diferentes organismos: en 2000 publícanse, entre outros, o xenoma da planta Arabidopsis thaliana (100 Mb)[80] e o da mosca Drosophila melanogaster (180 Mbp).[81] Despois do borrador operativo da secuencia de ADN do xenoma humano feita en 2000,[82] en 2001 aparece publicado o xenoma humano (3 Gbp).[83] Pouco despois, en 2003, e con dous anos de adianto sobre o previsto, complétase o Human Genome Project.[84] Algúns dos xenomas analizados nos anos seguintes, foron, en 2004, o borrador do xenoma de Rattus norvegicus (rata),[85] en 2005 o do chimpancé,[86] en 2006 o do macaco rhesus,[87] en 2007 o do gato doméstico,[88] e en 2008 secuénciase por primeira vez o xenoma dunha muller.[89] Grazas ao desenvolvemento das técnicas axeitadas, produciuse despois un aluvión de secuenciacións de xenomas de todo tipo de organismos.
En 2003 fúndase no Estado español o Instituto Nacional de Bioinformática,[90] sostido pola Fundación Genoma España (fundada un ano antes, que pretende constituírse en instrumento do estado para potenciar a investigación neste eido).[91] En 2004, a FDA estadounidense (Food and Drug Administration, Axencia para os alimentos e fármacos) autoriza o uso dun chip de ADN por primeira vez.[92] En 2005 complétase o proxecto HapMap (catalogación de variacións xenéticas no ser humano).[93] En 2008 UniProt presenta o primeiro borrador do proteoma completo humano, con máis de vinte mil entradas.[94]
Pouco a pouco, vanse perfeccionando os primeiros programas bioinformáticos, e vemos versións máis completas como a 2.0 de ClustalW (reescrito en C en 2007).[95]
Principais áreas de investigación
editarAnálise de secuencias
editar- Artigo principal: Aliñamento de secuencias.
Desde que o fago ΦX174 foi secuenciado en 1977 (secuencia provisoria: un ano máis tarde publicaríase a secuencia completa definitiva),[33] foron descodificadas as secuencias de ADN de centos de organismos e gardadas en bases de datos. Eses datos son analizados para determinar os xenes que codifican certas proteínas, e tamén secuencias reguladoras. Unha comparación de xenes nunha especie ou entre especies pode mostrar similitudes entre funcións de proteínas, ou relacións entre especies (uso da filoxenética molecular para construír árbores filoxenéticas).[96]
Coa crecente cantidade de datos que se obteñen, desde hai moito fíxose pouco práctico analizar secuencias de ADN manualmente. Hoxe utilízanse programas de computadora para estudar o xenoma de miles de organismos, que conteñen miles de millóns de nucleótidos. Estes programas poden compensar mutacións (con bases intercambiadas, eliminadas ou inseridas) na secuencia de ADN, para identificar secuencias que están relacionadas, pero que non son idénticas.[39] Unha variante deste aliñamento de secuencias úsase no proceso de secuenciación.
A secuenciación coñecida como "shotgun" (ou de escopeta) foi usada, por exemplo, polo Instituto de Investigación Xenómica (The Institute for Genomic Research, TIGR, hoxe J. Craig Venter Institute) para secuenciar o primeiro xenoma bacteriano, o de Haemophilus influenzae)[62] non dá unha lista secuencial de nucleótidos, pero a cambio ofrece as secuencias de miles de pequenos fragmentos de ADN (cada un de aproximadamente 600 a 800 nucleótidos de longo). Os extremos destes fragmentos superpóñense (montaxe de secuencias) e, cando son aliñados da maneira correcta, constitúen o xenoma completo do organismo en cuestión.[97]
A secuenciación shotgun proporciona datos de secuencia rapidamente, pero a tarefa de ensamblar os fragmentos pode ser bastante complicada para xenomas moi grandes. No caso do Proxecto Xenoma Humano, tardáronse varios meses de tempo de procesador (nunha estación DEC Alpha de arredor do 2000) para ensamblar os fragmentos. A secuenciación shotgun é o método de elección para todos os xenomas secuenciados hoxe en día e os algoritmos de ensamblaxe xenómica son unha área crítica da investigación en bioinformática.
Outro aspecto da bioinformática en análises de secuencias é a busca automática de xenes e secuencias reguladoras dentro dun xenoma.[98] Non todos os nucleótidos dun xenoma son xenes. No xenoma de organismos máis avanzados, unha parte do ADN non serve a ningún propósito claro. Este ADN, coñecido como ADN non codificante (ou ás veces ADN lixo), pode, con todo, conter elementos funcionais aínda non recoñecidos.[99] A bioinformática serve para estreitar a fenda entre os proxectos de xenoma e proteoma (por exemplo, no uso de secuencias de ADN para identificación de proteínas).
Anotación de xenomas
editar- Artigo principal: Predición de xenes.
En xenómica, enténdese por anotación o proceso de marcado dos xenes e outras características biolóxicas da secuencia de ADN.[100] O primeiro sistema de software de anotación de xenomas foi o deseñado en 1995 por Owen White, que foi membro do equipo que secuenciou e analizou o primeiro xenoma en ser descodificado dun organismo independente, a bacteria Haemophilus influenzae. White construíu un software para localizar os xenes (lugares na secuencia de ADN que codifican unha proteína), o ARN de transferencia, e outras características, e para realizar as primeiras atribucións de función a eses xenes.[62] A maioría dos actuais sistemas de anotación xenómica traballan de forma similar, pero os programas dispoñibles para a análise do xenoma encóntranse en continuo cambio e mellora.
Bioloxía evolutiva computacional
editarA bioloxía evolutiva é o estudo da orixe ancestral das especies, e do seu cambio ao longo do tempo.[101] A informática serviu de apoio aos biólogos evolutivos en diferentes campos clave. Permitiu aos investigadores:
- Seguir a evolución dun alto número de organismos medindo cambios no seu ADN, en lugar de facelo exclusivamente mediante a súa taxonomía física ou observacións fisiolóxicas.[39]
- Máis recentemente, comparar xenomas completos, o que permite o estudo de eventos evolutivos máis complexos, tales como a duplicación de xenes, a transferencia horizontal de xenes, ou a predición de factores significativos na especiación bacteriana.[102]
- Construír modelos computacionais complexos de poboacións para predicir o resultado do sistema a través do tempo.[103]
- Seguir e compartir información sobre un amplo e crecente número de especies e organismos.
Os esforzos futuros centraranse en reconstruír a cada vez máis complexa árbore filoxenética da vida.[104] A área de investigación das ciencias da computación denominada computación evolutiva confúndese ocasionalmente coa bioloxía evolutiva computacional, pero ambas as áreas non teñen relación. Dito campo céntrase no desenvolvemento de algoritmos xenéticos e outras estratexias de resolución de problemas cunha marcada inspiración evolutiva e xenética.
Medición da biodiversidade
editarA biodiversidade dun ecosistema pode definirse como o conxunto xenómico completo de todas as especies presentes nun medio ambiente particular,[105] sexa este unha biopelícula nunha mina abandonada, unha pinga de auga de mar, unha manchea de terra, ou a biosfera enteira do planeta Terra. Utilízanse bases de datos para recoller os nomes das especies, e das súas descricións, distribucións, información xenética, estado e tamaños das poboacións, necesidades do seu hábitat, e de como interacciona cada organismo con outras especies. Úsase software especializado para encontrar, visualizar e analizar a información; e, o que é máis importante, para compartila con outros interesados.[106] A simulación computacional pode modelar cousas tales como a dinámica de poboación, ou calcular a mellora do acervo xenético dunha variedade (en agricultura), ou a poboación ameazada (en bioloxía da conservación). Un potencial moi excitante neste campo é a posibilidade de preservar as secuencias completas do ADN, ou xenomas, de especies ameazadas de extinción, o que permite rexistrar os resultados da experimentación xenética da Natureza in silico para a súa posible reutilización futura, aínda no caso de que tales especies acabaran finalmente por desaparecer.[107]
Poden citarse, como exemplos significativos, os proxectos Species 2000 Arquivado 01 de xullo de 2014 en Wayback Machine. ou uBio.
Análise da expresión xénica
editarA expresión xénica de moitos xenes pode determinarse pola medición de niveis de ARNm mediante múltiples técnicas, como as micromatrices de ADN, secuenciación de EST (Expressed sequence tag, Marcador de secuencia expresada), SAGE (Serial Analysis of Gene Expression, Análise en serie da expresión xénica), MPSS (Massively Parallel Signature Sequencing, Secuenciación de sinaturas masivamente paralela), ou diversas aplicacións de hibridación in situ. Todas estas técnicas son extremadamente propensas ao ruído e/ou suxeitas a nesgos na medición biolóxica, e unha das principais áreas de investigación na bioloxía computacional trata do desenvolvemento de ferramentas estatísticas para separar o sinal do ruído nos estudos de expresión xénica con alto volume de procesamento.[108] Estes estudos úsanse a miúdo para determinar os xenes implicados nun trastorno: poderían, por exemplo, compararse datos de micromatrices de células epiteliais cancerosas con datos de células non cancerosas para determinar as transcricións que son activadas ou reprimidas nunha poboación particular de células cancerosas.[109]
Análise da regulación
editarA regulación xénica é a complexa orquestación de eventos que comezan cun sinal extracelular como pode ser unha hormona, que dan lugar a un incremento ou diminución na actividade dunha ou máis proteínas.[110] Aplicáronse técnicas bioinformáticas para explorar varios pasos deste proceso. Por exemplo, a análise do promotor dun xene implica a identificación e estudo das secuencias motivo no ADN nos arredores da rexión codificante dun xene.[111] Estes motivos inflúen na medida en que esa rexión se vai transcribir a ARNm. Os datos de expresión poden usarse para inferir a regulación xénica: poderían compararse datos de micromatrices procedentes dunha ampla variedade de estados dun organismo para formular hipóteses sobre os xenes implicados en cada estado. Nun organismo unicelular, poderían compararse etapas do ciclo celular en variadas condicións de estrés (choque de calor, inanición etc.). Poderían aplicarse, entón, algoritmos de agrupamento (algoritmos de clustering, ou análises de cluster) a esa información de expresión para determinar que xenes se expresan simultaneamente.[112] Por exemplo, os promotores destes xenes pódense buscar segundo a abundancia de secuencias ou elementos reguladores.
Análise da expresión de proteínas
editar- Véxase tamén: Expresión xénica.
As micromatrices de proteínas e a espectrometría de masas de alto rendemento poden proporcionar unha instantánea das proteínas presentes nunha mostra biolóxica. A bioinformática é moi importante para darlle soporte a ambos os procedementos. A aproximación ás micromatices de proteínas ten que enfrontarse a problemas similares aos existentes para micromatrices destinadas a ARNm,[113] mentres que para a espectrometría de masas o problema é casar grandes cantidades de datos de masa coas masas preditas por bases datos de secuencias de proteínas, ademais da complicada análise estatística de mostras onde se detectan múltiples, pero incompletos, péptidos de cada proteína.[114]
Análise de mutacións no cancro
editarNo cancro, os xenomas das células afectadas son reordenados en complexas e aínda impredicibles maneiras. Realízanse esforzos masivos de secuenciación para identificar substitucións individuais de bases (ou mutacións puntuais de nucleótidos) aínda descoñecidos nunha variedade de xenes no cancro.[115] Os bioinformáticos seguen producindo sistemas automatizados para xestionar o importante volume de datos de secuencias obtido, e crean novos algoritmos e software para compararen os resultados de secuenciación coa crecente colección de secuencias do xenoma humano e dos polimorfismos da liña xerminal. Estanse a utilizar novas tecnoloxías de detección física, como as micromatrices de oligonucleótidos para identificar perdas e ganancias cromosómicas (técnica denominada hibridación xenómica comparativa),[116] e os arrays de polimorfismos de nucleótido simple para detectar puntos de mutación coñecidos.[117] Estes métodos de detección miden simultaneamente bastantes centos de miles de posicións ao longo do xenoma, e cando se usan cunha alta produtividade para analizar miles de mostras, xeran terabytes de datos en cada experimento. Deste xeito, as masivas cantidades e novos tipos de datos proporcionan novas oportunidades para os bioinformáticos. Con frecuencia encóntrase nos datos unha considerable variabilidade, ou ruído, polo que están en desenvolvemento métodos como o dos modelos ocultos de Markov e a análise de puntos de cambio para inferir cambios reais no número de copias dos xenes (número de copias dun xene particular no xenotipo dun individuo, cuxa magnitude pode ser elevada en células canceríxenas).[118][119]
Outro tipo de datos que require novidosos desenvolvementos informáticos é a análise das lesións atopadas de forma recorrente nun bo número de tumores, principalmente por análise automatizada de imaxe clínica.
Predición da estrutura das proteínas
editar- Artigos principais: Predición da estrutura de proteínas e Aliñamento estrutural.
A predición da estrutura de proteínas é outra importante aplicación da bioinformática. A secuencia de aminoácidos dunha proteína, tamén chamada estrutura primaria, pode determinarse doadamente a partir da secuencia de nucleótidos indicada no xene que a codifica.[120] Na inmensa maioría dos casos, esta estrutura primaria determina unicamente unha estrutura da proteína no seu ambiente nativo. (Hai, por suposto, excepcións, como a encefalopatía esponxiforme bovina, ou "mal das vacas tolas"; ver, tamén, prión.) O coñecemento desta estrutura é vital para entender a función da proteína.[121] En ausencia de mellores termos, a información estrutural das proteínas clasifícase xeralmente como estrutura secundaria, terciaria e cuaternaria. Unha solución xeral viable para a predición de tales estruturas é aínda un problema non resolto. Polo de agora, a maioría dos esforzos foron dirixidos cara a heurísticas que funcionan ben a maioría das veces.[122]
Unha das ideas clave en bioinformática é a noción de homoloxía. Na rama xenómica da bioinformática, úsase a homoloxía para predicir a función dun xene: se a secuencia do xene A, de función coñecida, é homóloga á secuencia do xene B, de función descoñeda, pode inferirse que B podería compartir a función de A.[123] Na rama estrutural da bioinformática, a homoloxía úsase para determinar que partes dunha proteína son importantes na formación da estrutura e na interacción con outras proteínas. Na técnica denominada modelaxe por homoloxía, esta información úsase para predicir a estrutura dunha proteína unha vez coñecida a estrutura dunha proteína homóloga.[124] Esta é, actualmente, a única vía para predicir estruturas de proteínas dunha maneira fiable.
Un exemplo do anterior é a homoloxía proteica similar entre a hemoglobina en humanos e o equivalente nos legumes (leghemoglobina). Ambas as dúas serven ao mesmo propósito de transportar oxíxeno no organismo. Aínda que as dúas teñen unha secuencia de aminoácidos completamente diferente, as súas estruturas son virtualmente idénticas, o que reflicte os seus propósitos practicamente idénticos.[125] Outras técnicas para predicir a estrutura das proteínas son o enfiado de proteínas (protein threading)[126] e a modelaxe de novo (desde cero), baseado nas características físicas e químicas.[127]
Ao respecto, poden verse tamén as páxinas motivo estrutural e dominio estrutural.
Xenómica comparada
editarO núcleo da análise comparada do xenoma é o establecemento da correspondencia entre xenes (análise ortólogo) ou entre outras características xenómicas de diferentes organismos. Estes mapas interxenómicos son os que fan posible rastrexar os procesos evolutivos responsables da diverxencia entre dous xenomas. Unha multitude de eventos evolutivos actuando a diferentes niveis organizativos conforman a evolución do xenoma.[128] Ao nivel máis baixo, as mutacións puntuais afectan a nucleótidos individuais. Ao maior nivel, amplos segmentos cromosómicos experimentan duplicación, transferencia horizontal, inversión, transposición, deleción e inserción. Finalmente, os xenomas enteiros están involucrados en procesos de hibridación, poliploidía e endosimbiose, o que orixina a miúdo unha súbita especiación.
A complexidade da evolución do xenoma formula moitos desafíos excitantes aos desenvolvedores de modelos matemáticos e algoritmos, quen deben recorrer a un espectro de técnicas algorítmicas, estatísticas e matemáticas que van desde exactas, heurísticas, con parámetros fixados, e mediante algoritmos de aproximación para problemas baseados en modelos de parsimonia, ata algoritmos "Markov Chain Monte Carlo" para análise bayesiano de problemas baseados en modelos probabilísticos.[129]
Moitos destes estudos están baseados na detección de homoloxía e a computación de familias de proteínas.
Modelaxe de sistemas biolóxicos
editar- Artigo principal: Bioloxía de sistemas.
Na bioloxía de sistemas utilízanse simulacións por computadora de subsistemas celulares (tales como redes de metabolitos e encimas que constitúen o metabolismo, vías de transdución de sinais, e redes de regulación xenética), tanto para analizar coma para visualizar as complexas conexións destes procesos celulares.[130] A vida artificial ou a evolución virtual tratan de entender os procesos evolutivos por medio da simulación por computadora de formas sinxelas de vida (artificial).[131]
Análise de imaxe de alto rendemento
editarEstanse usando tecnoloxías de computación para acelerar ou automatizar completamente o procesamento, a cuantificación e a análise de grandes cantidades de imaxes biomédicas con alto contido de información. Os modernos sistemas de análise de imaxes incrementan a habilidade do observador para realizar análises sobre un amplo ou complexo conxunto de imaxes, mellorando a precisión, a obxectividade (independencia dos resultados segundo o observador), ou a rapidez. Un sistema de análise totalmente desenvolvido podería substituír completamente ao observador. Aínda que estes sistemas non son exclusivos do campo das imaxes biomédicas, cada vez son máis importantes tanto para o diagnóstico coma para a investigación. Algúns exemplos:
- Cuantificación e localización subcelular con alta produtividade e precisión (high-content screening, citohistopatoloxía).[132]
- Morfometría.[133]
- Análise e visualización de imaxes clínicas.[134]
- Determinación de patróns no fluxo do aire en tempo real da respiración pulmonar de animais vivos.
- Cuantificación do tamaño da oclusión a través de imaxes en tempo real, tanto do desenvolvemento coma da recuperación, de lesións arteriais.[135]
- Realización de observacións condutuais baseadas en prolongadas gravacións en vídeo de animais de laboratorio.
- Observacións en infravermello (espectroscopia infravermella) para a determinación da actividade metabólica.[136]
Acoplamento proteína-proteína
editarNas últimas dúas décadas, determináronse decenas de miles de estruturas tridimensionais de proteínas por cristalografía de raios X e espectroscopia de resonancia magnética nuclear de proteínas (RMN de proteínas). Unha cuestión central para os científicos é se é viable a predición de posibles interaccións proteína-proteína baseándose soamente nesas formas 3D, sen realizar experimentos identificativos destas interaccións. Desenvolveuse toda unha variedade de métodos para enfrontarse ao problema do acoplamento proteína-proteína, mais parece que queda aínda moito traballo por facer nese campo.[137]
Ferramentas de software
editarAs ferramentas de software para bioinformática van desde simples ferramentas de liña de comandos ata programas gráficos moito máis complexos e servizos web autónomos situados en compañías de bioinformática ou institucións públicas. A ferramenta máis coñecida de bioloxía computacional entre os biólogos é, probablemente, BLAST, un algoritmo para determinar a similitude de secuencias arbitrarias con outras secuencias,[68] probablemente residentes en bases de datos de proteínas ou de secuencias de ADN. O NCBI (National Center for Biotechnology Information, dos Estados Unidos), por exemplo, proporciona unha aplicación moi utilizada, baseada en web, que traballa sobre as súas bases de datos.[138]
Para o aliñamento múltiple de secuencias, o clásico ClustalW,[70] actualmente na súa versión 2, é o software de referencia. Pode traballarse cunha aplicación do mesmo no EBI (Instituto Europeo de Bioinformática).[139]
BLAST e ClustalW son só dous exemplos dos moitos programas de aliñamento de secuencias dispoñibles. Existe, por outra parte, multitude de software bioinformático con outros obxectivos: aliñamento estrutural de proteínas, predición de xenes e outros motivos, predición da estrutura de proteínas, predición de acoplamento proteína-proteína, ou modelaxe de sistemas biolóxicos, entre outros.
Servizos web en bioinformática
editarDesenvolvéronse interfaces baseadas en SOAP e REST (Representational State Transfer, transferencia de estado representacional) para unha ampla variedade de aplicacións bioinformáticas, permitindo que unha aplicación, que está funcionando nunha computadora de calquera parte do mundo, poida usar algoritmos, datos e recursos de computación aloxados en servidores en calquera outra parte do planeta. As principais vantaxes son que o usuario final pode despreocuparse de actualizacións e modificacións no software ou nas bases de datos.[140] Os servizos bioinformáticos básicos, de acordo coa clasificación implícita do EBI, poden clasificarse en:[141]
- Servizos de obtención de información en liña (consultas a bases de datos, por exemplo).
- Ferramentas de análise (por exemplo, servizos que dean acceso a EMBOSS).
- Buscas de similitudes entre secuencias (servizos de acceso a FASTA ou BLAST, por exemplo).
- Aliñamentos múltiples de secuencias (acceso a ClustalW ou T-Coffee).
- Análise estrutural (acceso a servizos de aliñamento estrutural de proteínas, por exemplo).
- Servizos de acceso a literatura especializada e ontoloxías.
A dispoñibilidade destes servizos web baseados en SOAP a través de sistemas tales como os servizos de rexistro,[142] (servizos de distribución e descubrimento de datos a través de servizos web) demostra a aplicabilidade de solucións bioinformáticas baseadas en web. Estas ferramentas varían desde unha colección de ferramentas autónomas cun formato de datos común, e baixo unha única interface autónoma ou baseada en web, deica sistemas integradores e extensibles para a xestión do fluxo de traballo bioinformático.
Notas
editar- ↑ European Bioinformatics Institute (2006). "What is Bioinformatics?" (en inglés). Consultado o 3 de setembro de 2008.
- ↑ Un exemplo da utilización como sinónimos de bioinformática e bioloxía computacional encóntrase no propio sitio do Human Genome Project Arquivado 15 de marzo de 2008 en Wayback Machine., onde no seu glosario Arquivado 21 de setembro de 2008 en Wayback Machine. redirixe ao termo Bioinformatics a definición de Computational biology.
- ↑ Un exemplo da utilización como sinónimos de biocomputación e bioinformática encóntrase no sitio da Biocomputing Unit Arquivado 26 de outubro de 2008 en Wayback Machine. do Centro Nacional de Biotecnoloxía español dependente do CSIC
- ↑ Bajic, V. B.; et al. (2003). "From informatics to bioinformatics". Proceedings of the first Asia–Pacific bioinformatics conference on bioinformatics, Adelaide.
- ↑ Lander, Eric S.; Waterman, Michael S. (1995). Calculating the Secrets of Life: Contributions of the Mathematical Sciences to Molecular Biology. National Academy Press. ISBN 0-309-07502-5.
- ↑ Woon, Wei Lee (2003). "Core statistics for bioinformatics" (pdf) (en inglés). Consultado o 1 de setembro de 2008.
- ↑ Ver, por exemplo, os workshops anuais WABI (Workshop on Algorithms in Bioinformatics, obradoiro sobre algoritmos bioinformáticos); en septembro de 2008, do último WABI realizado pode encontrarse información en http://www.wabi07.org/, mentres que de WABI 2008 pode encontrarse información previa en http://algo2008.org/doku.php/wabi Arquivado 30 de xuño de 2015 en Wayback Machine.
- ↑ Frasconi, P.; Shamir, R (2003). NATO Science, ed. Artificial Intelligence and Heuristic Methods in Bioinformatics. IOS Press. ISBN 1586032941.
- ↑ Murray-Rust, P.; et al. (2005). "Chemistry in Bioinformatics" (pdf). Consultado o 1 de septembro de 2008.
- ↑ Ibba, M. (2002). "Biochemistry and bioinformatics: when worlds collide". Trends in Biochemical Sciences 27 (2). Arquivado dende o orixinal o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Russ B. Altman (2006). "Guide to Bioinformatics at Stanford University" (en inglés). Arquivado dende o orixinal o 13 de maio de 2008. Consultado o 28 de agosto de 2008.
Non hai un acordo universal sobre a definición de bioinformática. Falando en xeral, definímola como a creación e desenvolvemento de información avanzada e tecnoloxía computacionais para problemas de bioloxía, principalmente de bioloxía molecular (pero cada vez máis noutras áreas da bioloxía).
- ↑ Werner, E. (2005). "The Future and Limits of Systems Biology". Science Signaling 2005 (278). ISSN 1525-8882. Arquivado dende o orixinal o 11 de agosto de 2011. Consultado o 18 de xuño de 2015.
- ↑ 13,0 13,1 Kanehisa, M; Bork, P. (2003). "Bioinformatics in the post-sequence era". Nature Genetics 33.
- ↑ 14,0 14,1 U.S. Department of Energy Genome Research Programs (2008). "PRIMER: Genomics and Its Impact on Science and Society: The Human Genome Project and Beyond" (pdf) (en inglés). Consultado o 1 de septembro de 2008.
- ↑ Genevestigator é un completo exemplo de aplicación (baseada en web, neste caso) orientada ao estudo da expresión e regulación dos xenes.
- ↑ Huerta, M; et al. (17 de xullo de 2000). "NIH working definition of bioinformatics and computational biology" (PDF) (en inglés). Arquivado dende o orixinal (pdf) o 05 de setembro de 2012. Consultado o 21 de agosto de 2008.
- ↑ Kaminuma, T; Matsumoto, G (1991). Biocomputers. Chapman and Hall. ISBN 978-0412357701.
- ↑ Mount, David W. (2004). Cold Spring Harbor Laboratory Press, ed. Bioinformatics. Sequence and Genome Analysis (2ª ed.). ISBN 0-87969-712-1.
- ↑ Gibas, Cynthia (2001). O'Reilly, ed. Developing Bioinformatics Computer Skills. ISBN 1-56592-664-1.
- ↑ Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). "Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective". Bioinformatics - Trends and Methodologies. InTech. Arquivado dende o orixinal o 25 de xaneiro de 2012. Consultado o 8 de xaneiro de 2012.
- ↑ Watson, J.D. y Crick, F.H.C. (1953). "A Structure for Deoxyribose Nucleic Acid" (PDF). Nature 171: 737–738. PMID 13054692. doi:10.1038/171737a0. Consultado o 5 de setembro de 2008.
- ↑ Shampo, M. A. y Kyle, R. A. (2002). "Frederick Sanger—Winner of 2 Nobel Prizes" (en inglés). Mayo Clinic Proceedings. Arquivado dende o orixinal o 16 de xaneiro de 2009. Consultado o 5 de septembro de 2008.
- ↑ Texas Instruments. "The Chip that Jack Built" (en inglés). Consultado o 5 de setembro de 2008.
- ↑ Pauling, L. y Zuckerkandl, E. (1962). "Molecular disease, evolution, and genic heterogeneity". Horizons in Biochemistry. Academic Press. 978-0124004504.
- ↑ Guigó, R. (2003). "Bioinformática: La creciente interconexión entre biología y computación" (PDF). Boletín electrónico de la Sociedad Española de Genética (17). Arquivado dende o orixinal (PDF) o 11 de agosto de 2011. Consultado o 18 de xuño de 2015.
- ↑ Hauben, M. (1998). "History of ARPANET". Behind the Net: The Untold Story of the ARPANET and Computer Science (en inglés). Consultado o 5 de setembro de 2008.
- ↑ Needleman, S. y Wunsch, C. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (63).
- ↑ Bernstein, Frances C.; et al. (November 1977). "The Protein Data Bank. A Computer-Based Archival File for Macromolecular Structures". European Journal of Biochemistry (en inglés) 80 (2): 319–324. ISSN 0014-2956. PMID 923582. doi:10.1111/j.1432-1033.1977.tb11885.x. Arquivado dende o orixinal o 17 de outubro de 2019. Consultado o 09 de abril de 2019.
- ↑ Berg, P.; et al. (1972). "Biochemical Method for Inserting New Genetic Information into DNA of Simian Virus 40: Circular SV40 DNA Molecules Containing Lambda Phage Genes and the Galactose Operon of Escherichia coli" (PDF). Proceedings of the National Academy of Sciences 69 (10).
- ↑ Southern, E. M. (1975). "Detection of specific sequences among DNA fragments separated by gel electrophoresis". Journal of Molecular Biology 98 (3).
- ↑ Sanger, F.; et al. (1977). "DNA sequencing with chain-terminating inhibitors". Proceedings of National Academy of Sciences 74 (12).[Ligazón morta]
- ↑ Staden, R. (1977). "Sequence data handling by computer". Nucleic Acids Research 4 (11). Páxs. 4037-4051.[Ligazón morta]
- ↑ 33,0 33,1 Sanger, F.; et al. (1978). "The nucleotide sequence of bacteriophage φX174". Journal of Molecular Biology 125 (2). Arquivado dende o orixinal o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Tomlinson, R. "The First Network Email" (en inglés). BBN Technologies. Arquivado dende o orixinal o 06 de maio de 2006. Consultado o 6 de setembro de 2008.
- ↑ Alfred, R. (2008). "May 22, 1973: Enter Ethernet". WIRED. Arquivado dende o orixinal o 12 de abril de 2013. Consultado o 18 de xuño de 2015.
- ↑ Cerf, V., Kahn, R.; et al. (2003). Internet Society, ed. "A Brief History of the Internet" (en inglés). Arquivado dende o orixinal o 22 de decembro de 2001. Consultado o 6 de setembro de 2008.
- ↑ Sanger, F.; et al. (1982). "Nucleotide sequence of bacteriophage λ DNA". Journal of Molecular Biology 162 (4). Arquivado dende o orixinal o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Wüthrich, K.; et al. (1982). "Sequential Resonance Assignments as a Basis for Determination of Spatial Protein Structures by High Resolution Proton Nuclear Magnetic Resonance" (PDF). Journal of Molecular Biology (155). Arquivado dende o orixinal (PDF) o 03 de outubro de 2006. Consultado o 18 de xuño de 2015.
- ↑ 39,0 39,1 39,2 Doolittle, R. F. (1981). "Similar amino acid sequences: chance or common ancestry?". Science 214 (4517).
- ↑ Bartlett, J. M. S., Stirling, D. (2003). "A Short History of the Polymerase Chain Reaction". Methods in Molecular Biology 226.
- ↑ Burke, D. T., el al. (1987). "Cloning of Large Segments of Exogenous DNA into Yeast by Means of Artificial Chromosome Vectors" (PDF). Science 236 (4803). Arquivado dende o orixinal (PDF) o 09 de novembro de 2004. Consultado o 18 de xuño de 2015.
- ↑ Kulesh, D. A.; et al. (1987). "Identification of interferon-modulated proliferation-related cDNA sequences" (PDF). Proceedings of the National Academy of Sciences 84 (23).
- ↑ Smith T. F., Waterman M. S. (1981). "Identification of Common Molecular Subsequences" (PDF). Journal of Molecular Biology 147. doi:10.1016/0022-2836(81)90087-5. Arquivado dende o orixinal (PDF) o 17 de xullo de 2012. Consultado o 18 de xuño de 2015.
- ↑ Wilbur, W. J., Lipman, D. J. (1983). "Rapid similarity searches of nucleic acid and protein data banks" (PDF). Proceedings of the National Academy of Sciences 80.
- ↑ Lipman, D. J., Pearson, W. R. (1985). "Rapid and Sensitive Protein Similarity Searches". Science 227 (4693).
- ↑ Lipman, D. J., Pearson, W. R. (1988). "Improved tools for biological sequence comparison." (PDF). Proceedings of the National Academy of Sciences 85 (8).
- ↑ Churchill, G. A. (1989). "Stochastic models for heterogeneous DNA sequences". Bulletin of Mathematical Biology 51 (1).
- ↑ Un exemplo de artigo de predición de xenes en Escherichia coli aplicando HMM é o de Krogh, A., et al. (1993) A Hidden Markov Model that finds genes in E. coli DNA
- ↑ Un exemplo de artigo de predición de estruturas de proteínas é o de Sonnhammer, E. L. L. (1998) A hidden Markov model for predicting transmembrane helices in protein sequences
- ↑ Cravedi, K (2008). AAAS (EurekAlert), ed. "GenBank celebrates 25 years of service" (en inglés). Arquivado dende o orixinal o 12 de xaneiro de 2009. Consultado o 7 de setembro de 2008.
- ↑ Bairoch, A., Boeckmann, B. (1994). "The SWISS-PROT protein sequence data bank: current status". Nucleic Acids Research 22 (17). Arquivado dende o orixinal o 01 de agosto de 2013. Consultado o 18 de xuño de 2015.
- ↑ Un bo recurso de introdución a EMBnet é a páxina What is EMBnet? Arquivado 07 de setembro de 2008 en Wayback Machine. da propia web da organización
- ↑ Office of Information and Public Affairs (EMBL) (2008). EMBL, ed. "Brief History" (en inglés). Arquivado dende o orixinal o 24 de xullo de 2008. Consultado o 7 de setembro de 2008.
- ↑ National Center for Biotechnology Information (2004). NCBI, ed. "NCBI at a Glance: Our Mission" (en inglés). Consultado o 7 de setembro de 2008.
- ↑ U. S. Human Genome Project (2008). Office of Science - U. S. Dpt. of Energy, ed. "Major Events in the U.S. Human Genome Project and Related Projects" (en inglés). Arquivado dende o orixinal o 06 de setembro de 2008. Consultado o 7 de setembro de 2008.
- ↑ Davidson, M. W. (2003). Florida State University, ed. "History of the Compact Disc" (en inglés). Consultado o 7 de setembro de 2008.
- ↑ Robles, O. (2003). "¿Qué es el DNS?" (PDF). Boletín de Política Informática (Instituto Nacional de Estadística y Geografía, gobierno de México) (1).
- ↑ Mount, D. W. (2004). "Bioinformatics Programming Using Perl and Perl Modules". En New York: Cold Spring Harbor Laboratory Press. Bioinformatics: Sequence and Genome Analysis - 2nd ed. ISBN 0-87969-712-1.
- ↑ Accelrys Software Inc. "About Accelrys" (en inglés). Arquivado dende o orixinal o 09 de xaneiro de 2010. Consultado o 7 de setembro de 2008.
- ↑ Adams, M. D.; et al. (1991). "Complementary DNA sequencing: expressed sequence tags and human genome project". Science 252 (5013).
- ↑ Weissenbach, J.; et al. (1992). "A second-generation linkage map of the human genome". Nature 359 (6398).
- ↑ 62,0 62,1 62,2 Fleischmann, R. D.; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd.". Science 269 (5223).
- ↑ Fraser, C. M.; et al. (1995). "The Minimal Gene Complement of Mycoplasma genitalium". Science 270 (5235).
- ↑ National Human Genome Research Institute - NIH (1996). "International Team Completes DNA Sequence of Yeast" (en inglés). Consultado o 9 de setembro de 2008.
- ↑ Blattner, F. R. (1997). "The complete genome sequence of Escherichia coli K-12". Science 277 (5331).
- ↑ C. elegans Sequencing Consortium (1998). "Genome sequence of the nematode C. elegans: a platform for investigating biology". Science 282 (5396).
- ↑ Dunham, I.; et al. (1999). "The DNA sequence of human chromosome 22". Nature 402 (402). ISSN 0028-0836, págs. 489-495.
- ↑ 68,0 68,1 Altschul, S. F. (1990). "Basic Local Alignment Search Tool" (PDF). Journal of Molecular Biology 215 (3). Arquivado dende o orixinal (PDF) o 13 de outubro de 2010. Consultado o 18 de xuño de 2015.
- ↑ Attwood, T. K.; Beck, M. E. (1994). "PRINTS–a protein motif fingerprint database". Protein Engineering 7 (7). ISSN 1741-0134, Páxs. 841-848.
- ↑ 70,0 70,1 Thompson, J. D.; et al. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Research 22 (22). Páxs. 4673-80.[Ligazón morta]
- ↑ Altschul, S. F.; et al. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs". Nucleic Acids Research 25 (17). Págs. 3389-402. Arquivado dende o orixinal o 11 de maio de 2008. Consultado o 18 de xuño de 2015.
- ↑ Notredame, C. (2000). "T-Coffee: A novel method for fast and accurate multiple sequence alignment". Journal of Molecular Biology 302 (1): 205–217.
- ↑ Roberts, L. (2001). "A History of the Human Genome Project". Science 291 (5507). Páx. 1195.
- ↑ Sanger Institute (2008). "Introduction to the Sanger Institute: General Information" (en inglés). Consultado o 10 de setembro de 2008.
- ↑ European Bioinformatics Institute (2006). "About the EMBL-EBI" (en inglés). Consultado o 10 de setembro de 2008.
- ↑ CERN (2008). "Welcome to info.cern.ch: The website of the world's first-ever web server" (en inglés). Consultado o 10 de setembro de 2008.
- ↑ Berners-Lee, T.; et al. (1992). "World-Wide Web: An Information Infrastructure for High-Energy Physics". Proceedings of the Workshop on Software Engineering, Artificial Intelligence and Expert Systems for High Energy and Nuclear Physics.
- ↑ Linux Online! (1994-2008). "The History of Linux" (en inglés). linux.org. Arquivado dende o orixinal o 01 de novembro de 2008. Consultado o 10 de setembro de 2008.
- ↑ Celera (2008). "Celera: Our History" (en inglés). Arquivado dende o orixinal o 14 de maio de 2008. Consultado o 10 de setembro de 2008.
- ↑ The Arabidopsis Initiative (2000). "Analysis of the genome sequence of the flowering plant Arabidopsis thaliana". Nature 408. Páxs. 796-815.
- ↑ Adams, M. D.; et al. (2000). "The Genome Sequence of Drosophila melanogaster". Science 287 (5461). Páxs. 2185-2195.
- ↑ Thompson, A. (2000). National Human Genome Research Institute - NHGRI (NIH), ed. "International Human Genome Sequencing Consortium Announces "Working Draft" of Human Genome" (en inglés). Arquivado dende o orixinal o 25 de xuño de 2009. Consultado o 13 de setembro de 2008.
- ↑ Venter, J. C.; et al. (2001). "The Sequence of the Human Genome" (PDF). Science 291 (5507). Páxs. 1304-1351.
- ↑ Human Genome Project (2003). "International Consortium Completes Human Genome Project". Human Genome Project Information (en inglés). Office of Science (DoE). Arquivado dende o orixinal o 24 de setembro de 2008. Consultado o 13 de setembro de 2008.
- ↑ National Human Genome Research Istitute - NHGRI (NIH) (2004). "Scientists Compare Rat Genome With Human, Mouse" (en inglés). NHGRI. Consultado o 13 de setembro de 2008.
- ↑ Chimpanzee Sequencing and Analysis Consortium (2005). "Initial sequence of the chimpanzee genome and comparison with the human genome". Nature 437 (7055). Páxs. 69-87.
- ↑ National Institutes of Health (NIH) (2006). "Researchers Assemble Second Non-Human Primate Genome". NIH News (en inglés). NIH. Consultado o 13 de setembro de 2008.
- ↑ ScienceDaily (2007). "Domestic Cat Genome Sequenced" (en inglés). ScienceDaily. Consultado o 13 de setembro de 2008.
- ↑ Enserink, M. (2008). "GENOMICS: Read All About It--The First Female Genome! Or Is It?" (en inglés). Science. Consultado o 13 de setembro de 2008.
- ↑ Fundación Genoma España (2008). "Instituto Nacional de Bioinformática: ¿Qué es?". Fundación Genoma España. Arquivado dende o orixinal o 07 de decembro de 2008. Consultado o 13 de setembro de 2008.
- ↑ Fundación Genoma España (2008). "Fundación Genoma España: Historia". Fundación Genoma España - Información Corporativa. Arquivado dende o orixinal o 07 de decembro de 2008. Consultado o 13 de setembro de 2008.
- ↑ U. S. Food and Drug Administration - FDA (2004). "FDA Clears First of Kind Genetic Lab Test". FDA News (en inglés). FDA. Consultado o 13 de setembro de 2008.
- ↑ The International HapMap Consortium (2005). "A haplotype map of the human genome" (PDF). Nature 437. Páxs. 1299-1320.
- ↑ UniProt Consortium (2008). "First draft of the complete human proteome available in UniProtKB/Swiss-Prot". UniProt News (en inglés). Consultado o 21 de setembro de 2008.
- ↑ Larkin, M. A.; et al. (2007). "Clustal W and Clustal X version 2.0". Bioinformatics 23 (21). Páxs. 2947-2948.
- ↑ Li, Wen-Hsiung (2006). Sinauer Associates Inc, ed. Molecular Evolution. ISBN 978-0878934805.
- ↑ Pop, M. (2004). "Shotgun Sequence Assembly" (PDF). Advances in Computers 60. ISSN 0065-2458, Págs.193-248. Arquivado dende o orixinal (PDF) o 04 de xullo de 2008. Consultado o 18 de xuño de 2015.
- ↑ Center for Bioinformatics and Computational Biology - CBCB (2006). "Gene Finding Tools (e outros recursos)" (en inglés). CBCB. Arquivado dende o orixinal o 18 de decembro de 2008. Consultado o 14 de setembro de 2008.
- ↑ The ENCODE Project Consortium (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project" (PDF). Nature 447 (NÚMERO). ISSN 0028-0836, Páxs. 799-816.
- ↑ Abascal, F. (2003). "Análisis de genomas. Métodos para la predicción y anotación de la función de las proteínas" (PDF). Arquivado dende o orixinal (pdf) o 09 de agosto de 2011. Consultado o 14 de setembro de 2008.
- ↑ Futuyma, Douglas J. (1997). Evolutionary Biology (3ª ed.). Sinauer Associates. ISBN 0878931899.
- ↑ Human Genome Project Information (2008). "Functional and Comparative Genomics Fact Sheet" (en inglés). U. S. Doe - Office of Science. Arquivado dende o orixinal o 20 de setembro de 2008. Consultado o 15 de setembro de 2008.
- ↑ Levin, S. A. (1997). "Mathematical and Computational Challenges in Population Biology and Ecosystems Science". Science 275 (5298). ISSN 0036-8075, Páxs. 334-343.
- ↑ PhyLoTA Project. "PhyLoTA project web site - Tools to build the tree of life from sequence databases" (en inglés). Univ. of Arizona. Arquivado dende o orixinal o 26 de febreiro de 2009. Consultado o 16 de setembre de 2008.
- ↑ United Nations Environment Programme - UNEP; et al. (1992). "The diversity of life". Global Biodiversity Strategy: Guidelines for action to save, study and use Earth's biotic wealth sustainably and equitably (en inglés). World Resources Institute (pola edición en web). Arquivado dende o orixinal o 23 de setembro de 2008. Consultado o 16 de setembro de 2008.
- ↑ Bisby, F. A. (2000). "The Quiet Revolution: Biodiversity Informatics and the Internet". Science 289 (5488). ISSN 0036-8075, Páxs. 2309-2312.
- ↑ Ryder, O. A.; et al. (2000). "DNA Banks for Endangered Animal Species". Science 288 (5464). ISSN 0036-8075, Páxs. 275-277.
- ↑ Wirta, V. (2006). "Mining the transcriptome – methods and applications" (pdf) (en inglés). Royal Institute of Technology, School of Biotechnology (Estocolmo). Consultado o 18 de setembro de 2008.
- ↑ Buhler, J. (2002). "Anatomy of a Comparative Gene Expression Study" (en inglés). Washington University in St. Louis - Dpt. of Computer Science & Engineering. Consultado o 18 de setembro de 2008.
- ↑ King, M. W. (2008). "Control of Gene Expression". The Medical Biochemistry Page (en inglés). Consultado o 19 de setembro de 2008.
- ↑ Pedersen, A. G.; et al. (1999). "The Biology of Eukaryotic Promoter Prediction—a Review". Computers & Chemistry 23 (3-4). Páxs. 191-207.
- ↑ Moreau, Y. (2002). "Functional bioinformatics of microarray data: from expression to regulation". Proceedings of the IEEE 90 (11). Páxs. 1722-1743.
- ↑ Poetz, O.; et al. (2005). "Protein microarrays: catching the proteome". Mechanisms of Ageing and Development 126 (1). Páxs. 161-170.
- ↑ Cristoni, S.; Bernardi, L. R. (2004). "Bioinformatics in mass spectrometry data analysis for proteomics studies". Expert Review of Proteomics 1 (4). Páxs. 469-483.
- ↑ American Association for Cancer Research (2008). "Cancer Concepts: SNPs" (en inglés). Arquivado dende o orixinal o 24 de setembro de 2008. Consultado o 3 de outubro de 2008.
- ↑ Pinkel, D.; Albertson, D. G. (2005). "Array comparative genomic hybridization and its applications in cancer" (PDF). Nature Genetics 37. Páxs. S11-S17.
- ↑ Zhao, X.; et al. (2004). "An Integrated View of Copy Number and Allelic Alterations in the Cancer Genome Using Single Nucleotide Polymorphism Arrays". Cancer Research 64. Páxs. 3060-3071.
- ↑ Lai, W. R.; et al. (2005). "Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data". Bioinformatics 21 (19). ISSN 1460-2059, Páxs. 3763-3770.
- ↑ Olshen, A. B.; Venkatraman, E. S. (2002). "Change-point analysis of array-based comparative genomic hybridization data". American Statistical Association Proceedings of the Joint Statistical Meetings, American Statistical Association, Alexandria, VA. Páxs. 2530-2535.
- ↑ Nirenberg, M. (2008). "The genetic code" (PDF). Nobel Lecture (en inglés). nobelprize.org. Arquivado dende o orixinal (pdf) o 09 de xaneiro de 2009. Consultado o 25 de setembro de 2008.
- ↑ Hegyi, H.; Gerstein, M. (1999). "The relationship between protein structure and function: a comprehensive survey with application to the yeast genome". Journal of Molecular Biology 228 (1). Páxs. 147-164. Arquivado dende o orixinal o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Moult, J. (2005). "A decade of CASP: progress, bottlenecks and prognosis in protein structure prediction". Current Opinion in Structural Biology 15 (3). Páxs. 285-289. Arquivado dende o orixinal o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Pellegrini, M.; et al. (1999). "Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles" (PDF). Proceedings of the National Academy of Sciences (EE.UU.) 96 (8). 4285-4288. Arquivado dende o orixinal (PDF) o 24 de setembro de 2015. Consultado o 18 de xuño de 2015.
- ↑ Martí-Renom, M. A.; et al. (2000). "Comparative Protein Structure Modeling of Genes and Genomes" (PDF). Annual Review of Biophysics and Biomolecular Structure 29. Páxs. 291-325.
- ↑ Berg, J. M.; et al. (2002). "7 - Exploring Evolution". Biochemistry (5ª ed.). W. H. Freeman and Co. (edición papel); NCBI Bookshelf (edición electrónica). ISBN 0716730510.
Como a estrutura tridimensional está asociada de forma moito máis estreita coa súa función que coa súa secuencia, a estrutura terciaria está máis conservada evolutivamente do que o está a primaria. Esta conservación é aparente nas estruturas terciarias das globinas (...), as cales son extremadamente similares mesmo a semellanza entre (...) a hemoglobina humana (cadea α) e a leghemoglobina lupina non é estatísticamente significativa (15,6% de identidade).
- ↑ Bowie, J. U.; et al. (1991). "A Method to Identify Protein Sequences That Fold into a Known Three-Dimensional Stucture". Science 253 (5016). ISSN 0036-8075, Páxs. 164-170.
- ↑ Baker, D.; Sali, A. (2001). "Protein Structure Prediction and Structural Genomics". Science 294 (5540). ISSN 0036-8075, Páxs. 93-96.
- ↑ Hardison, R. C. (2003). "Comparative Genomics" (PDF). PLoS Biology 1 (2). Páxs. 156-160. Arquivado dende o orixinal (PDF) o 06 de xuño de 2020. Consultado o 18 de xuño de 2015.
- ↑ Eriksen, N. (2003). "Combinatorial methods in comparative genomics" (pdf) (en inglés). Royal Institute of Technology - Department of Mathematics (Estocolmo). Consultado o 24 de setembro de 2008.
- ↑ Kitano, H. (2002). "Systems Biology: A Brief Overview". Science 295 (5560). ISSN 0036-8075, Páxs. 1662-1664.
- ↑ Bedau, M. A. (2003). "Artificial life: organization, adaptation and complexity from the bottom up" (PDF). TRENDS in Cognitive Sciences 7 (11). Páxs. 505-512. Arquivado dende o orixinal (PDF) o 02 de decembro de 2008. Consultado o 18 de xuño de 2015.
- ↑ Jones, T. R.; et al. (2006). "Methods for High-Content, High-Throughput Image-Based Cell Screening" (PDF). Proceedings of the Workshop on Microscopic Image Analysis with Applications in Biology held in association with MICCAI06 (Medical Image Computing and Computer-Assisted Intervention) - Copenhague, 5 de outubro de 2006. Páxs. 65-72.
- ↑ Zelditch, M.; et al. (2004). Geometric Morphometrics for Biologists: A Primer. Academic Press. ISBN 0127784608.
- ↑ Meijer, G. A.; et al. (1997). "Origins of... Image analysis in clinical pathology". Journal of Clinical Pathology 50 (5). Páxs. 365-370.[Ligazón morta]
- ↑ Craiem, D.; et al. (2008). "New Assessment of Endothelium-Dependent Flow-Mediated Vasodilation to Characterize Endothelium Dysfunction". American Journal of Therapeutics 15 (4). Páxs. 340-344.
- ↑ Ellis, D. I.; Goodacre, R. (2006). "Metabolic fingerprinting in disease diagnosis: biomedical applications of infrared and Raman spectroscopy". The Analyst 131. Páxs. 875-885.
- ↑ Russell, R. B.; et al. (2004). "A structural perspective on protein–protein interactions" (PDF). Current Opinion in Structural Biology 14. Páxs. 313-324. Arquivado dende o orixinal (PDF) o 16 de agosto de 2011. Consultado o 18 de xuño de 2015.
- ↑ National Center for Biotechnology Information - NCBI. "NCBI/BLAST Home" (en inglés). Consultado o 14 de setembro de 2008.
- ↑ Instituto Europeo de Bioinformática - EBI (2008). "EMBL-EBI: ClustalW2" (en inglés). Consultado o 14 de setembro de 2008.
- ↑ European Bioinformatics Institute (2006). "EBI Web Services" (en inglés). Consultado o 3 de setembro de 2008.
- ↑ European Bioinformatics Institute (2006). "Web Services at the EBI" (en inglés). Consultado o 3 de setembro de 2008.
- ↑ BioMoby, usado por, entre outros, o Instituto Nacional de Bioinformática Arquivado 28 de xuño de 2015 en Wayback Machine. español, é un exemplo de tales servizos de rexistro. Xera unha infraestrutura para a distribución e o descubrimento de datos biolóxicos a través de servizos web.
Véxase tamén
editarBibliografía
editar- Attwood, T.K., e Parry-Smith, D.J (2002). Introducción a la Bioinformática (en espanol). Prentice Hall. ISBN 84-205-3551-6.
- Aluru, Srinivas, ed. (2006). Handbook of Computational Molecular Biology (en inglés). Computer and Information Science Series. Chapman & Hall/Crc. ISBN 1-58488-406-1.
- Baldi, P and Brunak, S (2001). Bioinformatics: The Machine Learning Approach (en inglés) (2nd edition ed.). MIT Press. ISBN 0-262-02506-X.
- Barnes, M.R. and Gray, I.C., eds. (2003). Bioinformatics for Geneticists (en inglés) (first edition ed.). Wiley. ISBN 0-470-84394-2.
- Baxevanis, A.D. and Ouellette, B.F.F., eds. (2005). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins (en inglés) (third edition ed.). Wiley. ISBN 0-471-47878-4.
- Baxevanis, A.D., Petsko, G.A., Stein, L.D., and Stormo, G.D., eds. (2007). Current Protocols in Bioinformatics (en inglés). Wiley. ISBN 0-471-25093-7.
- Cristianini, N. and Hahn, M. (2006). Introduction to Computational Genomics (en inglés). Cambridge University Press. ISBN 978-0-521-67191-0.
- Durbin, R., S. Eddy, A. Krogh and G. Mitchison (1998). Biological sequence analysis (en inglés). Cambridge University Press. ISBN 0-521-62971-3.
- Michael S. Waterman (1995). Introduction to Computational Biology: Sequences, Maps and Genomes (en inglés). CRC Press. ISBN 0-412-99391-0.
- Mount, David W. (2004). Bioinformatics: Sequence and Genome Analysis (en inglés) (2ª ed. ed.). Spring Harbor Press. ISBN 0-87969-712-1.
- Pevzner, Pavel A. (2000). Computational Molecular Biology: An Algorithmic Approach (en inglés). The MIT Press. ISBN 0-262-16197-4.
Ligazóns externas
editar- Achuthsankar S Nair Computational Biology & Bioinformatics - A gentle Overview Arquivado 16 de decembro de 2008 en Wayback Machine., Communications of Computer Society of India, xaneiro de 2007
- Foundations of Computational and Systems Biology MIT Course
- Bioinformatics software resources. Gilbert, D. Briefings in Bioinformatics, 2004 5(3):300-304. Recursos software para bioinformática.
- Instituto Europeo de Bioinformática
- Bioinformatics