Publicado em 28 de Abril de 2015 às 10:55 em: Bioinformática Exames
Em um de nossos últimos posts falamos sobre a fusão da tecnologia e especialistas em bioinformática e biologia para poder digitalizar e processar grandes massas de dados genéticos, a partir do seu DNA, em busca de variantes associadas a doenças genéticas ou determinados fenótipos (características expressas ou observáveis em nosso corpo humano). Neste artigo vamos nos aprofundar mais sobre a computação que está por trás dos exames de sequenciamento genético e os desafios e oportunidades para aplicações clínicas.
Para que o laudo técnico de um de nossos pacientes possa ser liberado ao profissional solicitante ou paciente, é necessário que a amostra do paciente passe por múltiplas etapas de processamento e análise, as quais em conjunto definem um "workflow" ou um pipeline de bioinformática para busca e análise de variantes genéticas (leia mais sobre o tema neste post). Para que o pipeline funcione corretamente, é necessário a participação de três entidades: O analista de bioinformática, um profissional com conhecimentos multidisciplinares em programação , banco de dados, genética e biologia molecular; a máquina: sequenciador, responsável por digitalizar as sequências de DNA em arquivos com longas cadeias de caracteres (A, C , T, G); e finalmente, a infra-estrutura local ou nas nuvens com vários softwares específicos de bioinformática e bancos de dados que auxiliarão nas etapas de processamento e identificação de variantes.
Para ilustrarmos nosso workflow, disponibilizamos um infográfico (link) ilustrando cada uma das etapas e algumas curiosidades sobre a computação por trás destes exames.
A etapa de pré-sequenciamento começa na coleta da amostra do paciente, que pode ser por saliva, sangue ou outro material biológico. O volume ou tipo de amostra depende do exame genético solicitado. Por exemplo, para exames de análise tumoral pode ser solicitada ao paciente uma amostra com tecido tumoral solidificado, em outros uma amostra de sangue ou até a sua própria saliva coletada em kits especiais. Um das particularidades nestes tipos de exames genéticos é que não é necessário que o paciente esteja em JEJUM para realizar a coleta, o que torna a realização do exame mais rápida e confortável para o paciente. Após recebida a amostra, entra em cena nosso time de biológos e biomédicos que iniciam a próxima sub-etapa: extração de DNA e captura das regiões de interesse. Com auxílio de equipamentos em nosso laboratório, como centrífugas de alta rotação, pipetas capazes de mensurar volumes microscópicos e robôs pipetadores, os nossos especialistas são capazes de extrair o DNA das células da amostra de um paciente e prepará-la para o sequenciamento. É importante lembrar que o DNA contém toda a informação genética de um ser vivo e em nosso caso, no genoma humano, este DNA está estruturado em 23 pares de cromossomos. Dentro dos cromossomos temos os genes, que têm um papel importante em nosso organismo, como por exemplo na síntese de proteínas. Existe uma área da biologia molecular que estuda a associação de doenças com variantes genéticas encontradas neste genes em populações, e é graças aos resultados destas pesquisas que é possível hoje utilizar o sequenciamento para aplicações clínicas. A captura das regiões de interesse em nosso DNA depende do exame solicitado, por exemplo, podemos analisar um conjunto de genes específicos que estão associados a doenças neurológicas ou determinados tipos de tumores, uma mutação específica em uma determinada região do gene, ou até todo o genoma humano. A captura destas regiões podem incluir desde alguns pares de bases até milhões de pares a serem analisados.
A próxima fase é o sequenciamento do DNA, onde é realizada a leitura do DNA de várias amostras em paralelo com uso de tecnologia de nova geração (NGS), permitindo em até 24-30 horas processar múltiplas amostras e produzir os dados digitalizados para as etapas de processamento. Os dados podem atingir um volume de 2 GB a 800 GB, a depender do tamanho da região sequenciada, da plataforma e da qualidade desejada. A qualidade desempenha um papel importante nesta análise de variantes, pois para que se possa identificar uma variante (uma alteração genética em uma base ou em uma sequência de bases) é necessário ter um grau de confiança satisfatório nos resultados.
Para termos uma noção da quantidade de dados produzidos nesta etapa e o porquê desta área ter atraído a indústria e academia para oferta de soluções computacionais de big data, decidimos fazer algumas contas e compartilhar com vocês na tabela abaixo:
Estamos falando do sequenciamento de um genoma completo do indivíduo bruto sem dados oriundos de análises a posteriori, caso fossemos fazer uma varredura em busca de variantes. Com as plataformas atuais de NGS, o tempo médio de sequenciamento do genoma completo é em torno de 36 horas, podendo sequenciar até 30 indíviduos semanalmente. Se desejássemos sequenciar a população da capital Recife, usando apenas uma máquina, levaria 961 anos! Para sequenciarmos em um tempo plausível, além de dezenas de datacenters interconectados, precisaríamos de um parque de sequenciadores para reduzir em 100x o tempo gasto! Embora seja um grande desafio, isto nos deixa empolgados pois sabemos do potencial de crescimento nesta área e estamos apenas bem no início, com 10-12 anos desde o primeiro genoma humano completamente mapeado.
Com o volume de informações crescendo em ritmo constante, em contraste com o tempo de resposta cada vez mais curto exigido pelas aplicações diagnósticas em algumas doenças mais graves, softwares específicos são desenvolvidos usando técnicas estado-da-arte nas áreas de computação, mesclando disciplinas como paralelismo, computação distribuída e armazenamento escalável para etapas subsequentes. Desta etapa em diante o bioinformata passa a desempenhar um papel importante, acompanhando os resultados obtidos durante o ciclo de análise de variantes.
As leituras de DNA armazenadas em arquivos texto no formato FASTA/FASTQ são alinhadas contra um genoma de referência. Alinhamento de sequências consiste no processo de comparar duas ou mais sequências de nucleotídeos de forma a se observar seu nível de similaridade. As sequências que saem do sequenciador são longas cadeias de DNA sem informações de posição de início ou término ou qual cromossomo/gene ele pertence, e para que possamos identificar uma variante, precisamos alinhar a sequência contra um genoma humano de referência. Institutos de pesquisa são responsáveis por prover versões de genomas de referência (hg18, hg19, etc.) para que outros pesquisadores, laboratórios e institutos possam usar em suas análises, e assim poderem comparar seus resultados obtidos. Essas versões de referência do genoma foram conseguidas durante o grande projeto de sequenciamento do primeiro genoma humano, que demorou 10 anos e consumiu até 3 bilhões de dólares.
Em posse do conjunto de sequências alinhadas, o pipeline passa para a fase de identificação das variantes que diferem entre a amostra do paciente e o genoma de referência. Softwares de bioinformática utilizam-se de algoritmos computacionais para identificar trocas (SNPs), deleções ou inserções (indels). O resultado é um arquivo contendo apenas as variantes detectadas. Estes dados podem conter desde nenhuma a dezenas ou milhares de variantes que precisam ser analisadas pelo nosso time de analistas. Todavia, somente conhecer as variantes não é suficiente para relacioná-las a uma doença ou ao quadro clínico do paciente. As variantes precisam ser anotadas, isto é, enriquecidas com informações como, por exemplo,: doenças genéticas clinicamente relacionadas (OMIM), sua classificação em bases de dados de variantes clínicas (CLINVAR) ou até sua predição de dano na proteína (Polyphen, Sift, etc.). A etapa de anotação de dados, se fosse realizada manualmente por nossos analistas procurando na web as referências e preenchendo planilhas, poderia levar horas ou até dias, e isto apenas para uma variante. E se fossem 100, 1000 ou 20 mil alterações? Já parou para pensar ? A solução está nos vastos bancos de dados genéticos indexados e montados por nosso time de bioinformatas de maneira que o software possa anotar todas as variantes de forma automática. O processo que levaria vários dias pode ser agora realizados em minutos. Com posse de vários dados genéticos anotados, surge uma oportunidade de ensinar agora os computadores a definirem prioridades e responderem perguntas do tipo: "Quais as variantes mais relevantes para o quadro clínico estudado para aquele paciente ? " Este é o próximo passo, com a adição de algoritmos de aprendizagem de máquina que são capazes de aprender com dados históricos e poder predizer a partir de agora um ranking de variantes, ordenando-as já priorizando para quais variantes os analistas devem dar uma maior atenção.
Na última etapa da análise, os bioinformatas, biológos e médicos usam os dados filtrados para uma análise minuciosa em busca de alterações genéticas relevantes ao quadro clínico do paciente. Esta etapa é a mais laboriosa, pois há uma curadoria e atenção especial dos analistas para validar os dados, discutir os resultados e reportar as variantes relevantes com as respectivas interpretações em um laudo técnico, finalizando assim o ciclo com a entrega do mesmo ao paciente e ao profissional solicitante.
Podemos afirmar que chegamos numa era em que o entendimento do genoma (ou parte dele) de um paciente é fundamental para a prática da medicina em diversas especialidades. O uso dos dados genéticos e outros registros médicos de um paciente podem auxiliar , por exemplo, no diagnóstico ou tratamento de uma desordem específica. Esta análise individualizada exige a participação conjunta da computação e biologia: a disciplina da bioinformática. Aqui na Genomika a co-interação entre os nossos geneticistas, biológicos e bioinformatas é intensa! A medicina genômica e a computação com big data já estão de mão dadas e não há indícios de que vão se separar ainda por muito tempo.
Em nossos próximos artigos vamos aprofundar sobre as variantes genéticas: os tipos de variantes e suas classificações!
Bons estudos e se você ficou interessado em conhecer nossos exames genéticos ou serviços visite nosso portal Genomika.com.br ! Até a próxima!