O sequenciamento de DNA é para determinar a ordem da sequência de nucleotídeos a um fragmento de DNA dado.
A sequência de DNA contém as informações de que os seres vivos precisam para sobreviver e se reproduzir. Determinar essa sequência é, portanto, útil tanto para pesquisas destinadas a saber como os organismos vivem quanto para assuntos aplicados. Na medicina , pode ser usado para identificar, diagnosticar e potencialmente encontrar tratamentos para doenças genéticas e virologia . Na biologia , o estudo de sequências de DNA tornou-se uma ferramenta importante para a classificação de espécies .
O sequenciamento de DNA foi inventado na segunda metade da década de 1970. Dois métodos foram desenvolvidos de forma independente, um pela equipe de Walter Gilbert nos Estados Unidos e outro pela equipe de Frederick Sanger (em 1977), no Reino Unido . Esses dois métodos são baseados em princípios diametralmente opostos: a abordagem de Sanger é um método de síntese enzimática seletiva, enquanto a de Maxam e Gilbert é um método de degradação química seletiva. Por esta descoberta, Gilbert e Sanger receberam o Prêmio Nobel de Química em 1980.
Inicialmente, o método de Sanger exigia a disponibilidade de DNA de fita simples que servia como molde para a síntese enzimática da fita complementar. Por isso, o primeiro organismo biológico cujo genoma foi sequenciado em 1977 é o vírus bacteriófago φX174 . Esse vírus tem a propriedade de ter um genoma constituído de DNA de fita simples que é encapsulado na partícula viral.
Nos últimos 25 anos, o método Sanger foi amplamente desenvolvido graças a vários avanços tecnológicos importantes:
O método de Maxam e Gilbert requer reagentes químicos tóxicos e permanece limitado em termos de tamanho dos fragmentos de DNA que pode analisar (<250 nucleotídeos). Menos fácil de robotizar, seu uso agora se tornou confidencial.
Este método é convencionalmente usado para realizar o sequenciamento de pequenos pontos. Para sequenciar um genoma inteiro, o sequenciamento de próxima geração é usado. O princípio deste método consiste em iniciar a polimerização do DNA utilizando um pequeno oligonucleotídeo (primer) complementar a parte do fragmento de DNA a ser sequenciado. A extensão do primer é realizada pelo fragmento Klenow (uma DNA polimerase I desprovida de atividade de exonuclease 5 '→ 3') e mantida por DNA polimerases termoestáveis , aquelas que são utilizadas para PCR . Os quatro desoxirribonucleotídeos (dATP, dCTP, dGTP, dTTP) são adicionados, bem como uma baixa concentração de um dos quatro didesoxirribonucleotídeos (ddATP, ddCTP, ddGTP ou ddTTP).
Esses didesoxirribonucleotídeos agem como "venenos" terminadores de cadeia: uma vez incorporados na nova fita sintetizada, eles evitam o alongamento adicional porque não têm uma extremidade 3'-OH (apenas um hidrogênio em vez da hidroxila). Esta terminação ocorre especificamente ao nível dos nucleotídeos correspondentes ao didesoxirribonucleotídeo incorporado na reação. Para o sequenciamento completo do mesmo fragmento de DNA, essa reação é repetida quatro vezes em paralelo, com os quatro diferentes didesoxirribonucleotídeos.
Por exemplo, na reação em que ddGTP foi adicionado, a síntese para no nível de G. A mistura de reação contendo dGTP e um pouco de ddGTP, a terminação ocorre estatisticamente dependendo se a DNA polimerase usa um desses nucleotídeos. Isso resulta em uma mistura de fragmentos de DNA de tamanhos crescentes, todos os quais terminam em um dos Gs na sequência. Esses fragmentos são então separados por eletroforese em gel de poliacrilamida , o que permite identificar a posição do Gs na sequência.
A detecção dos fragmentos assim sintetizados é feita pela incorporação de um traçador no DNA sintetizado. Inicialmente, esse traçador era radioativo; hoje, traçadores fluorescentes são usados, ligados ao oligonucleotídeo ou ao didesoxirribonucleotídeo.
Este método é baseado na degradação química do DNA e usa as diferentes reatividades das quatro bases A, T, G e C, para atingir clivagens seletivas. Ao reconstruir a ordem dos cortes, podemos voltar à sequência de nucleotídeos do DNA correspondente. Este sequenciamento químico pode ser dividido em seis etapas sucessivas:
O conhecimento da estrutura de um genoma em sua totalidade pode passar pelo seu sequenciamento. No entanto, como o tamanho dos genomas é de vários milhões de bases (ou megabases), é necessário acoplar as abordagens da biologia molecular às da ciência da computação para poder processar um número tão grande de dados.
Dois princípios principais de sequenciamento do genoma completo são usados. Em ambos os casos, o DNA genômico é fragmentado primeiro por métodos enzimáticos ( enzimas de restrição ) ou físicos ( ultrassom ):
A principal diferença entre esses dois princípios é que o sequenciamento hierárquico tenta alinhar um conjunto de clones grandes (~ 100 kb), enquanto no método geral todo o genoma é reduzido em pequenos fragmentos que são sequenciados e, em seguida, alinhados.
Após a extração, o DNA genômico é cortado por sonicação em fragmentos de 50 a 200 kb e, em seguida, clonado em um vetor adequado, como cromossomos bacterianos artificiais ou BAC. O número de clones deve permitir uma cobertura de 5 a 10 vezes o comprimento total do genoma estudado. A sobreposição e a ordenação dos clones são realizadas por hibridização de sondas específicas, ou por análise dos perfis de restrição , ou mais frequentemente por uma ordenação após sequenciação e hibridização das extremidades dos BACs. Depois de ordenar os clones, eles são fragmentados e sequenciados individualmente, em seguida, montados por alinhamento de bioinformática.
As vantagens deste método são uma maior facilidade de montagem dos fragmentos graças à sobreposição dos BACs, a possibilidade de comparar os fragmentos às bases de dados disponíveis e a possibilidade de partilhar o trabalho de sequenciação entre vários laboratórios, tendo cada um deles um região cromossômica.
O principal inconveniente é a dificuldade de clonar fragmentos contendo sequências repetidas muito frequentes em certos genomas, como os de mamíferos, o que dificulta a análise bioinformática final.
É um método de sequenciamento de DNA genômico inicialmente desenvolvido no laboratório de Frederick Sanger em Cambridge no final dos anos 1970 para sequenciar os primeiros genomas de vírus.
Este método foi popularizado por Craig Venter para o sequenciamento de grandes genomas, em particular dentro da empresa Celera Genomics . A primeira aplicação foi o sequenciamento de genomas bacterianos, depois do genoma de Drosophila e finalmente do genoma humano e murino . Para realizar o sequenciamento completo do genoma usando esta técnica, duas a três bibliotecas compostas de fragmentos aleatórios de DNA genômico são feitas. Entre as bibliotecas, os fragmentos divergem tanto em tamanho quanto em localização no genoma . A partir dessas bibliotecas, muitos clones são sequenciados e, em seguida, montados. A sequência total é obtida processando todas as bibliotecas usando ferramentas de bioinformática, alinhando os fragmentos usando as sequências sobrepostas.
As vantagens em relação ao sequenciamento por sequenciamento hierárquico são a rapidez da técnica e o menor custo. A desvantagem é que o processamento do computador não permite alinhar fragmentos que compreendem grandes sequências repetidas que estão frequentemente presentes nos genomas de mamíferos.
Esse método é comumente conhecido como espingarda ( espingarda serrada) ou Whole Genome Shotgun (WGS). Essa metáfora ilustra o caráter aleatório da fragmentação inicial do DNA genômico: todo o genoma é pulverizado, um pouco como se dispersam as pelotas desse tipo de arma de fogo.
O sequenciamento por hibridização é baseado no uso de chips de DNA contendo de várias centenas (para os chips de primeira geração) a vários milhares de oligonucleotídeos. O DNA a ser analisado é cortado em vários fragmentos que são então incubados no chip onde hibridizarão com os oligonucleotídeos aos quais são complementares. A leitura do chip (detecção de oligonucleotídeos hibridizados) permite obter o espectro da sequência de DNA , ou seja, sua composição em subsequências de n nucleotídeos, onde n é o tamanho das sondas no chip utilizado. O processamento do espectro por computador torna possível reconstituir toda a sequência.
uma adaptação da técnica de Sanger que usa fluorescência em vez de radioatividade . Os didesoxinucleotídeos incorporados são especificamente marcados com moléculas fluorescentes ou fluoróforos “ fluorocrômicos ” (ddATP-JOE, ddCTP-5-FAM, ddGTP-TAMRA e ddTTP-ROX).
A sequência de reação é realizada por PCR . A Taq polimerase realiza o alongamento para a incorporação de um didesoxinucleotídeo marcado com fluorescência. Os fragmentos sintetizados são então separados por eletroforese .
Um dispositivo automático pega a sequência de reação e a injeta em um capilar contendo um polímero de poliacrilamida . Durante a migração, um sistema óptico de laser detecta a fluorescência que passa na frente da janela do laser e que é emitida pelo ddNTP que termina o fragmento sob excitação (luz verde para JOE “ddATP”, azul para 5-FAM “ddCTP”, amarelo para TAMRA "ddGTP" e vermelho para ROX "ddTTP".
Ao separar essas moléculas por eletroforese de acordo com seu tamanho, pode-se ler as letras sucessivas que aparecem em forma de curvas em um eletroferograma (ou fluorograma ) cuja fluorescência corresponde à base desse ddNTP de terminação. O software de análise permite fazer a correspondência entre as curvas de fluorescência e o nucleotídeo incorporado.
As informações são registradas eletronicamente e a seqüência interpretada é armazenada no banco de dados do computador. Esse tipo de sequenciamento é considerado de alto rendimento porque muitas sequências podem ser executadas ao mesmo tempo. Com efeito, dependendo dos modelos do sequenciador, 1, 6, 12 ou mesmo 36 capilares podem operar em paralelo, sabendo-se que o autômato pode injetar sucessivamente 96 reações de sequência, contidas em uma placa, em cada um dos capilares. A duração da reprodução é de aproximadamente 1kb por sequência. O tempo de execução de uma sequência é de cerca de 10 minutos. Em uma noite, com 12 capilares, o sequenciador pode obter automaticamente a leitura de 1 Mb.
Comparação de métodos de sequenciamento de última geraçãoMétodo | Comprimento de leitura | precisão | Leitura por experiência | tempo de experiência | custo por 1 milhão de bases (em dólares americanos $) | Benefícios | Desvantagens |
---|---|---|---|---|---|---|---|
Sequenciamento de molécula única em tempo real (Pacific Biosciences) | 10.000 bp a 15.000 bp em média (14.000 bp N50); comprimento máximo de leitura> 40.000 bases | 87% | 50.000 por célula, ou 500-1000 megabases | 30 minutos a 4 horas | $ 0,13– $ 0,60 | leituras longas. Rápido. Detecta 4mC, 5mC, 6mA | fluxo moderado, o equipamento pode ser muito caro |
Semicondutor de íons ( Sequencing Ion Torrent ) | até 400 bp | 98% | até 80 milhões | 2 horas | $ 1 | o equipamento mais barato e rápido | erros de homopolímero |
Pirosequenciamento ( 454 ) | 700 bp | 99,9% | 1 milhão | 24 horas | $ 10 | leituras longas e rápidas | o experimento é caro, erros de homopolímero |
Sequenciamento por síntese (Illumina) | 50 a 300 bp | 99,9% | até 6 bilhões | 1 a 11 dias | $ 0,05 a $ 0,15 | Potencial de alto rendimento de sequência, dependendo do modelo do sequenciador e da aplicação desejada | O equipamento pode ser muito caro. Requer altas concentrações de DNA. |
Sequenciamento de ligadura (sequenciamento SOLiD) | 50 + 35 ou 50 + 50 bp | 99,9% | N / D | 20 minutos a 3 horas | $ 2.400 | leituras longas. Útil para muitas aplicações. | Mais caro e inconveniente para grandes projetos de sequenciamento. Este método também requer tempo para a clonagem do plasmídeo ou etapa de PCR. |
Sobrenome | Número de máquinas (mundial) |
---|---|
Illumina HiSeq 2000 | 5490 |
Analisador de genoma Illumina 2x | 411 |
Rock 454 | 382 |
ABI SOLiD | 326 |
Ion Torrent | 301 |
Illumina MiSeq | 299 |
Ion Proton | 104 |
Pacific Biosciences | 50 |
Oxford Nanopore MinION | 14 |
Illumina NextSeq | 3 |
O sequenciamento de nanopore é um método em desenvolvimento desde 1995 para o sequenciamento de DNA.
Um nanoporo é simplesmente um pequeno orifício com um diâmetro interno da ordem de 1 nanômetro. Algumas proteínas celulares transmembrana porosas agem como nanofios. Os nanoporos também foram feitos gravando um orifício ligeiramente maior (várias dezenas de nanômetros) em um pedaço de silício.
A teoria por trás do sequenciamento de nanopore é a seguinte: quando um nanopore é imerso em um fluido condutor e um potencial (voltagem) é aplicado através dele, uma corrente elétrica devido à condução de íons através do nanopore pode ser observada. A quantidade de corrente é muito sensível ao tamanho e forma do nanopore. Se um único nucleotídeo (bases), fitas de DNA ou outras moléculas passarem pelo nanopore ou perto dele, isso pode criar uma mudança característica na magnitude da corrente através do nanopore.
No início da segunda metade do XX ° século, a relação entre a medicina humana ainda estava dominado pela vontade de entender e tratar doenças e várias ameaças para a organização. No entanto, a compreensão de seu funcionamento tem se aprofundado muito nas últimas décadas, principalmente graças ao aprimoramento e ao surgimento de diferentes técnicas. O próprio conceito de saúde, ou seja, uma ausência de patologia, foi naturalmente redefinido para, doravante, significar um sentimento de bem-estar geral de um indivíduo, tanto físico quanto moral. Assim, novas estratégias comerciais se democratizam para oferecer a cada indivíduo a possibilidade de cuidar de sua integridade física. (medicamentos sem receita médica, alimentação saudável, etc.).
O sequenciamento de DNA é uma técnica que está no cerne desta redefinição da concepção de saúde e da relação com os “seres vivos” em geral, pois sugere um tratamento ideal e personalizado para cada pessoa. O mercado de dados genéticos se desenvolveu muito rapidamente e vários investimentos desde sua criação levaram a uma queda muito acentuada nos preços.
O primeiro sequenciamento completo de um genoma humano foi concluído em 2003 e levou cerca de dez anos de trabalho, com um investimento total de US $ 2,7 bilhões. Na época, o método Sanger ainda era muito usado para decifrar os aproximadamente 3 bilhões de pares de nucleotídeos que compõem nosso DNA. Muitos projetos surgiram então (em particular 1000 Génomes , ENCODE …) e novas máquinas (mencionadas acima) foram desenvolvidas com o objetivo de gerar a seqüência completa de um genoma humano por menos de 1000 dólares. Com o aprimoramento dos métodos de sequenciamento, o preço do sequenciamento parcial de um genoma humano em alta qualidade foi estimado em US $ 14 milhões em 2006, relativamente menos caro se comparado ao projeto concluído em 2003. No final de 2015, o preço para gerar um single streak foi de cerca de US $ 1.500.
Com o surgimento desses novos métodos muito mais eficientes, agrupados sob a sigla NGS , mais rápidos e menos caros, o mercado de sequenciamento de DNA explodiu e muitas aplicações em diversos campos estão disponíveis hoje. Algumas empresas como a Illumina agora oferecem um serviço de sequenciamento de DNA financeiramente acessível a indivíduos.
O sequenciamento de DNA pode ser usado para determinar a sequência de genes individuais, grandes regiões genéticas, cromossomos completos ou genomas inteiros de qualquer organismo. O sequenciamento de DNA se tornou uma tecnologia-chave em muitos campos da biologia e outras ciências, como medicina, ciência forense ou antropologia .
Em biologia molecular, o sequenciamento do genoma permite o estudo de proteínas codificadas, os pesquisadores identificam alterações em genes e os associam a determinadas doenças para direcionar potenciais drogas.
O sequenciamento tornou possível entender a origem genética de certos cânceres que surgem devido ao acúmulo de mutações em genes críticos que modificam os programas normais de proliferação, diferenciação e morte celular. A quinase RAS-RAF-MEK-ERK-MAP envolve respostas celulares aos sinais de crescimento e em cerca de 15% dos cânceres humanos o gene RAS é mutado causando uma forma oncogênica.
Como o DNA é uma macromolécula informativa em termos de transmissão de geração a geração, o sequenciamento de DNA é usado na biologia evolutiva para estudar como diferentes organismos se relacionam e como evoluíram, com base em estudos colaborativos entre paleogenetianos e antropólogos. A análise do DNA de tecidos humanos, principalmente ósseos e dentários, enterrados em necrópoles, permite definir haplogrupos e estimar sua origem biogeográfica, bem como as rotas de migração que poderiam ter percorrido há centenas ou milhares de anos, para comparar suas características genéticas com as das populações atuais, ou para estabelecer algumas de suas características físicas. Com a queda no preço do sequenciamento do genoma, as empresas estão oferecendo ao público, como serviço pago, o rastreamento das origens de uma pessoa a partir de um kit simples para usar em casa.
Os geneticistas médicos podem sequenciar genes em pacientes para determinar se há risco de doenças genéticas. É um exame das características genéticas da pessoa. O diagnóstico é geralmente pré ou pós-natal. Por exemplo, o diagnóstico pré-natal pode detectar uma doença hereditária responsável por uma deficiência grave ou distúrbios psicológicos e comportamentais e dar aos pais cujo filho foi diagnosticado a opção de continuar ou não com a gravidez. Informações sobre variações genéticas ( polimorfismos de nucleotídeo único ) também orientam o manejo terapêutico e permitem o aconselhamento genético para membros da família.
Cada vez mais, o exame das características genéticas é feito por sequenciamento de DNA de alto rendimento (NGS). Em geral, atualmente, apenas as partes codificantes dos genes, nas quais 2/3 das mutações são descritas , são sequenciadas . O NGS, portanto, torna possível sequenciar todas as partes codificadoras dos genes de uma pessoa de uma vez, o que é chamado de exoma .
No diagnóstico pré-natal, o DPNI está sendo estabelecido como uma técnica de detecção precoce e segura para a síndrome de Down ou outras anormalidades cromossômicas, ou mesmo certas mutações pontuais. Não é um diagnóstico, mas apenas um rastreio. Consiste em tirar sangue da mãe durante a gravidez. Esse sangue contém naturalmente uma pequena quantidade de fragmentos de DNA do feto, e os geneticistas não conseguem separá-lo dos fragmentos de DNA pertencentes à mãe, que também podem ser encontrados no sangue. DPNI é, portanto, um sequenciamento de alto rendimento de todos os fragmentos de DNA que circulam no sangue materno e, em seguida, uma análise de computador dos resultados. DPNI significa Triagem Pré-natal por Técnica Não Invasiva. Dependendo dos resultados, é indicada a confirmação da anormalidade, que envolve amniocentese .
A medicina reprodutiva é o ramo da medicina que estuda a fisiologia da reprodução, bem como sua patologia, a infertilidade. Esta abordagem para a medicina visa melhorar a saúde reprodutiva.
O sequenciamento do DNA, em particular das células sexuais, tornou possível entender as modificações genéticas que causam um desequilíbrio na fertilidade. Tratamentos genéticos futuros estão sendo considerados visando a prevenção de doenças hereditárias, por exemplo, a trissomia do 21 é devido à não expressão de um gene responsável pela inativação do cromossomo X durante a fertilização. No entanto, surgem questões bioéticas sobre o processamento do DNA para a procriação.
O sequenciamento de alto rendimento também entrou no campo da microbiologia médica. Em bacteriologia, por exemplo, mesmo que a mesma espécie bacteriana (por exemplo, Staphylococcus aureus ) possa ser encontrada em duas amostras de pacientes diferentes, isso não é necessariamente uma transmissão direta de paciente para paciente. Na verdade, sob a mesma espécie bacteriana estão agrupadas muitas cepas muito diferentes e, portanto, têm genomas diferentes. O sequenciamento do genoma inteiro torna possível, por exemplo, determinar o quão diferentes esses genomas são, quantificando o número de mutações ( SNPs ) entre os organismos. Durante a transmissão direta de uma bactéria de um paciente para outro, o número de mutações de diferença é, portanto, muito baixo.
No geral, o sequenciamento de alto rendimento de genomas bacterianos inteiros pode ser útil para:
O DNA de uma pessoa pode ser transferido por contato para objetos ou pessoas. Este DNA vem de células de diferentes matrizes, sangue, esperma, elementos capilares, células epiteliais. (O sequenciamento de DNA pode ser usado com métodos de perfil de DNA para identificação forense e teste de paternidade. No entanto, deve-se observar que um teste de paternidade não tem valor legal na França. Somente se for ordenado por um juiz.