O código genético é o conjunto de regras que permite traduzir as informações contidas no genoma das células vivas para a síntese de proteínas . Em sentido amplo, estabelece a correspondência entre o genótipo e o fenótipo de um organismo . Este código baseia-se, em particular, na correspondência entre, por um lado, tripletos de nucleotídeos , denominados códons , no RNA mensageiro e, por outro lado, os aminoácidos proteinogênicos incorporados às proteínas sintetizadas durante a fase de tradução do RNA mensageiro. por ribossomos .
Com algumas exceções, cada códon corresponde a um único aminoácido proteinogênico. Uma vez que a informação genética é codificada exatamente da mesma maneira nos genes da vasta maioria das diferentes espécies vivas , esse código genético específico é geralmente referido como o código genético padrão, ou canônico, ou mesmo simplesmente como "O" código genético; no entanto, há um certo número de variantes desse código genético, mas que geralmente são limitadas a alguns códons. Essas variantes existem, por exemplo, dentro das próprias células humanas, entre seu citosol e suas mitocôndrias .
A correspondência entre códons de RNA mensageiro e aminoácidos proteinogênicos é geralmente apresentada na forma de tabelas associando cada um dos 64 códons, ou tripletos de quatro bases nucleicas possíveis ( 4 3 = 64 ), com um dos 22 aminoácidos proteinogênicos.
Por extensão, e de forma inadequada, o público em geral às vezes chama de "código genético" o que é de fato o genótipo de uma célula, ou seja, todos os seus genes .
Durante a expressão de proteínas do genoma , segmentos de DNA genômico são transcritos em RNA mensageiro . Este RNA mensageiro (ou mRNA) contém regiões não codificantes, que não são traduzidas em proteínas, e uma ou mais regiões codificantes, que são traduzidas pelos ribossomos para produzir uma ou mais proteínas . O MRNA é formado pela sequência de quatro tipos de bases nucléicas , A , C , G e U , que constituem as " letras " com as quais o código genético é escrito. Este último é composto por " palavras " de 3 letras (nucleotídeos) chamadas códons . Nas regiões de codificação do RNA mensageiro, cada códon é traduzido em um dos 22 aminoácidos proteinogênicos na proteína a ser sintetizada.
O número de palavras de três letras retiradas de um alfabeto de quatro letras sendo 4 3 , o código genético compreende 64 códons diferentes, codificando diretamente 20 aminoácidos chamados "padrão", bem como o sinal de fim de tradução, sendo este último codificado por um dos 3 códons de parada ou códons de terminação. Dois raros aminoácidos, selenocisteína e pirrolisina , são inseridos no nível de certos códons de parada, a recodificação dos quais em códons de aminoácidos ocorre na presença de estruturas particulares do tipo haste-alça ou grampo de cabelo, induzidas por sequências de inserção específicas no mensageiro RNA.
Um códon é definido pelo primeiro nucleotídeo a partir do qual a tradução começa. Assim, a cadeia GGGAAACCC pode ser lida de acordo com os códons GGG · AAA · CCC, GGA · AAC e GAA · ACC dependendo se a leitura do códon é iniciada a partir do primeiro, segundo ou terceiro nucleotídeo, respectivamente. Qualquer sequência de nucleotídeos pode então ser lida de acordo com três quadros de leitura distintos, que resultam em traduções em aminoácidos completamente diferentes: em nosso exemplo, teríamos respectivamente os aminoácidos Gly - Lys - Pro , Gly - Asn e Glu - Thr .
Nos genes, o quadro de leitura geralmente começa com um códon AUG que codifica a metionina , ou N- formilmetionina em bactérias e nas mitocôndrias e cloroplastos de eucarióticos .
A tradução genética pelo ribossomo começa com um códon inicial , às vezes chamado de códon inicial. Ao contrário dos códons de parada , o códon de início sozinho não é suficiente para iniciar a tradução. O sítio de ligação ao ribossomo ( RBS ) em procariotos e os fatores de iniciação em procariotos e eucariotos são essenciais para o início da tradução. O códon de iniciação mais comum é o AUG, correspondendo à metionina ou, em bactérias , à N- formilmetionina . GUG e UUG, que correspondem respectivamente à valina e à leucina no código genético padrão, também podem ser códons de iniciação em certos organismos, sendo neste caso interpretados como códons para metionina ou N- formilmetionina .
Os três códons de parada do UAG, UGA e UAA, receberam nomes durante sua descoberta, respectivamente âmbar , opala e ocre . Eles também são chamados de códons de parada ou códons de terminação. Eles fazem com que o ribossomo pare e a liberação da cadeia polipeptídica recém-formada pela ausência de RNA de transferência com anticódons adequados (não há aminoácido correspondente aos tripletos UAG, UGA e UAA), o que causa a ligação de um fator de terminação .
Após a replicação do DNA , podem ocorrer erros de transcrição durante a polimerização da segunda fita de DNA pela DNA polimerase . Esses erros, chamados de mutações , podem ter consequências no fenótipo de um ser vivo , principalmente se ocorrerem nas regiões codificadoras de um gene . A taxa de erro é geralmente muito baixa, na ordem de um erro de replicação em dez centenas de milhões de bases replicadas por meio da função de revisão e revisão ( revisão ) de DNA polimerases.
Missense mutações e sem sentido mutações são exemplos de mutações pontuais , que podem causar doenças genéticas tais como anemia falciforme e talassemia, respectivamente . Mutações missense que têm um impacto fisiológico significativo são aquelas que levam à mudança da natureza físico-química - por exemplo, o impedimento estérico , a natureza hidrofílica ou hidrofóbica , a carga elétrica , a natureza ácida ou básica - de um resíduo de aminoácido importante para a função da proteína modificada. Mutações sem sentido levam à introdução prematura de um códon de parada na sequência da proteína a ser transcrita, que é assim truncada e, portanto, a função fisiológica nos tecidos é geralmente alterada.
As mutações que afetam a transcrição por indels - inserções e deleções - de um número de nucleotídeos que não é múltiplo de 3 correspondem a um deslocamento do quadro de leitura . Tais mutações geralmente resultam em um polipeptídeo que é totalmente diferente do original, tanto na sequência dos resíduos de aminoácidos traduzidos quanto no comprimento da cadeia polipeptídica produzida, uma vez que a posição dos códons de parada é geralmente alterada durante tal mutação. É provável que essas mutações tornem as proteínas resultantes inoperantes, tornando-as muito raras em sequências de codificação de proteínas, pois costumam ser incompatíveis com a sobrevivência do organismo afetado. Quando ocorrem, podem causar doenças genéticas graves, como a doença de Tay-Sachs .
Embora a grande maioria das mutações que afetam a sequência da proteína sejam deletérias ou inconseqüentes, algumas podem ter efeitos benéficos. Algumas dessas mutações podem, por exemplo, permitir que os organismos nos quais ocorrem resistam às condições de estresse ambiental melhor do que a forma selvagem, ou se multipliquem mais rapidamente. Essas mutações são então favorecidas pela seleção natural . Os vírus de RNA têm uma alta taxa de mutação, o que é uma vantagem para eles, permitindo que evoluam continuamente e evitem o sistema imunológico de seu hospedeiro . Em grandes populações de organismos que se reproduzem assexuadamente, por exemplo em E. coli , várias mutações benéficas podem ocorrer ao mesmo tempo; esse fenômeno é denominado interferência clonal e se manifesta na competição entre essas diferentes mutações, muitas vezes levando à generalização de uma delas em detrimento das outras.
O fato de que os 64 códons codificam apenas 22 aminoácidos proteinogênicos , mais os códons de terminação, leva a muitas redundâncias. Isso faz com que um aminoácido padrão seja codificado em média por três códons distintos - até seis códons diferentes. Estamos falando de códons sinônimos. Dos 20 aminoácidos padrão, apenas metionina e triptofano são codificados por apenas um códon, enquanto asparagina , aspartato , cisteína , glutamato , glutamina , histidina , lisina , fenilalanina e a tirosina são codificados por dois códons distintos, a isoleucina e a terminação da tradução são codificados por três códons distintos, a treonina , a prolina , a alanina , uma glicina e valina são codificados por quatro códons diferentes, e arginina , leucina e serina são codificados por seis códons. Portanto, há frequentemente vários RNAs de transferência associados ao mesmo aminoácido, capazes de se ligar aos diferentes tripletos degenerados de nucleotídeos no RNA. Falamos então de isoacceptores de tRNA, porque eles aceitam o mesmo aminoácido.
O uso por um dado organismo dos diferentes códons sinônimos para um aminoácido não é aleatório. Geralmente observamos o que é chamado de viés de uso de código . A célula em geral expressa preferências bastante marcadas na escolha de códons sinônimos, então, por exemplo, o códon AUA que codifica a isoleucina é amplamente evitado em humanos como em Escherichia coli , em comparação com os outros dois códons sinônimos AUU e AUC. Essa preferência pelo uso de códons varia muito dependendo do organismo e depende, dentro de um mesmo genoma , da fração considerada ( nuclear , mitocondrial , cloroplástica ). Por outro lado, é bastante geral para todos os genes carregados pela mesma fração do genoma.
Se o código genético é degenerado, entretanto, não é ambíguo: cada códon normalmente especifica apenas um aminoácido e um. Cada aminoácido padrão é codificado em média por três códons diferentes, de modo que, estatisticamente, uma mutação em três não leva a nenhuma modificação da proteína traduzida: tal mutação é então considerada silenciosa. Uma consequência prática desta degeneração é que uma mutação no terceiro nucleotídeo de um códon geralmente causa apenas uma mutação silenciosa ou a substituição de um resíduo por outro tendo as mesmas propriedades hidrofílicas ou hidrofóbicas , ácidas ou básicas , e também impedimento estérico .
Seria de se esperar que as frequências de códons sinônimas para um determinado aminoácido fossem equivalentes, mas, ao contrário, estudos encontraram uma prevalência de códons (em inglês: codon bias) que tende a afetar a estrutura final das proteínas. Essa prevalência também experimentaria uma certa variabilidade entre as linhas.
A biossíntese de proteínas é baseada no código genético . O DNA é transcrito em RNA mensageiro (RNA m ). Isso é traduzido por ribossomos que montam os aminoácidos presentes no RNA de transferência (RNA t ). O RNA t contém um " anti-códon ", complementar a um códon, e carrega o códon de aminoácido correspondente. A esterificação específica do aminoácido correspondente a um dado tRNA é realizada por aminoacil-tRNA sintetases , uma família de enzimas cada uma específica para um dado aminoácido. Durante a tradução, o ribossomo RNA leito m códon por códon, conecta um códon RNA m com o anti-códon de um RNA t e adiciona o aminoácido transportado por este último à proteína que está sendo sintetizada.
A tabela a seguir fornece o significado padrão de cada códon de três nucleobases do RNA mensageiro . As principais codificações alternativas são indicadas após uma barra :
1 r de base |
2 nd base de |
3 rd base de |
|||||||
---|---|---|---|---|---|---|---|---|---|
você | VS | NO | G | ||||||
você | UUU | F Phe | UCU | S Ser | UAU | Y Tyr | UGU | C Cys | você |
UUC | F Phe | UCC | S Ser | UAC | Y Tyr | UGC | C Cys | VS | |
UUA | L Leu | UCA | S Ser | UAA | Pare de ocre | UGA | Parar opala /U seg /W Trp | NO | |
UUG | L Leu / iniciação | UCG | S Ser | UAG | Pare âmbar /O Pyl | UGG | W Trp | G | |
VS | CUU | L Leu | CCU | P Pró | CAU | H Seu | CGU | R Arg | você |
CUC | L Leu | CCC | P Pró | CAC | H Seu | CGC | R Arg | VS | |
AUC | L Leu | CCA | P Pró | CAA | Q Gln | CGA | R Arg | NO | |
CUG | L Leu / iniciação | CCG | P Pró | CAG | Q Gln | CGG | R Arg | G | |
NO | AUU | I Ilha | ACU | T Thr | AAU | N Asn | AGU | S Ser | você |
AUC | I Ilha | ACC | T Thr | AAC | N Asn | AGC | S Ser | VS | |
AUA | I Ilha | PARA ISSO | T Thr | AAA | K Lírios | AGM | R Arg | NO | |
AGO | M Conhecida e iniciação | ACG | T Thr | AAG | K Lírios | AGG | R Arg | G | |
G | GUU | V Val | GCU | A Para o | GAU | D Asp | GGU | G Gly | você |
GUC | V Val | GCC | A Para o | GAC | D Asp | GGC | G Gly | VS | |
GUA | V Val | GCA | A Para o | GAA | E Cola | GGA | G Gly | NO | |
GUG | V Val | GCG | A Para o | MORDAÇA | E Cola | GGG | G Gly | G |
Uma forma compacta de representar as mesmas informações usa os símbolos de aminoácidos de uma letra:
Acide aminé : FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG Initiation : ···M···············M···············M···························· 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAG Mesa reversaComo cada aminoácido de uma proteína é codificado por um ou mais códons, às vezes é útil consultar a tabela a seguir; as principais codificações alternativas são indicadas em pequenos caracteres entre parênteses.
Aminoácido | Códons | Compactado | |||
---|---|---|---|---|---|
Alanina | NO | Para o | GCU, GCC, GCA, GCG. | GCN | |
Arginina | R | Arg | CGU, CGC, CGA, CGG; AGA, AGG. | CGN, MGR | |
Asparagina | NÃO | Asn | AAU, AAC. | AAY | |
Ácido aspártico | D | Asp | GAU, GAC. | GAY | |
Cisteína | VS | Cys | UGU, UGC. | UGY | |
Glutamina | Q | Gln | CAA, CAG. | PORQUE | |
Ácido glutâmico | E | Cola | GAA, GAG. | GAR | |
Glicínia | G | Gly | GGU, GGC, GGA, GGG. | GGN | |
Histidina | H | Seu | CAU, CAC. | CAY | |
Isoleucina | eu | Ilha | AUU, AUC, AUA. | AUH | |
Leucina | eu | Leu | UUA, UUG; CUU, CUC, CUA, CUG. | YUR, CUN | |
Lisina | K | Lírios | AAA, AAG. | AAR | |
Metionina | M | Conheceu | AGO | ||
Fenilalanina | F | Phe | UUU, UUC. | UUY | |
Proline | P | Pró | CCU, CCC, CCA, CCG. | CCN | |
Pirrolisina | O | Pyl | UAG, antes do elemento PYLIS . | ||
Selenocisteína | você | Seco | UGA, com sequência SECIS . | ||
Serine | S | Ser | UCU, UCC, UCA, UCG; AGU, AGC. | UCN, AGY | |
Treonina | T | Thr | ACU, ACC, ACA, ACG. | ACN | |
Triptofano | C | Trp | UGG. (UGA) | ||
Tirosina | Y | Tyr | UAU, UAC. | UAY | |
Valine | V | Val | GUU, GUC, GUA, GUG. | ARMA DE FOGO | |
Iniciação | AGO (UUG, CUG) | ||||
Terminação | * | UAG, UAA; UGA. | UAR, URA |
A região de codificação de um mRNA termina com um códon de parada . Existem três códons de parada (UAG, UAA e UGA) que desencadeiam a parada da tradução pelo ribossomo e a liberação da proteína completa.
A existência de variantes do código genético foi demonstrada em 1979 com o código genético das mitocôndrias humanas e, mais geralmente, das mitocôndrias de vertebrados :
Acide aminé : FFLLSSSSYY**CCWWLLLLPPPPHHQQRRRRIIMMTTTTNNKKSS**VVVVAAAADDEEGGGG Initiation : ································MMMM···············M············ 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGMuitas outras variantes do código genético foram observadas desde então, incluindo várias variantes mitocondriais e variantes leves, como a tradução do códon UGA por triptofano em vez de um códon de parada em Mycoplasma e tradução do códon CUG por serina . Do que leucina em certos leveduras como Candida albicans . A tabela abaixo resume algumas variantes importantes do código genético:
Códons de RNA mensageiro | UGA | CUU | CUC | AUC | CUG | GUG | CGA | CGC | AUU | AUC | AUA | AGM | AGG |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Código genético padrão | Prazo | Leu | Leu | Leu | Leu | Val | Arg | Arg | Ilha | Ilha | Ilha | Arg | Arg |
Mitocôndria de vertebrados | Trp | Iniciar | Iniciar | Iniciar | Prazo | Prazo | |||||||
Mitocôndria de ascídias | Trp | Iniciar | Iniciar | Iniciar | Gly | Gly | |||||||
Mitocôndria de fermento | Trp | Thr | Thr | Thr | Thr | Abdômen | Abdômen | Iniciar | |||||
Mitocôndria de invertebrados | Trp | Iniciar | Iniciar | Iniciar | Ser | Ser | |||||||
Bactérias , arquéias e plastídios de plantas | Iniciar | Iniciar | Iniciar | Iniciar |
Na medida em que os vírus se reproduzem usando os recursos metabólicos - e, portanto, o código genético - de seus hospedeiros , uma variação no código genético pode afetar as proteínas sintetizadas e, portanto, sua capacidade de reprodução; certos vírus, como os do gênero Totivirus (en) , adaptaram-se assim às variações do código genético de seu hospedeiro. Em bactérias e arquéias , GUG e UUG são códons de iniciação comuns, mas em alguns casos raros, algumas proteínas usam códons de iniciação que não são normalmente aqueles dessas espécies.
Certas proteínas usam aminoácidos não padronizados codificados por códons de parada na presença de sequências particulares no RNA mensageiro . Assim, o códon de parada UGA pode ser recodificado em selenocisteína na presença de um elemento SECIS , enquanto o códon de parada UAG pode ser recodificado em pirrolisina na presença de um elemento PYLIS . Ao contrário da selenocisteína, a pirrolisina está ligada ao seu RNA de transferência por uma aminoacil-tRNA sintetase dedicada. Esses dois aminoácidos não padrão podem estar presentes no mesmo organismo, mas usam diferentes modos de expressão. Uma archaea como Acetohalobium arabaticum é capaz, dependendo das condições de seu ambiente, de estender seu código genético de 20 para 21 aminoácidos incluindo a pirrolisina.
Todas estas diferenças continuam marginal, apesar de tudo, e os códigos genéticos de todos os organismos permanecem essencialmente muito semelhante: eles são baseados em cods adjacentes de três nucleótidos do ARN mensageiro, sempre lido na mesma direcção por ribossomas que montam proteínas de ' proteinogênicos aminoácidos em uma sequência determinada combinando o anticódon do tRNA com os códons do mRNA.
Não há menos que 1,5 × 10 84 possibilidades para codificar 21 pedaços de informação (os 20 aminoácidos padrão + o final da tradução) por 64 códons , um número que corresponde ao número de combinações possíveis que permitem associar 64 códons a 21 elementos de informação de modo que qualquer códon e qualquer elemento de informação estejam associados a pelo menos uma combinação. Apesar desse número astronomicamente grande, todos os códigos genéticos de todas as formas de vida conhecidas são quase idênticos, sendo limitados a um pequeno número de pequenas variações. As razões para tal homogeneidade universalmente observada permanecem fundamentalmente desconhecidas, embora várias hipóteses tenham sido formuladas para explicar essa situação. Eles são essencialmente de quatro tipos:
Além disso, a distribuição dos códons atribuídos aos aminoácidos não é aleatória. Isso é visto pelo agrupamento de aminoácidos em códons adjacentes. Além disso, os aminoácidos que compartilham uma via metabólica de biossíntese comum também tendem a ter a mesma primeira base de ácido nucleico em seus códons, enquanto aqueles cuja cadeia lateral tem propriedades físico-químicas semelhantes tendem a também ter códons semelhantes, cujo efeito é limitar as consequências de mutações pontuais e erros de tradução . Finalmente, uma teoria explicando a origem do código genético também deve refletir as seguintes observações: