Predição da estrutura da proteína

A previsão da estrutura da proteína é a inferência da estrutura tridimensional de uma proteína a partir de sua sequência de aminoácidos, ou seja, a previsão de seu dobramento e de sua estrutura secundária e terciária de sua estrutura primária. A estrutura de previsão é fundamentalmente diferente do problema reverso do design de proteínas. A previsão da estrutura da proteína é um dos objetivos mais importantes perseguidos pela bioinformática e pela química teórica; É muito importante na medicina (por exemplo, na concepção de medicamentos) e na biotecnologia (por exemplo, na concepção de novas enzimas). A cada dois anos, o desempenho dos métodos atuais é avaliado no experimento CASP (Critical Evaluation of Protein Prediction Techniques). A avaliação contínua dos servidores web de previsão da estrutura de proteínas está sendo realizada pelo projeto comunitário CAMEO3D .

Estrutura e terminologia das proteínas

As proteínas são cadeias de aminoácidos unidas por ligações peptídicas. Muitas conformações desta cadeia são possíveis devido à rotação da cadeia em torno de cada átomo de carbono (Cα). São essas mudanças conformacionais que são responsáveis ​​pelas diferenças na estrutura tridimensional das proteínas. Cada aminoácido da cadeia é polar, ou seja, ele possui regiões carregadas positivas e negativas separadas com um grupo C = O livre, que pode atuar como aceitador de ligação de hidrogênio e um grupo NH, que pode atuar como doador de ligação de hidrogênio. Esses grupos podem, portanto, interagir na estrutura da proteína. Os 20 aminoácidos podem ser classificados de acordo com a química da cadeia lateral, que também desempenha um papel estrutural importante. A glicina ocupa uma posição especial, pois possui a menor cadeia lateral, um único átomo de hidrogênio, e, portanto, pode aumentar a flexibilidade local na estrutura da proteína. A cisteína, por outro lado, pode reagir com outro resíduo de cisteína e, assim, formar uma reticulação que estabiliza toda a estrutura.

A estrutura da proteína pode ser pensada como uma sequência de elementos estruturais secundários, como hélices α e folhas β, que juntas constituem a configuração tridimensional geral da cadeia da proteína. Nessas estruturas secundárias, padrões regulares de ligações H são formados entre os aminoácidos vizinhos, e os aminoácidos têm ângulos Φ e ω semelhantes.

A formação dessas estruturas neutraliza os grupos polares em cada aminoácido. As estruturas secundárias são compactadas no núcleo da proteína em um ambiente hidrofóbico. Cada grupo lateral de aminoácidos tem um volume limitado para ocupar e um número limitado de possíveis interações com outras cadeias laterais próximas, uma situação que deve ser levada em consideração na modelagem e alinhamentos moleculares.

Hélice α

A alfa hélice é o tipo de estrutura secundária mais abundante nas proteínas. A hélice α consiste em 3,6 aminoácidos por volta com uma ligação H formada entre cada quarto resíduo; O comprimento médio é de 10 aminoácidos (3 voltas) ou 10 Å, mas varia de 5 a 40 (1,5 a 11 voltas). O alinhamento das ligações H cria um momento de dipolo para a hélice com uma carga positiva parcial resultante na extremidade amino da hélice. Como essa região possui grupos NH 2 livres, ela irá interagir com grupos carregados negativamente, como os fosfatos. A localização mais comum das hélices α é na superfície dos núcleos das proteínas, onde fornecem uma interface com o meio aquoso. O lado voltado para dentro da hélice tende a ter aminoácidos hidrofóbicos e o lado externo tende a ter aminoácidos do lado hidrofílico. Portanto, cada terço dos quatro aminoácidos ao longo da cadeia tende a ser hidrofóbico, um padrão que pode ser facilmente detectado. No motivo leucina, um motivo leucina recorrente em lados opostos de duas hélices adjacentes é muito preditivo do motivo. Um traçado de roda helicoidal pode ser usado para mostrar esse padrão repetido. Outras hélices α enterradas no núcleo da proteína ou nas membranas celulares têm uma distribuição mais alta e mais uniforme de aminoácidos hidrofóbicos e são fortemente preditivas de tais estruturas. As hélices expostas na superfície possuem uma proporção menor de aminoácidos hidrofóbicos. O conteúdo de aminoácidos pode ser preditivo de uma região α-helicoidal. Regiões ricas em alanina (A), ácido glutâmico (E), leucina (L) e metionina (M) e mais pobres em prolina (P), Glicina (G), tirosina (Y) e serina (S) tendem a formar uma hélice uma. A prolina desestabiliza ou quebra uma a-hélice, mas pode estar presente em hélices mais longas, formando uma curva.

Β folhas

As folhas Β são formadas por ligações H entre uma média de 5-10 aminoácidos consecutivos em uma parte da cadeia com outros 5-10 aminoácidos mais abaixo na cadeia. As regiões de interação podem ser adjacentes, com um pequeno loop entre elas, ou distantes, com outras estruturas entre elas. Cada cadeia pode correr na mesma direção para formar uma folha paralela, cada outra cadeia pode correr na direção química reversa para formar uma folha antiparalela ou as cadeias podem ser paralelas e antiparalelas para formar uma folha mista. A colagem é diferente nas configurações paralela e antiparalela. Cada aminoácido nas fitas internas da folha forma duas ligações H com aminoácidos vizinhos, enquanto cada aminoácido nas fitas externas forma apenas uma ligação com uma fita interna. Olhando através da folha perpendicular aos fios, os fios mais distantes são girados ligeiramente no sentido anti-horário para formar uma torção para a esquerda. Os átomos Cα alternam acima e abaixo da folha em uma estrutura dobrada, e os grupos laterais R dos aminoácidos alternam acima e abaixo das dobras. Os ângulos Φ e Ψ dos aminoácidos da folha variam consideravelmente em uma região do gráfico de Ramachandran. É mais difícil prever a localização de folhas β do que hélices α. A situação melhora um pouco quando a variação de aminoácidos em alinhamentos de sequência múltipla é levada em consideração.

Cotovelos

Cotovelos são regiões de uma cadeia de proteína que estão (1) entre hélices α e folhas β, (2) de diferentes comprimentos e configurações tridimensionais e (3) na superfície da estrutura. Os laços em gancho que representam uma volta completa na cadeia polipeptídica que une duas fitas β antiparalelas podem ter apenas dois aminoácidos de comprimento. Os cotovelos interagem com o ambiente aquoso circundante e outras proteínas. Uma vez que os aminoácidos nas alças não são limitados por espaço e ambiente como os aminoácidos na região central são, e não têm efeito no arranjo de estruturas secundárias no núcleo, mais substituições, inserções e deleções podem ocorrer. Assim, em um alinhamento de sequência, a presença desses recursos pode ser uma indicação de um loop. Os loops também tendem a ter aminoácidos carregados e polares e freqüentemente são componentes de sítios ativos.

Enrolamentos

Uma região de estrutura secundária que não é uma hélice α, folha β ou bobina reconhecível é comumente referida como um enrolamento.

Classificação de proteínas

As proteínas podem ser classificadas com base na estrutura e semelhança de sequência. Para classificação estrutural, os tamanhos e arranjos espaciais das estruturas secundárias descritas no parágrafo acima são comparados em estruturas tridimensionais conhecidas. A classificação baseada na similaridade de sequência foi historicamente a primeira a ser usada. Inicialmente, a similaridade com base em alinhamentos de sequência inteira foi realizada. Mais tarde, as proteínas foram classificadas com base no aparecimento de padrões de aminoácidos conservados. Bancos de dados que classificam as proteínas por um ou mais desses esquemas estão disponíveis. Ao considerar os esquemas de classificação de proteínas, é importante manter várias observações em mente. Primeiro, duas sequências de proteínas totalmente diferentes de origens evolutivas diferentes podem se dobrar em uma estrutura semelhante. Por outro lado, a sequência de um gene antigo para uma determinada estrutura pode ter divergido consideravelmente em diferentes espécies, embora mantendo as mesmas características estruturais básicas. Reconhecer qualquer semelhança de sequência remanescente em tais casos pode ser uma tarefa muito difícil. Em segundo lugar, duas proteínas que compartilham um grau significativo de similaridade de sequência, uma com a outra ou com uma terceira sequência, também compartilham uma origem evolutiva e espera-se que também compartilhem algumas características estruturais. No entanto, a duplicação de genes e os rearranjos genéticos durante a evolução podem dar origem a novas cópias de genes, que podem então evoluir para proteínas com nova função e estrutura.

Termos mais comumente usados

Os termos mais comumente usados ​​para relações evolutivas e estruturais entre proteínas estão listados abaixo. Muitos termos adicionais são usados ​​para vários tipos de características estruturais encontradas nas proteínas. As descrições desses termos podem ser encontradas no site CATH, no site Structural Classification of Proteins (SCOP) e em um tutorial Glaxo-Wellcome no site Swiss Bioinformatics Expasy.

Site ativo

Uma combinação localizada de grupos laterais de aminoácidos dentro da estrutura terciária (tridimensional) ou quaternária (subunidade da proteína) que pode interagir com um substrato quimicamente específico e que fornece à proteína atividade biológica. Proteínas de sequências de aminoácidos muito diferentes podem se dobrar em uma estrutura que produz o mesmo sítio ativo.

arquitetura

As orientações relativas das estruturas secundárias em uma estrutura tridimensional sem considerar se elas compartilham ou não uma estrutura de loop semelhante.

dobrar

Um tipo de arquitetura que também possui uma estrutura em loop preservada.

Blocos

Um modelo de sequência de aminoácidos conservada em uma família de proteínas. O padrão inclui uma série de correspondências possíveis em cada posição nas sequências mostradas, mas não há posições inseridas ou excluídas no padrão ou nas sequências. Em contraste, os perfis de sequência são um tipo de matriz de pontuação que representa um conjunto de padrões semelhantes que incluem inserções e exclusões.

aula

Termo usado para classificar domínios de proteínas de acordo com seu conteúdo e organização estrutural secundária. Quatro classes foram inicialmente reconhecidas por Levitt e Chothia (1976), e várias outras foram adicionadas ao banco de dados SCOP. Três classes são fornecidas no banco de dados CATH: principalmente-α, principalmente-β e α-β, a classe α-β que compreende as estruturas alternadas α / β e α + β.

coração

A parte de uma molécula de proteína dobrada que inclui o interior hidrofóbico das hélices α e folhas β. A estrutura compacta reúne os grupos laterais de aminoácidos em proximidade suficiente para que possam interagir. Ao comparar estruturas de proteínas, como no banco de dados SCOP, núcleo é a região comum à maioria das estruturas que compartilham uma dobra comum ou estão na mesma superfamília. Na previsão de estrutura, o núcleo é algumas vezes definido como o arranjo de estruturas secundárias que provavelmente serão conservadas durante a mudança evolutiva.

Domínio (contexto de sequência)

Um segmento de uma cadeia polipeptídica que pode se dobrar em uma estrutura tridimensional, independentemente da presença de outros segmentos da cadeia. Domínios distintos de uma determinada proteína podem interagir extensivamente ou podem ser unidos apenas por um comprimento de cadeia polipeptídica. Uma proteína com múltiplos domínios pode usar esses domínios para interações funcionais com diferentes moléculas.

Família (contexto de sequência)

Grupo de proteínas com a mesma função bioquímica que são mais de 50% idênticas quando alinhadas. Este mesmo corte ainda é utilizado pelo Protein Information Resource (PIR). Uma família de proteínas inclui proteínas com a mesma função em diferentes organismos (sequências ortólogas), mas também podem incluir proteínas no mesmo organismo (sequências parálogas) derivadas de duplicação e rearranjos de genes. Se um alinhamento de múltiplas sequências de uma família de proteínas revela um nível comum de similaridade ao longo do comprimento das proteínas, PIR se refere à família como uma família homeomórfica. A região alinhada é chamada de domínio homeomórfico e esta região pode incluir vários domínios de homologia menores que são compartilhados com outras famílias. As famílias podem ser subdivididas em subfamílias ou agrupadas em superfamílias de acordo com os respectivos níveis de similaridade de sequência. O banco de dados SCOP relata 1296 famílias e o banco de dados CATH (versão 1.7 beta) relata 1846 famílias.

Quando examinamos com mais detalhes as sequências de proteínas com a mesma função, vemos que elas compartilham uma grande similaridade de sequência. Eles são obviamente membros da mesma família de acordo com os critérios acima. No entanto, outros são encontrados que têm muito pouca, se não insignificante, semelhança na sequência com outros membros da família. Em tais casos, a relação familiar entre dois membros distantes da família A e C pode muitas vezes ser demonstrada encontrando um membro da família adicional B que compartilha uma semelhança significativa com A e C. Assim, B fornece um elo de conexão entre A e C. Outra abordagem é olhar para listas longas para jogos bem disputados.

Em um nível de identidade de 50%, é provável que as proteínas tenham a mesma estrutura tridimensional e átomos idênticos no alinhamento da sequência também se sobreporão em cerca de 1 Å no modelo estrutural. Assim, se a estrutura de um membro da família é conhecida, uma previsão confiável pode ser feita para um segundo membro da família, e quanto mais alto o nível de identidade, mais confiável é a previsão. A modelagem estrutural de proteínas pode ser feita examinando-se como as substituições de aminoácidos se encaixam no núcleo da estrutura tridimensional.

Cair pra trás

Uma dobra é semelhante ao padrão estrutural , inclui uma combinação maior de unidades estruturais secundárias na mesma configuração. Assim, as proteínas que compartilham a mesma dobra têm a mesma combinação de estruturas secundárias que são conectadas por loops semelhantes. Um exemplo é a dobra de Rossmann compreendendo várias hélices α alternadas e fitas β paralelas. Nos bancos de dados SCOP, CATH e FSSP, as estruturas de proteínas conhecidas foram classificadas em níveis hierárquicos de complexidade estrutural com dobra como nível de classificação de base.

Domínio de mesmo nível (contexto de sequência)

É um padrão de sequência estendida, geralmente encontrado por métodos de alinhamento de sequência, que indica uma origem evolutiva comum entre as sequências alinhadas. Um domínio de homologia é geralmente mais longo do que motivos. O domínio pode incluir uma dada sequência de proteína inteira ou apenas parte da sequência. Alguns domínios são complexos e compostos de vários domínios de homologia menores que se juntaram para formar um domínio maior durante a evolução. Um domínio que cobre uma sequência inteira é chamado de domínio homeomórfico por PIR ( Protein Information Resource ).

Módulo

É uma região de motivos de aminoácidos conservados compreendendo um ou mais motivos e considerada como uma unidade fundamental de estrutura ou função. A presença de um módulo também foi usada para classificar as proteínas em famílias.

Motivo de proteína (contexto de sequência)

É um modelo conservado de aminoácidos encontrado em duas ou mais proteínas. No catálogo PROSITE , um motivo é um motivo de aminoácido que é encontrado em um grupo de proteínas que têm atividade bioquímica semelhante e que geralmente está próximo ao sítio ativo da proteína. Exemplos de um banco de dados de padrões de sequência são o catálogo PROSITE e o banco de dados Stanford Pattern.

Razão (contexto estrutural)

É uma combinação de vários elementos estruturais secundários produzidos dobrando seções adjacentes da cadeia polipeptídica em uma configuração tridimensional específica. Um exemplo é o padrão helix-loop-helix. Os blocos de construção também são chamados de estruturas e dobras super secundárias.

Matriz de pontuação

É uma matriz de pontuação de posição específica (contexto de sequência, também conhecido como peso ou matriz de pontuação): que representa uma região conservada em um alinhamento de sequência múltipla sem lacunas. Cada coluna da matriz representa a variação encontrada em uma coluna do alinhamento de sequência múltipla. A matriz de pontuação específica da posição 3D (contexto estrutural) representa a variação de aminoácidos encontrados em um alinhamento de proteínas que pertencem à mesma classe estrutural. As colunas da matriz representam a variação de aminoácidos encontrados em uma posição de aminoácido nas estruturas alinhadas.

Estrutura primária

É um aminoácido linear de uma proteína, que quimicamente é uma cadeia polipeptídica composta de aminoácidos unidos por ligações peptídicas.

Perfil (contexto de sequência)

É uma matriz de pontuação que representa um alinhamento de várias sequências de uma família de proteínas; O perfil é geralmente obtido a partir de uma região bem conservada em um alinhamento de sequência múltipla. O perfil tem a forma de uma matriz com cada coluna representando uma posição no alinhamento e cada linha um dos aminoácidos. Os valores da matriz fornecem a probabilidade de cada aminoácido na posição correspondente no alinhamento. O perfil é movido ao longo da sequência alvo para localizar as melhores regiões de pontuação por um algoritmo de programação dinâmica. Desvios são permitidos durante o emparelhamento e uma penalidade de desvio é incluída neste caso como uma pontuação negativa quando nenhum aminoácido é emparelhado. Um perfil de sequência também pode ser representado por um modelo de Markov oculto, denominado perfil HMM ( modelo de markov oculto ). Perfil (contexto estrutural): uma matriz de pontuação que representa quais aminoácidos devem se ajustar bem e quais não devem se ajustar em posições sequenciais em uma estrutura de proteína conhecida. As colunas do perfil representam posições sequenciais na estrutura e as linhas do perfil representam os 20 aminoácidos. Tal como acontece com um perfil de sequência, o perfil estrutural é movido ao longo de uma sequência alvo para encontrar a pontuação de alinhamento mais alta possível por um algoritmo de programação dinâmica. Desvios podem ser incluídos e receber uma penalidade. A pontuação resultante fornece uma indicação se a proteína alvo pode ou não adotar tal estrutura.

A estrutura tridimensional

É a estrutura tridimensional de uma molécula de proteína que compreende várias cadeias polipeptídicas independentes. As interações que ocorrem entre os grupos C, O e NH em aminoácidos em uma cadeia polipeptídica para formar hélices α, folhas β, espirais, loops e outras formas e que facilitam o dobramento em uma estrutura tridimensional.

Ótima família

É um grupo de famílias de proteínas de comprimentos iguais ou diferentes que estão ligadas por semelhanças de sequência distantes, mas detectáveis. Os membros de uma dada superfamília, portanto, têm uma origem evolutiva comum. Originalmente, Dayhoff definiu o limite para o status de superfamília como a probabilidade de as sequências não estarem ligadas por 10 6, com base em uma pontuação de alinhamento (Dayhoff et al., 1978). Proteínas com poucas identidades em um alinhamento de sequência, mas com um número comum convincente de características estruturais e funcionais, são colocadas na mesma superfamília. No nível da estrutura tridimensional, as proteínas da superfamília compartilham características estruturais comuns, como uma dobra comum, mas também pode haver diferenças no número e no arranjo das estruturas secundárias. O recurso PIR usa o termo "superfamília homeomórfica" para se referir a superfamílias que são compostas por sequências que podem ser alinhadas de ponta a ponta, representando um compartilhamento de um domínio de homologia de sequência única, uma região de similaridade que se estende ao longo do alinhamento. Este domínio também pode incluir domínios de homologia menores que são compartilhados com outras famílias e superfamílias de proteínas. Embora uma determinada sequência de proteína possa conter domínios encontrados em mais de uma superfamília, indicando assim uma história evolutiva complexa, as sequências serão atribuídas a uma única superfamília homeomórfica com base na presença de similaridade em um alinhamento de sequência múltipla. O alinhamento da superfamília também pode incluir regiões que não se alinham dentro ou nas extremidades do alinhamento. Em contraste, as sequências da mesma família se alinham bem em todo o alinhamento.

Estrutura supersecundária

Termo com significado semelhante por um motivo estrutural . Estrutura terciária é a estrutura tridimensional ou globular formada pela montagem ou dobramento das estruturas secundárias de uma cadeia polipeptídica.

Estrutura secundária

A predição da estrutura secundária é um conjunto de técnicas em bioinformática que visa predizer a estrutura local da proteína com base unicamente no conhecimento de sua sequência de aminoácidos . Para proteínas, uma previsão é atribuir regiões da sequência de aminoácidos como provável alfa , hélices de fita beta (freqüentemente conhecidas como conformações "estendidas") (Bioquímica) | O sucesso de uma previsão é determinado pela comparação com os resultados do algoritmo DSSP (proteína) (ou semelhante, por exemplo STRIDE (proteína), aplicado à estrutura cristalina da proteína. Algoritmos especializados foram desenvolvidos para o poço específico de detecção motivos definidos, como hélices transmembrana e bobinas helicoidais em proteínas.

Os melhores métodos modernos de previsão da estrutura secundária em proteínas alcançam uma precisão de cerca de 80%. Esta alta precisão permite o uso das previsões como um aprimoramento do recurso de reconhecimento de dobra e previsão ab initio da estrutura da proteína, classificação de motivos estruturais e refinamento do alinhamento de sequência . A precisão dos métodos atuais de previsão da estrutura secundária da proteína é avaliada semanalmente por benchmarks semanais, como LiveBench e EVA .

Estrutura terciária

O papel prático de prever a estrutura da proteína é agora mais importante do que nunca. Grandes quantidades de dados de sequência de proteínas são produzidas por esforços modernos de sequenciamento de DNA em grande escala, como o Projeto Genoma Humano. Apesar dos esforços da comunidade em genômica estrutural, a produção de estruturas de proteínas determinadas experimentalmente - normalmente por cristalografia de raios-X cara e cara ou espectroscopia de RMN - está muito atrás da produção de sequências de proteínas.

Prever a estrutura da proteína continua sendo uma tarefa extremamente difícil e sem solução. Os dois problemas principais são calcular a energia livre das proteínas e encontrar o mínimo geral dessa energia. Um método de previsão de estrutura de proteína deve explorar o espaço de possíveis estruturas de proteína que é astronomicamente grande. Esses problemas podem ser parcialmente contornados em modelagem "comparativa" ou métodos de homologia e reconhecimento de dobras, em que o espaço de busca é podado pela suposição de que a proteína em questão adota uma estrutura próxima à estrutura determinada, experimentalmente com outra proteína homóloga. Por outro lado, os métodos de predição da estrutura da proteína de novo ou ab initio devem resolver explicitamente esses problemas. Avanços e desafios na previsão da estrutura da proteína foram revisados ​​em Zhang 2008.

modelagem de proteína ab initio ou de novo

Métodos baseados em energia e baseados em fragmentos

Os métodos de modelagem de proteínas ab initio ou de novo buscam construir modelos tridimensionais de proteínas "do zero", isto é, baseados em princípios físicos ao invés de (diretamente) em estruturas previamente resolvidas. Existem muitos procedimentos possíveis que tentam imitar o dobramento de proteínas ou aplicam um método estocástico para procurar soluções possíveis (ou seja, otimização geral de uma função de energia adequada). Esses procedimentos tendem a exigir grandes recursos de computador e, portanto, só foram realizados para proteínas minúsculas. Para prever a estrutura da proteína de novo para proteínas maiores exigirá melhores algoritmos e maiores recursos computacionais, como aqueles fornecidos por poderosos supercomputadores (como Blue Gene ou MDGRAPE-3) ou por computador distribuído (como Folding @ home, Human Proteome Folding Project e Rosetta @ Home). Embora essas barreiras computacionais sejam vastas, os benefícios potenciais da genômica estrutural (por métodos preditos ou experimentais) tornam a previsão da estrutura ab initio uma área ativa de pesquisa [26].

Em 2009, uma proteína de 50 resíduos poderia ser simulada átomo por átomo em um supercomputador por 1 milissegundo [27]. A partir de 2012, a amostragem de estado estável comparável pode ser realizada em um desktop padrão com uma nova placa gráfica e algoritmos mais sofisticados [28]. Um tempo de simulação muito mais longo pode ser alcançado usando modelagem de granulação grossa. [29] Covariação evolutiva para prever contatos 3D

À medida que o sequenciamento se tornou mais comum na década de 1990, vários grupos usaram alinhamentos de sequências de proteínas para prever mutações correlacionadas e esperava-se que esses resíduos co-evoluídos pudessem ser usados ​​para prever a estrutura terciária (usando a analogia para restrições de distância de procedimentos experimentais, como NMR). A hipótese é que, quando as mutações de um único resíduo são ligeiramente deletérias, podem ocorrer mutações compensatórias para restabelecer as interações resíduo-resíduo. Este trabalho inicial usou os chamados métodos locais para calcular mutações correlacionadas de sequências de proteínas, mas sofreu de correlações espúrias indiretas que resultam do tratamento de cada par de resíduos como independente de todos os outros pares [30] [31] [32]

Em 2011, uma abordagem estatística diferente, desta vez global, demonstrou que os resíduos co-evoluídos previstos foram suficientes para prever o dobramento 3D de uma proteína, fornecendo sequências disponíveis suficientes (são necessárias> 1000 sequências homólogas). O método EVfold não usa modelagem de homologia, segmentação ou fragmentos estruturais 3D e pode ser realizado em um computador pessoal padrão mesmo para proteínas com centenas de resíduos. A precisão dos contatos previstos usando esta e outras abordagens relacionadas foi agora demonstrada em muitas estruturas conhecidas e mapas de contato, [34] [35] [36], incluindo a previsão de proteínas transmembrana não resolvidas experimentalmente.

Modelagem comparativa de proteínas

A modelagem comparativa de proteínas usa estruturas previamente resolvidas como pontos de partida ou modelos. Isso é eficaz porque parece que, embora o número de proteínas reais seja grande, há um conjunto limitado de motivos estruturais terciários aos quais a maioria das proteínas pertence. Foi sugerido que existem apenas cerca de 2.000 dobras distintas de proteínas na natureza, embora existam vários milhões de proteínas diferentes.

Esses métodos também podem ser divididos em dois grupos: [26]

Modelagem de homologia

É baseado na suposição razoável de que duas proteínas homólogas irão compartilhar estruturas muito semelhantes. Uma vez que a dobra de uma proteína é evolutivamente mais conservada do que sua sequência de aminoácidos, uma sequência alvo pode ser modelada com precisão razoável em um modelo muito distante, desde que a relação entre o alvo e o modelo possa ser discernida pelo alinhamento da sequência. Foi sugerido que o principal gargalo na modelagem comparativa surge de dificuldades de alinhamento ao invés de erros na previsão da estrutura, dado um alinhamento bem conhecido [38]. Sem surpresa, a modelagem de homologia é mais precisa quando o alvo e o modelo têm sequências semelhantes.

Threading de proteína

O encadeamento de proteínas é um método de modelagem que faz a varredura da sequência de aminoácidos de uma estrutura desconhecida em relação a um banco de dados de estruturas resolvidas. Em cada caso, uma função de pontuação é utilizada para avaliar a compatibilidade da sequência com a estrutura, produzindo assim possíveis modelos tridimensionais. Este tipo de método também é conhecido como reconhecimento de dobramento 3D-1D devido à sua análise de compatibilidade entre estruturas tridimensionais e sequências lineares de proteínas. Este método também deu origem a métodos que realizam pesquisa de dobra reversa avaliando a compatibilidade de uma determinada estrutura com um grande banco de dados de sequência, prevendo assim quais sequências têm o potencial de produzir uma determinada dobra.

Estrutura quaternária

Docking macromolecular é a modelagem computacional da estrutura quaternária de complexos formados por várias macromoléculas biológicas em interação. Os modelos mais comuns são os de complexos proteína-proteína e proteína-ácido nucléico.

Veja também

Artigos relacionados

  • Complexo biomolecular , qualquer complexo biológico de proteínas, RNA, DNA (às vezes contém lipídios e carboidratos)
  • Docking (molecular) , pequena molécula de dock de proteína
  • Threading , descreve uma das técnicas para modelar a estrutura das proteínas, por analogia com uma estrutura existente.

links externos

Bibliografia

  • (en) K. Majorek, L. Kozlowski, M. Jakalski, JM Bujnicki e J. Bujnicki ( eds ), Prediction of Protein Structures, Functions, and Interactions , Chichester, John Wiley & Sons, Ltd.,18 de dezembro de 2008, 39–62  p. ( ISBN  978-0-470-51767-3 , DOI  10.1002 / 9780470741894.ch2 , leia online ) , "Capítulo 2: Primeiros Passos de Predição de Estrutura de Proteína"
  • D. Baker e A. Sali , "  Protein structure prediction and estrutural genomics  ", Science , vol.  294, n o  5540,Outubro de 2001, p.  93–96 ( PMID  11588250 , DOI  10.1126 / science.1065659 )
  • A. Kelley e MJ. Sternberg , “  Previsão da estrutura da proteína na Web: um estudo de caso usando o servidor Phyre  ”, Nat Protoc , vol.  4, n o  3,2009, p.  363-71 ( PMID  19247286 , DOI  10.1038 / nprot.2009.2 )
  • A. Kryshtafovych e K. Fidelis , “  Protein structure prediction and model quality assessment  ”, Drug Discov Today , vol.  14, n osso  7-8,abril de 2009, p.  386-93 ( PMID  19100336 , DOI  10.1016 / j.drudis.2008.11.010 )
  • X. Qu , R. Swanson , R. Day e J. Tsai , “  A guide to template based structure prediction  ”, Curr Protein Pept Sei , vol.  10, n o  3,Junho de 2009, p.  270-85 ( PMID  19519455 )
  • PR. Daga , RY. Patel e RJ. Doerksen , "  Modelagem de proteína baseada em modelo: avanços metodológicos recentes  ", Curr Top Med Chem , vol.  10, n o  1,2010, p.  84–94 ( PMID  19929829 , DOI  10.2174 / 156802610790232314 )
  • A. Fiser , “  Template-based protein structure models  ”, Methods Mol Biol , vol.  673,2010, p.  73–94 ( ISBN  978-1-60761-841-6 , PMID  20835794 , PMCID  4108304 , DOI  10.1007 / 978-1-60761-842-3_6 )
  • D. Cozzetto e A. Tramontano , “  Advances and pitfalls in protein structure prediction  ”, Curr Protein Pept Sei , vol.  9, N o  6,dezembro 2008, p.  567-77 ( PMID  19075747 , DOI  10.2174 / 138920308786733958 )
  • Nayeem A, Sitkoff D, Krystek S Jr, Sitkoff e Krystek Jr , “  Um estudo comparativo de software disponível para modelagem de homologia de alta precisão: De alinhamentos de sequência a modelos estruturais  ”, Protein Sci , vol.  15, n o  4,2006, p.  808–24 ( PMID  16600967 , PMCID  2242473 , DOI  10.1110 / ps.051892906 )

Notas e referências

  1. (em) Mount DM, Bioinformatics: Sequence and Genome Analysis , vol.  2, Cold Spring Harbor Laboratory Press,2004( ISBN  0-87969-712-1 ).
  2. JY. Huang e DL. Brutlag , "  The EMOTIF Database  ", Nucleic Acids Res , vol.  29, n o  1,Janeiro de 2001, p.  202-04 ( PMID  11125091 , DOI  10.1093 / nar / 29.1.202 ).
  3. W. Pirovano e J. Heringa , “  Predição da estrutura secundária das proteínas  ”, Métodos de Mol Biol , Métodos em Biologia Molecular, vol.  609,2010, p.  327-48 ( PMID  20221928 , DOI  10.1007 / 978-1-60327-241-4_19 ).
  4. (em) Zhang Y., "  Progress and challenge in protein structure prediction  " , Current Opinion in Structural Biology , Vol.  18, n o  3,2008, p.  342–8 ( PMID  18436442 , PMCID  2680823 , DOI  10.1016 / j.sbi.2008.02.004 ).