Corpus

Um corpus é um conjunto de documentos, artísticos ou não ( textos , imagens , vídeos , etc.), agrupados para um fim específico.

Podemos usar corpora em vários campos: literário , linguístico , estudos científicos , filosofia , etc.

Gêneros de Corpus

O corpus em linguística

O ramo da linguística que se preocupa mais especificamente com corpora é logicamente denominado linguística de corpora . Está ligada ao desenvolvimento de sistemas informáticos, em particular à constituição de bases de dados textuais. Desde 2009, a revista universitária CORPUS dedica-se a esta área.

Falamos de corpus para designar o aspecto normativo da linguagem: sua estrutura e seu código em particular. "Corpus" geralmente se opõe a "status", que corresponde aos termos de uso do idioma. Essa oposição é comum no estudo das políticas linguísticas.

O corpo da literatura

O corpus reúne um conjunto de textos com um objetivo comum. Um corpus pode ser composto por diferentes documentos (tabela, extrato de texto, etc.) e esses vários documentos têm uma coisa em comum. Em geral, é o tema que representa sua semelhança. Você tem que ter uma técnica particular para decifrá-lo.

O corpus da ciência

Corporações são ferramentas essenciais e valiosas no processamento automático de linguagem natural . Eles permitem extrair um conjunto de informações úteis para o processamento estatístico.

Do ponto de vista informativo, permitem extrair tendências e, em particular, construir conjuntos de n-gramas .

Do ponto de vista metodológico, fornecem a objetividade necessária para a validação científica no processamento automático de linguagem natural . A informação não é mais empírica , ela é verificada pelo corpus. Portanto, é possível contar com corpora (desde que bem treinados) para formular e verificar hipóteses científicas.

Corpus bem formado

Várias características devem ser levadas em consideração para a criação de um corpus bem formado:

Cortar

O corpus deve obviamente atingir um tamanho crítico para permitir um processamento estatístico confiável. É impossível extrair informações confiáveis ​​de um corpus muito pequeno (ver Estatísticas ).

Língua

Um corpus bem formado deve necessariamente abranger um único idioma e uma única variação desse idioma. Por exemplo, existem diferenças sutis entre o francês da França e o francês falado na Bélgica . Portanto, não será possível tirar conclusões confiáveis ​​de um corpus franco-belga sobre o francês na França , nem sobre o francês na Bélgica .

Tempo percorrido pelos textos do corpus

O tempo desempenha um papel importante na evolução da linguagem: o francês falado hoje não se parece com o francês falado há 200 anos nem, de forma mais sutil, o francês falado há 10 anos, em particular por causa dos neologismos. Este é um fenômeno a ser levado em consideração para todas as línguas modernas. Um corpus não deve, portanto, conter textos escritos em intervalos de tempo muito amplos, ou deve datá-los (para uso por historiadores da língua ou dos conceitos).

Registro de idioma

Também é importante não misturar registros diferentes e o cientista não pode se permitir extrair informações de um corpus destinado a um determinado registro aplicando-as a outro. Um corpus construído a partir de textos científicos não pode ser utilizado para extrair informações de textos popularizados, e um corpus que mescla textos científicos e popularizados não permite tirar qualquer conclusão sobre esses dois registros.

Metodologia

Seria incômodo do ponto de vista metodológico aplicar um processamento estatístico ao corpus que permitisse fazer uma classificação ou modelagem da língua.

Ao trabalhar com corpora, é portanto aconselhável separar um corpus inicial em dois subcorpora:

A calibração dos volumes dos corpora é discutida de acordo com o problema, mas é comum usar 2/3 do corpus inicial para o treinamento e o terço restante para a realização dos testes.

Quando o volume do corpus inicial não é suficiente, é possível combinar o corpus de testes e treinamento em vários experimentos (validação cruzada). Por exemplo, se dividirmos o corpus inicial em 10 sub-corpora, numerados de 1 a 10

A medição da qualidade dos resultados (precisão ou recall) é então mais precisa, mas em nenhum caso o aprendizado e o corpus de teste foram misturados .

Corpora paralelos e comparáveis

Corpus paralelos

Chamamos um corpus paralelo um conjunto de pares de textos de tal forma que, para um par, um dos textos é a tradução do outro. É interessante alinhar esses corpora, ou seja, combinar cada unidade do texto no idioma de origem com cada unidade do texto no idioma de destino (no nível de parágrafos, frases e palavras) para ter um jogo de dados bilíngües , especialmente em campos especializados onde o vocabulário e o uso de palavras e expressões estão mudando rapidamente.

Embora os textos sejam considerados paralelos, a tradução gera diferenças estruturais entre os textos. Algumas expressões podem ser traduzidas por um número diferente de palavras. Por exemplo, "Teorias sobre o declínio e queda do Império Romano" é composta por 10 palavras, enquanto sua tradução "Teorias do declínio do Império Romano" é composta por apenas 7 palavras. Da mesma forma, as sentenças no texto de origem provavelmente serão agrupadas na tradução ou, ao contrário, divididas. O paralelismo, portanto, nunca é perfeito e os métodos de alinhamento devem levar isso em consideração.

No entanto, corpos paralelos de textos são relativamente raros. Como exemplo, citemos o canadense Hansard , que é o relatório dos Debates da Canadian House of Commons , publicado em francês e em inglês.

Corpus Comparável

Linguística de corpus que precisa de grandes conjuntos de dados para funcionar, corpora paralelos são certamente muito valiosos, mas muito raros para serem suficientes para todos os propósitos.

Corpora comparáveis ​​são muito mais difundidos. Déjean & Gaussier (2002) fornecem a seguinte definição de um corpus comparável

“Dois corpora de duas línguas e são considerados comparáveis ​​se houver uma subparte significativa do vocabulário do corpus da língua , respectivamente , cuja tradução se encontra no corpus da língua , respectivamente . "

Um corpus comparável é, pois, composto por textos em línguas diferentes, mas partilhando parte do vocabulário utilizado, o que geralmente implica que os textos falem do mesmo assunto, ao mesmo tempo e num registo comparável. Uma seleção de artigos de jornais em diferentes línguas, tratando das mesmas notícias internacionais e ao mesmo tempo, constitui um bom exemplo de um corpus comparável.

O alinhamento, portanto, não pode mais ser baseado na estrutura do texto (que não precisa ser idêntica de um idioma para outro) e as abordagens propostas procuram levar em consideração o contexto de cada termo a ser alinhado., Ou seja, a forma como são usados ​​e as palavras com que coincidem no texto.

Outros sentidos

Notas e referências

  1. Corpus de obras de filosofia em língua francesa - Bases de dados (do Renascimento a 1966)
  2. Hervé Dejean & Éric Gaussier, uma nova abordagem para extrair léxicos bilíngues de corpora comparáveis , 2002 lido online

Veja também

Artigos relacionados

links externos

Bibliografia

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">