Mapa LRE

O LRE Map ( Language Resources and Evaluation ) é um banco de dados de livre acesso dedicado a recursos para processamento automático de linguagem (NLP). A característica original do Mapa LRE é que as gravações são coletadas durante inscrições para conferências científicas. Os registros são então limpos e reunidos em um banco de dados denominado Mapa LRE.

O Mapa LRE pretende ser um instrumento de recolha de informação sobre recursos linguísticos e ao mesmo tempo tornar-se uma comunidade de utilizadores, um site de partilha e descoberta de recursos, discussão, feedback, descoberta de novas tendências, etc. É um instrumento de descoberta, pesquisa e documentação de recursos linguísticos, em sentido amplo, incluindo dados e ferramentas.

A grande massa de informações pode ser analisada de diferentes maneiras. Algumas análises estão disponíveis na internet. Por exemplo, é possível conhecer os recursos utilizados com mais frequência, as linguagens mais representadas, as aplicações utilizadas ou em desenvolvimento, a proporção de novos recursos em relação aos antigos ou a forma como os recursos são distribuídos na comunidade.

Contexto

Várias instituições mantêm catálogos de recursos linguísticos: ELRA, Linguistic Data Consortium, NICT Universal Catalog, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World, etc.). Mas estima-se que apenas 10% dos recursos sejam conhecidos, seja por meio de catálogos de distribuição ou por meio de publicidade direta do fornecedor. O resto está relativamente escondido, o único momento em que o recurso surge é quando é apresentado no contexto da comunicação científica. Mesmo assim, o recurso pode ser deixado no escuro quando o tópico da pesquisa não é o próprio recurso.

Histórico

O Mapa LRE era anteriormente denominado “Mapa LREC” durante a preparação da conferência LREC 2010. Mais precisamente, a ideia foi discutida no âmbito do projeto FlaReNet e em colaboração com a ELRA, o 'mapa' foi criado para o LREC-2010. Os organizadores do LREC pediram aos autores que fornecessem informações diretas sobre quaisquer recursos (amplamente definidos, ou seja, incluindo ferramentas de PNL, padrões e kits de avaliação) que foram criados ou usados ​​como tal, conforme descrito em comunicações científicas. Todas essas descrições foram então reunidas em uma matriz global chamada Mapa LREC.
A mesma metodologia foi aplicada e estendida a outras conferências, incluindo COLING-2010, EMNLP-2010, RANLP-2011 e LREC-2012.

Após esta generalização para outras conferências, o Mapa LREC foi renomeado Mapa LRE.

Tamanho e conteúdo

O tamanho do banco de dados aumenta com o tempo. Os dados coletados durante o LREC-2010 incluíram 1889 entradas.

Cada recurso é descrito de acordo com os seguintes atributos:

Usos

O Mapa LRE é uma ferramenta muito importante para entender a atividade da PNL. Comparado a outros estudos baseados em avaliações subjetivas, o Mapa LRE é baseado em fatos reais.

O Mapa LRE também tem grande potencial, além de ser uma ferramenta de coleta de informações:

Matrizes derivadas

Os dados foram limpos e classificados por Joseph Mariani (CNRS-LIMSI IMMI) e Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica ) para calcular as diferentes matrizes do relatório final do FLaReNet. Assim, por exemplo, um deles, a matriz para dados escritos do LREC-2010 dá o seguinte:

Corpus Léxico Ontologia Gramática /
Modelo de Linguagem
Terminologia
búlgaro 7 6 1 1 1
Tcheco 12 7 2 1 1
dinamarquês 6 2 0 2 0
holandês 17 8 2 1 2
inglês 206 77 18 11 10
estoniano 3 1 0 0 1
finlandês 3 2 0 1 0
francês 44 24 3 4 5
alemão 43 15 4 2 3
grego 10 3 2 0 0
húngaro 8 4 0 1 1
irlandês 1 0 0 0 0
italiano 32 16 4 2 0
letão 9 0 0 0 1
lituano 4 0 2 0 1
maltês 1 0 0 1 0
polonês 7 2 1 2 1
português 19 6 1 1 0
romena 12 7 1 1 0
Eslovaco 2 0 0 1 0
esloveno 5 1 0 0 0
espanhol 29 19 4 5 2
sueco 19 4 0 1 0
Outra Europa 19 11 3 3 2
Europa Regional 18 8 0 1 3
Multilíngue 5 3 1 0 1
Independente da linguagem 9 3 16 2 1
Não aplicável 2 0 2 1 0
Total 552 229 67 45 36

Deve-se notar que, sem surpresa, o inglês é a língua mais estudada. Em segundo lugar, vêm o francês e o alemão, depois o italiano e o espanhol.

Futuro

O Mapa LRE será estendido para a revista LRE e outras conferências.

Referências

  1. Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 O mapa de recursos e tecnologias linguísticas do LREC. LREC-2010, Malta
  2. http://www.resourcebook.eu (clique no link “Estatísticas”)
  3. Relatório técnico FlaReNet, os recursos linguísticos e avaliação (LRE) Mapa, Nicoletta Calzolari (CNR-ILC Pisa, Itália), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Projeto eContentPlus [1]
  4. Nicoletta Calzolari, Apresentação do Presidente da Conferência LREC 2010
  5. 23ª Conferência Internacional de Linguítica Computacional, Pequim, China [2]
  6. Métodos empíricos em processamento de linguagem natural 9-11 de outubro, MIT Stata Center, Cambridge, Massachusetts, EUA [3]
  7. Avanços recentes no processamento de linguagem natural 12–14 de setembro, Hissar, Bulgária [4]
  8. Recursos e avaliação linguística, Istambul, Turquia
  9. FLaReNet (Fortering Language Resources Network) é um projeto financiado pela UE que visa desenvolver uma visão comum da área de Recursos e Tecnologias Linguísticas para os próximos anos e promover uma estratégia europeia para consolidar o setor e aumentar a competitividade na UE nível e em todo o mundo.

Link externo