O LRE Map ( Language Resources and Evaluation ) é um banco de dados de livre acesso dedicado a recursos para processamento automático de linguagem (NLP). A característica original do Mapa LRE é que as gravações são coletadas durante inscrições para conferências científicas. Os registros são então limpos e reunidos em um banco de dados denominado Mapa LRE.
O Mapa LRE pretende ser um instrumento de recolha de informação sobre recursos linguísticos e ao mesmo tempo tornar-se uma comunidade de utilizadores, um site de partilha e descoberta de recursos, discussão, feedback, descoberta de novas tendências, etc. É um instrumento de descoberta, pesquisa e documentação de recursos linguísticos, em sentido amplo, incluindo dados e ferramentas.
A grande massa de informações pode ser analisada de diferentes maneiras. Algumas análises estão disponíveis na internet. Por exemplo, é possível conhecer os recursos utilizados com mais frequência, as linguagens mais representadas, as aplicações utilizadas ou em desenvolvimento, a proporção de novos recursos em relação aos antigos ou a forma como os recursos são distribuídos na comunidade.
Várias instituições mantêm catálogos de recursos linguísticos: ELRA, Linguistic Data Consortium, NICT Universal Catalog, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World, etc.). Mas estima-se que apenas 10% dos recursos sejam conhecidos, seja por meio de catálogos de distribuição ou por meio de publicidade direta do fornecedor. O resto está relativamente escondido, o único momento em que o recurso surge é quando é apresentado no contexto da comunicação científica. Mesmo assim, o recurso pode ser deixado no escuro quando o tópico da pesquisa não é o próprio recurso.
O Mapa LRE era anteriormente denominado “Mapa LREC” durante a preparação da conferência LREC 2010. Mais precisamente, a ideia foi discutida no âmbito do projeto FlaReNet e em colaboração com a ELRA, o 'mapa' foi criado para o LREC-2010. Os organizadores do LREC pediram aos autores que fornecessem informações diretas sobre quaisquer recursos (amplamente definidos, ou seja, incluindo ferramentas de PNL, padrões e kits de avaliação) que foram criados ou usados como tal, conforme descrito em comunicações científicas. Todas essas descrições foram então reunidas em uma matriz global chamada Mapa LREC.
A mesma metodologia foi aplicada e estendida a outras conferências, incluindo COLING-2010, EMNLP-2010, RANLP-2011 e LREC-2012.
Após esta generalização para outras conferências, o Mapa LREC foi renomeado Mapa LRE.
O tamanho do banco de dados aumenta com o tempo. Os dados coletados durante o LREC-2010 incluíram 1889 entradas.
Cada recurso é descrito de acordo com os seguintes atributos:
O Mapa LRE é uma ferramenta muito importante para entender a atividade da PNL. Comparado a outros estudos baseados em avaliações subjetivas, o Mapa LRE é baseado em fatos reais.
O Mapa LRE também tem grande potencial, além de ser uma ferramenta de coleta de informações:
Os dados foram limpos e classificados por Joseph Mariani (CNRS-LIMSI IMMI) e Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica ) para calcular as diferentes matrizes do relatório final do FLaReNet. Assim, por exemplo, um deles, a matriz para dados escritos do LREC-2010 dá o seguinte:
Corpus | Léxico | Ontologia | Gramática / Modelo de Linguagem |
Terminologia | |
---|---|---|---|---|---|
búlgaro | 7 | 6 | 1 | 1 | 1 |
Tcheco | 12 | 7 | 2 | 1 | 1 |
dinamarquês | 6 | 2 | 0 | 2 | 0 |
holandês | 17 | 8 | 2 | 1 | 2 |
inglês | 206 | 77 | 18 | 11 | 10 |
estoniano | 3 | 1 | 0 | 0 | 1 |
finlandês | 3 | 2 | 0 | 1 | 0 |
francês | 44 | 24 | 3 | 4 | 5 |
alemão | 43 | 15 | 4 | 2 | 3 |
grego | 10 | 3 | 2 | 0 | 0 |
húngaro | 8 | 4 | 0 | 1 | 1 |
irlandês | 1 | 0 | 0 | 0 | 0 |
italiano | 32 | 16 | 4 | 2 | 0 |
letão | 9 | 0 | 0 | 0 | 1 |
lituano | 4 | 0 | 2 | 0 | 1 |
maltês | 1 | 0 | 0 | 1 | 0 |
polonês | 7 | 2 | 1 | 2 | 1 |
português | 19 | 6 | 1 | 1 | 0 |
romena | 12 | 7 | 1 | 1 | 0 |
Eslovaco | 2 | 0 | 0 | 1 | 0 |
esloveno | 5 | 1 | 0 | 0 | 0 |
espanhol | 29 | 19 | 4 | 5 | 2 |
sueco | 19 | 4 | 0 | 1 | 0 |
Outra Europa | 19 | 11 | 3 | 3 | 2 |
Europa Regional | 18 | 8 | 0 | 1 | 3 |
Multilíngue | 5 | 3 | 1 | 0 | 1 |
Independente da linguagem | 9 | 3 | 16 | 2 | 1 |
Não aplicável | 2 | 0 | 2 | 1 | 0 |
Total | 552 | 229 | 67 | 45 | 36 |
Deve-se notar que, sem surpresa, o inglês é a língua mais estudada. Em segundo lugar, vêm o francês e o alemão, depois o italiano e o espanhol.
O Mapa LRE será estendido para a revista LRE e outras conferências.