Teia semântica

A Web Semântica , ou semântica da web , é uma extensão da Web padronizada pelo World Wide Web Consortium (W3C). Esses padrões encorajam o uso de formatos de dados padronizados e protocolos de troca na Web, com base no modelo Resource Description Framework (RDF).

A Web Semântica é conhecida por alguns como Web 3.0.

De acordo com o W3C, "The Semantic Web fornece um modelo que permite que os dados sejam compartilhados e reutilizados entre vários aplicativos, empresas e grupos de usuários . " A frase foi cunhada por Tim Berners-Lee (inventor da Web e diretor do W3C), que supervisiona o desenvolvimento de tecnologias comuns da Web Semântica. Ele o define como “uma teia de dados que pode ser processada direta e indiretamente por máquinas para ajudar seus usuários a criar novos conhecimentos” . Para isso, a Web Semântica implementa a Web of Data que consiste em vincular e estruturar informações na Internet de forma a simplesmente acessar o conhecimento que ela já contém.

Enquanto seus detratores questionam sua viabilidade, seus promotores argumentam que aplicações feitas por pesquisadores da indústria , biologia e humanidades já provaram a validade desse novo conceito. O artigo original de Tim Berners-Lee de 2001 na Scientific American descreveu uma evolução esperada da web existente para uma web semântica, mas isso ainda está para acontecer. Em 2006, Tim Berners-Lee e seus colegas disseram: “Esta ideia simples ... permanece amplamente inexplorada. "

História

O conceito de "modelo de rede semântica " foi cunhado na década de 1960 pelo cientista cognitivo Allan Collins , o lingüista Ross Quillian (in) e a psicóloga Elizabeth Loftus e exposto em várias publicações como uma forma de representar o conhecimento estruturado. Aplicado ao contexto da Internet, esse modelo estende a rede de hiperlinks de páginas da Web legíveis por humanos , inserindo metadados legíveis por máquina nas páginas. Esses metadados estão vinculados entre si, permitindo que os agentes acessem a web de forma mais inteligente e realizem tarefas em nome dos usuários. A Web Semântica é vista como um gateway para acessar dados entre diferentes aplicativos e sistemas. Suas aplicações são numerosas em publicações, blogs e em vários outros campos.

Tim Berners-Lee expressou originalmente a visão da Web Semântica da seguinte maneira:

Tenho um sonho para a Web [em que os computadores] se tornem capazes de analisar todos os dados da Web - o conteúdo, links e transações entre pessoas e computadores. Uma “Web Semântica”, que deveria tornar isso possível, ainda não surgiu, mas, quando isso acontecer, os mecanismos do dia-a-dia do comércio, da burocracia e do nosso dia-a-dia serão controlados por máquinas conversando com máquinas. Os “agentes inteligentes” que as pessoas apregoaram por séculos finalmente se materializarão.

- Tim Berners-Lee, Tecendo a Web

“Sonho com uma Web [na qual os computadores] sejam capazes de analisar todos os dados da Web: conteúdo, links e transações entre pessoas e computadores. Ainda não surgiu uma “Web Semântica” que deveria tornar isso possível, mas quando o fizer, o funcionamento do dia-a-dia do comércio, da administração e do nosso dia-a-dia será processado por máquinas em diálogo com outras. Os "agentes inteligentes" alardeados por muito tempo finalmente se materializariam. "

- Tecendo a web

A maioria das tecnologias oferecidas pelo W3C já existia antes. Estes são utilizados em diferentes contextos, especialmente aqueles relacionados com a informação que abrange um domínio limitado e definido, e onde a partilha de dados é uma necessidade comum, como seja a investigação científica ou o intercâmbio de dados entre organizações. Além disso, outras tecnologias com finalidades semelhantes surgiram, como microformatos .

O principal objetivo da Web Semântica é guiar a evolução da Web para permitir que usuários sem intermediários encontrem, compartilhem e combinem informações com mais facilidade. Os seres humanos podem usar a web para realizar tarefas como encontrar a palavra Paris para reservar um livro na biblioteca, encontrar um mapa e reservar uma passagem de transporte. No entanto, as máquinas não podem realizar todas essas tarefas sem orientação humana, pois as páginas da web são projetadas para serem lidas principalmente por pessoas. A Web Semântica visa tornar as páginas rastreáveis por humanos e também por máquinas. Isso permitiria que o trabalho tedioso e repetitivo de recuperação de informações fosse realizado de maneira automatizada, ao mesmo tempo em que melhorava e consolidava as informações na Web para seus usuários.

A Web Semântica, como foi originalmente planejada, é um sistema que permite que as máquinas “entendam” e respondam a solicitações humanas complexas de acordo com seu significado. Tal "compreensão" requer que as fontes de informação relevantes tenham sido semanticamente estruturadas de antemão. Essa estrutura acessível para máquinas permite uma capacidade de descoberta muito maior do que seria possível simplesmente com a Web de documentos. O uso de RDF para estruturar esses dados torna possível tirar proveito do desempenho da máquina; sua capacidade de processar dados torna possível estudar as informações obtidas a partir desses dados, a fim de tirar novas conclusões a partir do conhecimento existente. Com a ajuda do RDF, documentos produzidos em HTML tornam-se dados que, através do trabalho conjunto de máquinas e usuários, produzem novos conhecimentos.

Freqüentemente, as expressões " semântica ", " metadados ", " ontologias " e "Web semântica" são usadas de maneira inconsistente. Em particular, eles são usados todos os dias por pesquisadores e profissionais cuja terminologia cobre uma ampla paisagem de tecnologias, conceitos e campos de aplicação. Além disso, há confusão entre as tecnologias que estão sendo consideradas para implementá-lo e o movimento da Web Semântica. Em um artigo apresentado por Gerber, Barnard e Van der Merwe, a paisagem da Web Semântica é desenhada e um breve resumo de termos relacionados e tecnologias habilitadoras são apresentados. O modelo arquitetônico proposto por Tim Berners-Lee é usado como base para representar o estado das tecnologias atuais e emergentes.

Soluções trazidas pela Web Semântica aos limites do HTML

Exemplo

No exemplo a seguir, o texto “Paul Schuster nasceu em Dresden” em uma página da web será anotado vinculando a pessoa ao seu local de nascimento. A parte do código HTML exibida abaixo mostra como descrever um minigráfico usando a sintaxe RDFa com o vocabulário do Schema.org e um identificador do Wikidata :

<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>

Este exemplo define os seguintes cinco triplos ( in ), exibidos no formato tartaruga . Cada trinca representa uma aresta do gráfico gerado: seu primeiro elemento (o sujeito) é o nome do nó de onde começa a aresta, o segundo elemento (o predicado) indica o tipo da aresta e o último (o objeto) é o nome do nó de destino ou um valor literal (texto, número, etc.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .

Limitações de HTML

Muitos arquivos em um computador podem ser classificados mais ou menos em duas categorias: documentos legíveis por humanos e dados legíveis por máquina. Documentos como e-mails , relatórios ou brochuras podem ser lidos por humanos. Por outro lado, os dados contidos em calendários, cadernos de endereços, listas de leitura ou planilhas são lidos desde que você use um aplicativo que permite que sejam lidos, pesquisados e transformados de diferentes maneiras.

Atualmente, a World Wide Web é baseada principalmente em documentos escritos em Hypertext Markup Language (HTML) , ou seja, uma convenção de marcação que é usada para codificar texto intercalado com objetos multimídia, como imagens, e formulários interativos. As tags de metadados fornecem um método pelo qual os computadores podem categorizar o conteúdo das páginas da web; por exemplo :

Com HTML e uma ferramenta de exibição (que pode ser um navegador da web ou outro "agente de usuário" ), você pode criar e apresentar uma página que exibe itens à venda. HTML para uma página de catálogo pode ser feito de forma simples, o documento que contém declarações como "o título deste documento é 'Supermercado de gadgets'", mas o código HTML não é capaz de afirmar de forma inequívoca que, por Por exemplo, o número do item X586172 é uma tabela com um preço de $ 199 , nem é um produto de consumo. O HTML só pode dizer que o intervalo de texto "X586172" é algo que deve ser posicionado próximo a "Móveis" e "199 € ", etc. Não há como dizer que "isto é uma página de catálogo", nem mesmo dizer que "Móveis" é uma espécie de título, nem mesmo saber que "199 € " é um preço. Não há maneira de expressar que estes pedaços de informação estão ligados entre si para descrever um discreto ponto , distinto de outros itens que podem ser listadas na mesma página.

HTML semântico refere-se ao uso de tags HTML para inserir informações adicionais no documento. Por exemplo, usar o elemento HTML que deldesigna o conteúdo excluído em vez de strikeapenas exibir o texto tachado e apenas especificar sua formatação. O HTML semântico deixa o layout para o navegador adicionando folhas de estilo em cascata . Mas essa prática atinge seus limites quando se trata de especificar a semântica de objetos como itens à venda.

Os microformatos também são tentativas não oficiais de estender a sintaxe HTML para que uma máquina possa ler marcação semântica sobre objetos em um documento, como artigos para venda ou contatos (por exemplo, com hCard ).

Soluções de Web Semântica

A Semantic Web oferece linguagens especialmente desenvolvidas para dados: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) e XML ( eXtensible Markup Language ). HTML descreve documentos e os links entre eles. RDF, OWL e XML, por outro lado, também podem descrever coisas, como pessoas, reuniões ou partes de aviões. De acordo com Tim Berners-Lee, “RDF está para os dados o que HTML está para os documentos. RDF permite vincular dados a uma categoria. "

Essas tecnologias são combinadas para fornecer descrições que complementam ou substituem o conteúdo dos documentos da web. Assim, o conteúdo pode aparecer na forma de dados descritivos armazenados em bancos de dados acessíveis na Web ou por meio de tags em documentos (via HTML ou sua variante XHTML - XML HTML -). Esses dados podem ser intercalados com XML ou, às vezes, publicados apenas como XML, com layout e dados armazenados separadamente. As descrições legíveis por máquina permitem que os gerenciadores de conteúdo adicionem significado ao seu conteúdo, ou seja, descrevam a estrutura do conhecimento dentro do conteúdo. Desta forma, uma máquina pode:

processar o conhecimento em si, em vez de texto, usando processos semelhantes ao raciocínio dedutivo humano e inferência ,
obter resultados mais significativos enquanto ajuda os computadores a realizar a coleta automatizada de informações e, assim, facilitar a pesquisa .

Aqui está um exemplo de uma tag que seria usada em uma página da web não semântica:

A codificação de informações semelhantes em uma página da web semântica pode ter a seguinte aparência:

Tim Berners-Lee impulsiona o surgimento de uma rede de dados relacionada ( dados vinculados , em inglês ), ou dados da web (em francês ) para o Giant Global Graph , ao contrário da Web é uma página HTML mundial baseada na web. Tim Berners-Lee assume que, se no passado compartilhamos documentos, no futuro compartilharemos dados. Sua resposta à pergunta "como?" Baseia-se em três pilares. Um, um URL deve apontar para os dados. Dois, qualquer pessoa que acesse o URL deve ser capaz de recuperar os dados. Três, os relacionamentos nos dados devem apontar para outras URLs com os dados.

Web 3.0

Tim Berners-Lee descreveu a Web Semântica como um componente da Web 3.0:

As pessoas ficam perguntando o que é Web 3.0. Eu acho que talvez quando você tiver uma sobreposição de gráficos vetoriais escaláveis - tudo ondulando e dobrando e parecendo nebuloso - na Web 2.0 e acesso a uma Web semântica integrada em um enorme espaço de dados, você terá acesso a um recurso de dados inacreditável .

- Tim Berners-Lee , A 'more revolucionary' Web, 2006, Victoria Shannon

“As pessoas perguntam o tempo todo o que é Web 3.0. Acho que quando você tem uma sobreposição de desenhos vetoriais - todos em ondas e dobras nebulosas - descrevendo a Web 2.0 e o acesso a uma web semântica embutida em um enorme espaço de dados, você terá acesso a um incrível recurso de dados. "

- Uma Web 'mais revolucionária', 2006, Victoria Shannon

"Web Semântica" às vezes é usada como sinônimo de "Web 3.0", embora a definição de cada termo varie. Como "Web 2.0", "Web 3.0" é um neologismo e uma palavra da moda . No caso da Web 2.0, o uso do termo é debatido entre aqueles que pensam que é um termo de marketing sem mudança real e aqueles que pensam que houve uma evolução real.

Desafios

Alguns dos desafios da Web Semântica são vastidão, imprecisão, incerteza, inconsistência e decepção. Os sistemas de raciocínio automatizados terão que abordar todas essas questões, a fim de cumprir a promessa da Web Semântica.

Imensidão: a World Wide Web contém vários bilhões de páginas . A ontologia da terminologia médica SNOMED CT (en) sozinha contém 370.000 nomes de classes, e nenhuma tecnologia existente foi ainda capaz de eliminar todas as duplicatas do ponto de vista semântico desta ontologia. Com o advento da Web Semântica, todos os sistemas de raciocínio automatizados terão que lidar com uma quantidade realmente enorme de parâmetros .
Imprecisão: existem noções imprecisas como "jovem" ou "grande". Isso decorre da imprecisão das consultas do usuário que se alinham aos termos usados pelos provedores de conteúdo. Fornecedores com bases de conhecimento sobrepostas, no entanto, recriam conceitos diferentes com diferenças sutis. A lógica difusa é a técnica mais comum para lidar com a imprecisão.
Incerteza: são conceitos precisos com valores incertos. Por exemplo, um paciente pode apresentar um conjunto de sintomas que correspondem a vários diagnósticos diferentes, cada um com uma probabilidade diferente. As técnicas de raciocínio probabilístico são geralmente usadas para lidar com a incerteza.
Inconsistência: são contradições lógicas que inevitavelmente surgirão durante o desenvolvimento de grandes ontologias e quando ontologias de fontes separadas são combinadas. O raciocínio dedutivo não consegue enfrentar essa inconsistência porque uma contradição pode ser deduzida de qualquer coisa ( princípio da explosão ). O raciocínio revisável e o raciocínio paraconsistente são duas técnicas que podem ser usadas para lidar com a inconsistência.
Engano: ocorre quando o produtor da informação deseja, voluntariamente, enganar o consumidor com esse tipo de informação. As técnicas criptográficas são usadas atualmente para lidar com essa ameaça e, assim, garantir a integridade dos dados .

Esta lista de desafios é mais ilustrativa do que exaustiva, pois enfoca os desafios da “lógica de unificação” e da camada de “prova” para a implementação da Web Semântica. Muitas das técnicas aqui mencionadas terão que estender a linguagem OWL ( Web Ontology Language ), por exemplo, para anotar a probabilidade condicional de uma informação. Esta é uma área ativa de pesquisa.

Especificações

A padronização da Web Semântica é supervisionada pelo W3C .

Estrutura

A expressão “web semântica” costuma ser usada mais especificamente para designar formatos e tecnologias que permitirão sua existência. A coleta, estruturação e recuperação de dados relacionados irão operar usando tecnologias que fornecerão uma descrição formal de conceitos, termos e relacionamentos dentro de um determinado domínio de conhecimento . Essas tecnologias são padronizadas pelo W3C e incluem, em particular:

Resource Description Framework (RDF)
Esquema RDF (RDFS)
Sistema de Organização de Conhecimento Simples (SKOS)
SPARQL
Notação 3 (N3)
N-triplos (en)
Tartaruga
Linguagem de Ontologia da Web (OWL)
Formato de troca de regras (RIF)

The Semantic Web Stack é uma ilustração para representar a arquitetura da Web Semântica. As funções e relacionamentos dos componentes podem ser resumidos da seguinte forma:

O XML fornece uma sintaxe básica para a estrutura de conteúdo em documentos, mas não descreve a semântica do documento. XML não é atualmente um componente necessário das tecnologias da Web Semântica. Na maioria dos casos, existem sintaxes alternativas como Turtle . O Turtle é um padrão de fato porque é menos prolixo que o XML, mas não foi escolhido por meio de um processo de padronização formal.
O XSD é uma linguagem de descrição de formato de documento XML para definir a estrutura e o tipo de conteúdo de um documento XML. Esta definição permite, em particular, verificar a validade deste documento.
O RDF é uma linguagem simples para expressar modelos de dados como objetos ( "recursos" ) e seus relacionamentos. Um modelo baseado em RDF pode ser representado por meio de várias sintaxes de troca, por exemplo, RDF / XML, N3 , Turtle e RDFa . RDF é um padrão fundamental da Web Semântica.
RDF Schema estende RDF e seu vocabulário para poder estruturar propriedades e classes dentro de um recurso descrito em RDF.
OWL adiciona mais vocabulário para descrever propriedades e classes: como com relações entre classes, cardinalidade (por exemplo, "exatamente um"), igualdade, tipo de propriedades, características de propriedades (por exemplo, simetria), etc.
SPARQL (pronuncia-se sparkle ; em inglês : "spark") é uma linguagem de consulta e um protocolo que permite pesquisar, adicionar, modificar ou excluir dados RDF disponíveis na Web através da Internet .

Progresso

Os padrões ainda necessários para a implementação da Web Semântica passam pelo processo de recomendação dos grupos de trabalho do W3C ( World Wide Web Consortium ). Isso significa que cada nova recomendação está sujeita à revisão pública. Então, as recomendações do W3C, que serão amplamente adotadas, naturalmente se tornarão os padrões da “Web Semântica”.

Aqui está a lista de padrões e recomendações principais em que a Web Semântica se baseia:

Aqui estão as recomendações ativas atuais:

RIF ( Rule Interchange Format ) é a camada de regra no Semantic Web Stack .

Por outro lado, muitos passos para implementar uma “Web Semântica” ainda estão por ser imaginados, esclarecidos e especificados. Tim Berners-Lee , por meio de seu Semantic Web Stack , resume essas etapas nas seguintes camadas:

Camada lógica de unificação
Camada de prova
Camada de confiança / integridade
Camada de criptografia

Enquanto aguardam a implementação de todas essas camadas, as tecnologias já disponíveis, como o SPARQL , já permitem oferecer interoperabilidade com melhor granularidade nos dados do que a oferecida pelos serviços da Web (o W3C, além disso, retirou a padronização dos serviços da Web de suas prioridades ).

O conjunto de fontes de dados que compartilham seus dados com os padrões semânticos da Web foi denominado Web of data (ou em inglês “ Linked Open Data ”) para facilitar a adoção pelo público. O Data Web é baseado em tecnologias de Linked Data que se sobrepõem às tecnologias da Web Semântica já amplamente adotadas. O Linked Data é uma das principais tecnologias utilizadas no movimento " dados abertos " na Inglaterra que visa compartilhar dados massivamente públicos para acelerar a pesquisa e o comércio. O surgimento da Web Semântica é considerado por alguns como o próximo avanço tecnológico e, portanto, econômico que eles já chamam de Web 3.0 .

O objetivo será, portanto, no futuro, melhorar o acesso e a utilidade da Web e dos recursos interconectados por meio dela, como:

Servidores que expõem dados usando RDF e SPARQL . Existem vários conversores RDF para várias aplicações. Por exemplo, um servidor pode converter os dados contidos em um banco de dados relacional sem afetar sua operação e, assim, disponibilizar os dados em RDF e responder às consultas SPARQL.
Documentos "marcados" com informações semânticas (uma extensão das tags <meta>HTML usadas em páginas da web permite que as informações sejam fornecidas aos mecanismos de pesquisa da web usando rastreadores ). O conteúdo, portanto, contém informações legíveis por máquina relacionadas ao documento, como o criador, título, descrição, etc. Essas informações também podem conter metadados que representam um conjunto de fatos (como outros recursos e serviços relacionados ao site). Observe que tudo pode ser identificado por meio de um URI ( Uniform Resource Identifier ) e, portanto, pode ser descrito para permitir que a web semântica raciocine sobre animais, pessoas, lugares, ideias, etc. Essas tags semânticas ou tags geralmente são geradas automaticamente, em vez de manualmente.
O vocabulário de metadados compartilhados ( ontologias ) é um repositório entre este vocabulário que permite aos criadores de documentos saberem como marcar seus documentos semanticamente para que os agentes possam utilizar as informações contidas nos metadados fornecidos.
Agentes automatizados que executam as tarefas de usuários da web semântica usando esses dados estruturados e disponíveis.
Serviços da Web ( geralmente para seus próprios agentes ) Fornecerão informações precisas aos agentes, por exemplo, um serviço de reputação que tem um agente pode perguntar se algumas lojas online têm uma reputação boa ou ruim e verificá-la.

Observações céticas

Viabilidade prática

As principais críticas referem-se à viabilidade total ou mesmo parcial da Web Semântica. Cory Doctorow fala sobre " metacrap " (uma maleta formada por palavras metadados e crap , podemos tentar trazer ao poder francês por "métamerde"), uma crítica que se baseia na observação sarcástica do comportamento humano. Por exemplo, as pessoas podem incluir microdados parasitas em páginas da web para enganar os mecanismos da Web Semântica que confiarão “ingenuamente” na veracidade de todos os dados. Esse fenômeno é bem conhecido por enganar: mecanismos de indexação, como o Google , buscam detectar esse tipo de manipulação. Peter Gärdenfors e Timo Honkela (en) notaram que a lógica das tecnologias da Web semântica cobre apenas uma fração dos fenômenos que impactarão a semântica da Web.

Em 2001, Cory Doctorow fez uma lista dos sete obstáculos supostamente intransponíveis para obter metadados confiáveis o suficiente para rodar uma possível Web Semântica. De acordo com ele :

As pessoas estão mentindo.
As pessoas são preguiçosas.
As pessoas são estúpidas.
É difícil se descrever.
As classificações não são neutras.
A unidade de medida escolhida influencia os resultados.
Existem muitas maneiras de descrever a mesma coisa.

Também inclui outros motivos relacionados à obsolescência dos metadados:

Os dados podem se tornar falsos com o tempo.
Os dados não podem incorporar novas ideias.

Cory Doctorow deduz que a pesquisa em tal sistema só poderia retornar dados que são obsoletos e parcial ou totalmente incorretos.

A arquitetura, ferramentas e próprios conceitos de Web Semântica têm sido muitas vezes criticado, citando que as tecnologias ou processos para garantir a qualidade dos dados, inserido por seres humanos e, portanto, falíveis, ainda não pode operar em escala. Web . Esses limites são todos problemas novos que a pesquisa está tentando resolver por meio dos desafios da Web Semântica . A web science (in) é o nome que damos à “disciplina” que visa resolver novos problemas científicos que trazem a web. No entanto, as tecnologias da web semântica têm sido adotadas em comunidades especializadas na implementação de sistemas de informação, mas principalmente em sistemas fechados (exemplo: intranet ), como em empresas ou bibliotecas.

Censura e privacidade

O entusiasmo pela Web Semântica pode ser temperado por considerações como a recusa da censura e o desejo de proteger a privacidade . Por exemplo, atualmente é possível enganar facilmente os analisadores de texto para que usem outras palavras, metáforas ou imagens em vez de palavras. É muito mais fácil para os governos visualizar e, portanto, controlar a criação de informações online se usar uma estrutura semântica, porque as informações são muito mais fáceis de interpretar e possivelmente de bloquear por meio de um sistema automatizado. Além disso, a questão também foi levantada pelo uso de metadados como FOAF ou Geolocation API (as) , que questionam o anonimato da World Wide Web . Essas preocupações tornam a segurança de dados pessoais um tópico ativo de pesquisa, como no projeto “ Policy Aware Web ”.

Formatos de saída dupla

Outro revisor fala de um aumento no tempo de criação e publicação de conteúdo devido à necessidade de produzir duas versões: uma para visualização humana e outra para máquinas. No entanto, muitos aplicativos da web já enfrentam esse problema ao criar um formato legível para um navegador da web ou a pedido de um leitor de RSS , como um blog . O desenvolvimento de microformatos foi uma reação a esse tipo de crítica. Em sua defesa, a Web Semântica provavelmente reduzirá o esforço associado às tarefas de recuperação de informações e, assim, compensará o custo adicional de fornecer um formato compatível para máquinas.

Uma das primeiras soluções foi usar a linguagem GRDDL , um mecanismo que usa apenas o conteúdo já presente em uma página HTML (com microformatos potencialmente) para extrair RDF dela. No entanto, a multiplicidade e a instabilidade dos microformatos, bem como a dificuldade de criar o conversor XSLT para GRDDL, levaram a especificar o RDFa para integrar o RDF de forma simples e explícita nas páginas HTML . O método RDFa também será integrado diretamente ao padrão HTML5 por meio de microdados , o que simplificará ainda mais a inserção de dados RDF em um documento.

Projetos

Esta seção lista alguns dos muitos projetos e ferramentas que existem no movimento da Web Semântica.

Europa: ERCIM

O avanço da Semantic Web em todo o mundo é monitorado pelo W3C como parte do projeto Semantic Web Advanced Deployment ( SWAD ). O projeto SWAD -Europe teve lugar a partir deMaio de 2002 no outubro de 2004.

A organização europeia que hospeda os projetos do W3C e acompanha o progresso da Web Semântica é o ERCIM ( Consórcio Europeu de Pesquisa para Informática e Matemática ).

Projeto Data.bnf.fr da Biblioteca Nacional da França

A Biblioteca Nacional da França está entrando no Semantic Web através de sua data.bnf.fr projeto . Este projeto integra dados produzidos em vários formatos, incluindo Intermarc, XML-EAD e Dublin Core , para a biblioteca digital. Os dados são modelados e agrupados por processamento automático e publicado em vários RDF normas : RDF-XML, RDF-N3, e RDF-NT. Também há uma publicação de dados em JSON . O projeto usa a plataforma de desenvolvimento semântico CubicWeb .

A Biblioteca Nacional da França, portanto, fornece:

URIs para os recursos graças a identificadores perenes, atribuídos de acordo com o mecanismo ARK que permite o acesso a todos os recursos da biblioteca.
para cada recurso, um conjunto de metadados associado ao URI do recurso na forma de triplos RDF, de acordo com tecnologias de dados abertos vinculados . Esses metadados podem ser recuperados em cada página (exportação) e para todo o banco de dados (despejo). Eles também podem ser consultados por meio de um console Sparql.

Em 2013, o projeto compartilhou o Prêmio Stanford de Inovação em Bibliotecas de Pesquisa (SPIRL) com Gallica .

Desde 2017, o modelo de dados data.bnf.fr é baseado no modelo de referência conceitual IFLA LRM , permitindo navegar nas relações entre entidades.

DBpedia e SemanticPedia

DBpedia é o primeiro esforço histórico de publicação de dados estruturados extraídos da Wikipedia : os dados são extraídos das páginas e, em particular, das caixas de informações da Wikipedia publicadas em RDF e disponibilizadas na Web dos dados via HTTP e SPARQL sob a licença GFDL . .

SemanticPedia é uma plataforma para publicação de dados de vários projetos da Wikimedia em francês, apoiada pelo Ministério da Cultura e Comunicação , Inria e Wikimedia França . Uma versão francesa da DBpedia foi desenvolvida pela equipe Wimmics sob a responsabilidade de Fabien Gandon no centro de pesquisa Inria Sophia Antipolis. Este capítulo de língua francesa é denominado DBpedia.fr e contribui para o francês para a internacionalização da iniciativa DBpedia , extraindo e publicando dados dos diferentes capítulos linguísticos da Wikipedia . Este capítulo francês da DBpedia oferece suporte a muitos aplicativos. A Ministra da Cultura da França, Aurélie Filippetti , anunciou o19 de novembro de 2012 que o próximo projeto envolveria o Wikcionário e seus dois milhões de termos.

Wikidata

Wikidata é um dos projetos da Fundação Wikimedia. Seu objetivo é disponibilizar gratuitamente aos colaboradores todos os dados estruturados de todos os projetos da fundação, sem qualquer intermediário.

A Wikipedia é um dos projetos ligados ao Wikidata. Cada artigo da Wikipedia agora tem um identificador único na forma de um IRI e é uma entidade na comunidade Wikidata. Cada entidade é composta por vários imóveis com um ou mais valores (triplos). Essas entidades e propriedades são marcadas com um identificador exclusivo (por exemplo: Q90 é o identificador exclusivo de Paris), o que torna o banco de dados independente do idioma usado. O valor dessas propriedades pode ser outra entidade, mas também uma string, número, data, etc. Os dados estruturados desta forma podem ser reutilizados em vários formatos (XML, JSON, Turtle, etc.) e podem, em última instância, ser usados para alimentar as infoboxes da Wikipedia, evitando, assim, ter que modificá-las manualmente em todas as línguas, uma vez que o Wikidata é modificado ., todas as infoboxes são modificadas ao mesmo tempo.

Os dados do Wikidata são licenciados sob CC0 . Todos os dados compartilhados são, portanto, gratuitos e abertos para todos os tipos de uso.

Para a Web Semântica, o Wikidata é um dos poucos terminais SPARQL conectados em tempo real aos produtores de dados. Isso significa que as alterações no Wikidata impactam imediatamente o banco de dados RDF e, portanto, permitem que esses dados sejam reutilizados em outros aplicativos através do SPARQL. Em termos de sua ontologia, a estrutura é construída ao longo do tempo de forma consensual entre os colaboradores. A estrutura desta ontologia pode, portanto, mudar a qualquer momento de acordo com as necessidades dos colaboradores.

AKSW

AKSW ( Agile Knowledge Engineering and Semantic Web ) é um grupo de pesquisa que é hospedado pela Betriebliche Informationssysteme ( BIS ) Chairdo Institut für Informatik ( IFI ) da Universidade de Leipzig, bem como pelo Institute for Applied Computing ( InfAI ) . O grupo de pesquisa AKSW lançou uma série de projetos como DBpedia.

DataLift

Datalift é uma plataforma original destinada à exploração de dados que integra numa única solução open source todas as funções úteis para a interligação de dados, desde a sua captura até à sua publicação final. No Datalift, os dados de entrada são dados brutos provenientes de formatos heterogêneos (bancos de dados, CSV, XML, RDF, RDFa, GML, Shapefile ...). Os dados produzidos são dados vinculados. A plataforma Datalift participa ativamente da transformação da Web em Web de dados .

Projetos de ontologia

FOAF

FOAF ( Friend Of A Friend ) é um vocabulário que usa RDF para descrever os relacionamentos que as pessoas têm com outras pessoas e as “coisas” ao seu redor. FOAF é um exemplo da tentativa da Web Semântica de fazer uso de relacionamentos dentro de um contexto social.

Comunidades Online Interligadas Semanticamente (SIOC)

O SIOC é um vocabulário para descrever objetos comumente usados em sites de comunidades e seus relacionamentos.

Outro

A Web de dados oferece o desenvolvimento de novos usos que concretizam a noção de inteligência coletiva, tais como:

O bookmarking social .
Os wikis semânticos , que permitem criar conteúdos especificando o seu significado e caracterizando a sua relação através de uma espécie de wiki de sintaxe .

Notas e referências

(fr) Este artigo foi retirado parcial ou totalmente do artigo da Wikipedia em inglês intitulado " Semantic Web " ( veja a lista de autores ) .

"Search engine - Definition and Explanations " , em techno-science.net (acessado em 22 de junho de 2021 )
(em) "XML and Web Standards W3C Semantic Timeline" (versão de 26 de outubro de 2019 no Internet Archive ) ,4 de fevereiro de 2012.
(en) “ W3C Semantic Web Activity ” , World Wide Web Consortium (W3C),7 de novembro de 2011(acessado em 26 de novembro de 2011 ) .
(em) Tim Berners-Lee , James Hendler e Ora Lassila, " The Semantic Web " , Scientific American Magazine ,17 de maio de 2001( leia online , consultado em 26 de março de 2008 ).
(em) Lee Feigenbaum, " The Semantic Web in Action " , Scientific American ,1 ° de maio de 2007(acessado em 24 de fevereiro de 2010 ) .
(em) Berners-Lee, Tim " The Semantic Web " , Scientific American ,1 r maio 2001(acessado em 13 de março de 2008 ) .
(em) Nigel Shadbolt , Wendy Hall, Tim Berners-Lee, " The Semantic Web Revisited " , IEEE Intelligent Systems ,2006(acessado em 13 de abril de 2007 ) .
(em) Allan M. Collins e R. Quillian, " Tempo de recuperação da memória semântica " , Journal of Verbal Learning and Verbal behaviour , theft. 8, n o 21969, p. 240-247 ( PMID 615603750 , DOI 10.1016 / S0022-5371 (69) 80069-1 ).
(em) Allan Collins e Ross Quillian, " O tamanho afeta o tempo de categorização da categoria? » , Jornal de aprendizagem verbal e comportamento verbal , vol. 9, n o 4,1970, p. 432-438 ( DOI 10.1016 / S0022-5371 (70) 80084-6 ).
(em) Allan Mr Allan Collins e Elizabeth F. Loftus, " A spreading-activation theory of semantic processing " , Psychological Review , vol. 82, n o 6,1975, p. 407-428 ( DOI 10.1037 / 0033-295X.82.6.407 ).
(in) MR Quillian , " Word concepts - A teoria e simulação de algumas capacidades semânticas básicas " , Behavioral Science , Vol. 12, n o 5,1967, p. 410–430 ( PMID 6059773 , DOI 10.1002 / bs.3830120511 ).
(in) Semantic memory | livro: Marvin Minsky (editor): Semantic information processing, MIT Press, Cambridge, Massachusetts ,1988.
(em) Tim Berners-Lee , Fischetti, Mark, Weaving the Web , HarperSanFrancisco ,1999( ISBN 978-0-06-251587-2 ) , capítulo 12.
Yannick Maignien, “The Issues of the semantic web” , em Marcello Vitali-Rosati , Michael E. Sinatra, Practices of digital publishing , Montreal, Presses de l'Université de Montréal ,2014, 224 p. ( ISBN 9782760632035 , leia online ) , p. 77-94.
(in) Gerber, AJ Barnard, A, & Van der Merwe, Alta (2006) "A Semantic Web Status Model, Integrated Design and Process Technology" Edição especial: ITDP, 2006.
(en) Gerber, Aurona; Van der Merwe, Alta; Barnard, Andries (2008) “A Functional Semantic Web architecture” European Semantic Web Conference 2008 ESWC'08, Tenerife, junho de 2008.
Alinhamento (in) , estilos de fonte e regras horizontais , especificação HTML 4.01 , 24 de dezembro de 1999.
Tim Berners-Lee, " A web vai mudar dimensão ," The Search , n o 413,2007, p. 34.
(in) Artem Chebotko e Lu Shiyong, "Querying the Semantic Web: An Efficient Approach Using Relational Databases" LAP Lambert Academic Publishing , ( ISBN 978-3-8383-0264-5 ) , em 2009.
“ Blog de Tim Berners Lee ” .
(en) Victoria Shannon, “ A 'mais revolucionário' Web ” , International Herald Tribune ,26 de junho de 2006(acessado em 24 de maio de 2006 ) .
palavra da moda, especialmente no campo da tecnologia, mais ou menos sem sentido
http://www.worldwidewebsize.com ].
(em) " Raciocínio de incerteza para a World Wide Web " em www.w3.org , Grupo Incubator para Raciocínio de incerteza para a World Wide Web (URW3-XG) 2008(acessada 1 st julho 2012 ) .
(em) Thomas Lukasiewicz e Umberto Straccia, " Gerenciando incerteza e imprecisão em lógicas de descrição para a Web Semântica " , Journal of Web Semantics , vol. 6, n o 4,Novembro de 2008, p. 291-308 ( ler online ).
Padrões da Web Semântica (in) publicados pelo W3C .
(em) " OWL Web Ontology Language Overview " , World Wide Web Consortium (W3C)10 de fevereiro de 2004(acessado em 26 de novembro de 2011 ) .
(em) " RDF tutorial " , D r Leslie Sikos (acessado em 5 de julho de 2011 ) .
(em) " Resource Description Framework (RDF) " , World Wide Web Consortium .
(em) " Sites padrão " , D r Leslie Sikos (acessado em 5 de julho de 2011 ) .
(in) Allemang, D. Hendler, J., RDF - The basis of the Semantic Web ; in: Web Semântica para a Ontologist de Trabalho ( 2 ª ed. ) , Morgan Kaufmann,2011( DOI 10.1016 / B978-0-12-385965-5.10003-2 ).
(in) Jim Rapoza, " SPARQL Will Make the Web Shine " , eWeek (in) ,2 de maio de 2006(acessado em 17 de janeiro de 2007 ) .
“ A designação“ Recomendação do W3C ”significa que um documento foi submetido a uma revisão pública e que foi distribuído entre as organizações membros do W3C para revisão. " (Versão de 5 de agosto de 2012 no Internet Archive ) .
" W3C publica recomendações RDF e OWL , " em w3.org (acessado em 13 de julho de 2021 )
Editorial JDN, " What is Web 3.0?" » , No jornal du net.fr ,29 de janeiro de 2019(acessado em 5 de fevereiro de 2021 )
Jean-François Ruiz, " Do DNA da Web 2.0 à ruptura da Web 3.0 através da Web semântica, até Dædalus se perderia no Webyrinth ... " , em Webdeux.info ,30 de março de 2006(acessado em 5 de fevereiro de 2021 )
(em) Qual Web Semântica? .
(in) Peter Gärdenfors , " How to make the Semantic Web more semantic " (Formal Ontology in Information Systems: Proceedings of the International Conference third (TIME-2004)), Frontiers in Artificial Intelligence and Applications , IOS Press,2004, p. 17-34.
(in) Timo Honkela, City Könönen Tiina-Knuutila Lindh e Sanna-Mari Paukkeri, " Simulating processos de formação de conceito e comunicação " , Journal of Economic Methodology ,2008.
"" Ontology is overrated ", de Clay Shirky, tradução de Christophe Ducamp" (versão de 28 de junho de 2008 no Internet Archive ) .
(em) James Hendler, Nigel Shadbolt, Wendy Hall, Tim Berners-Lee e Daniel Weitzner. 2008. “Ciência da Web: uma abordagem interdisciplinar para entender a web” Comunicação ACM 51, 7 (julho de 2008), 60-69. DOI : 10.1145 / 1364782.1364798 .
(em) Ivan Herman, " State of the Semantic Web " , Semantic Days 2007 ,2007(acessado em 26 de julho de 2007 ) .
www.policyawareweb.org .
http://data.bnf.fr/semanticweb
(em) " Prêmios de 2013 " , nas Bibliotecas de Stanford (acessado em 26 de setembro de 2020 ) .
Exemplo do site DBpedia.fr .
" DBpedia FR " em fr.dbpedia.org (acessado em 3 de abril de 2017 ) .
Camille Gévaudan, " Wikipedia vai poupar robôs ", Liberation ,21 de novembro de 2012( leia online , acessado em 19 de maio de 2017 ).
AKSW ( Agile Knowledge Engineering e Semantic Web ) .
http://www.datalift.fr

Veja também

links externos

(pt) Site oficial da Web Semântica, W3C .
Collins AM & Quillian M. R, Tempo de recuperação da memória semântica , 1969.
Julien Plu, Introdução à Web Semântica ,abril de 2011.
Por que e como o mundo se tornou digital? Um resumo da história da computação, INRIA, 2010. Vídeo educativo de cerca de 24 minutos para alunos do ensino médio. Apresentação da Web Semântica por Rose Dieng-Kuntz ; início: 15 min.

Bibliografia

Fabien Gandon , Catherine Faron Zucker e Olivier Corby , The Semantic Web: How to Link Data and Patterns on the Web? , Dunod ,1 ° de janeiro de 2012( ISBN 978-2-10-057294-6 e 2-10-057294-6 , OCLC 795501050 )