A Web Semântica , ou semântica da web , é uma extensão da Web padronizada pelo World Wide Web Consortium (W3C). Esses padrões encorajam o uso de formatos de dados padronizados e protocolos de troca na Web, com base no modelo Resource Description Framework (RDF).
A Web Semântica é conhecida por alguns como Web 3.0.
De acordo com o W3C, "The Semantic Web fornece um modelo que permite que os dados sejam compartilhados e reutilizados entre vários aplicativos, empresas e grupos de usuários . " A frase foi cunhada por Tim Berners-Lee (inventor da Web e diretor do W3C), que supervisiona o desenvolvimento de tecnologias comuns da Web Semântica. Ele o define como “uma teia de dados que pode ser processada direta e indiretamente por máquinas para ajudar seus usuários a criar novos conhecimentos” . Para isso, a Web Semântica implementa a Web of Data que consiste em vincular e estruturar informações na Internet de forma a simplesmente acessar o conhecimento que ela já contém.
Enquanto seus detratores questionam sua viabilidade, seus promotores argumentam que aplicações feitas por pesquisadores da indústria , biologia e humanidades já provaram a validade desse novo conceito. O artigo original de Tim Berners-Lee de 2001 na Scientific American descreveu uma evolução esperada da web existente para uma web semântica, mas isso ainda está para acontecer. Em 2006, Tim Berners-Lee e seus colegas disseram: “Esta ideia simples ... permanece amplamente inexplorada. "
O conceito de "modelo de rede semântica " foi cunhado na década de 1960 pelo cientista cognitivo Allan Collins , o lingüista Ross Quillian (in) e a psicóloga Elizabeth Loftus e exposto em várias publicações como uma forma de representar o conhecimento estruturado. Aplicado ao contexto da Internet, esse modelo estende a rede de hiperlinks de páginas da Web legíveis por humanos , inserindo metadados legíveis por máquina nas páginas. Esses metadados estão vinculados entre si, permitindo que os agentes acessem a web de forma mais inteligente e realizem tarefas em nome dos usuários. A Web Semântica é vista como um gateway para acessar dados entre diferentes aplicativos e sistemas. Suas aplicações são numerosas em publicações, blogs e em vários outros campos.
Tim Berners-Lee expressou originalmente a visão da Web Semântica da seguinte maneira:
Tenho um sonho para a Web [em que os computadores] se tornem capazes de analisar todos os dados da Web - o conteúdo, links e transações entre pessoas e computadores. Uma “Web Semântica”, que deveria tornar isso possível, ainda não surgiu, mas, quando isso acontecer, os mecanismos do dia-a-dia do comércio, da burocracia e do nosso dia-a-dia serão controlados por máquinas conversando com máquinas. Os “agentes inteligentes” que as pessoas apregoaram por séculos finalmente se materializarão.
“Sonho com uma Web [na qual os computadores] sejam capazes de analisar todos os dados da Web: conteúdo, links e transações entre pessoas e computadores. Ainda não surgiu uma “Web Semântica” que deveria tornar isso possível, mas quando o fizer, o funcionamento do dia-a-dia do comércio, da administração e do nosso dia-a-dia será processado por máquinas em diálogo com outras. Os "agentes inteligentes" alardeados por muito tempo finalmente se materializariam. "
A maioria das tecnologias oferecidas pelo W3C já existia antes. Estes são utilizados em diferentes contextos, especialmente aqueles relacionados com a informação que abrange um domínio limitado e definido, e onde a partilha de dados é uma necessidade comum, como seja a investigação científica ou o intercâmbio de dados entre organizações. Além disso, outras tecnologias com finalidades semelhantes surgiram, como microformatos .
O principal objetivo da Web Semântica é guiar a evolução da Web para permitir que usuários sem intermediários encontrem, compartilhem e combinem informações com mais facilidade. Os seres humanos podem usar a web para realizar tarefas como encontrar a palavra Paris para reservar um livro na biblioteca, encontrar um mapa e reservar uma passagem de transporte. No entanto, as máquinas não podem realizar todas essas tarefas sem orientação humana, pois as páginas da web são projetadas para serem lidas principalmente por pessoas. A Web Semântica visa tornar as páginas rastreáveis por humanos e também por máquinas. Isso permitiria que o trabalho tedioso e repetitivo de recuperação de informações fosse realizado de maneira automatizada, ao mesmo tempo em que melhorava e consolidava as informações na Web para seus usuários.
A Web Semântica, como foi originalmente planejada, é um sistema que permite que as máquinas “entendam” e respondam a solicitações humanas complexas de acordo com seu significado. Tal "compreensão" requer que as fontes de informação relevantes tenham sido semanticamente estruturadas de antemão. Essa estrutura acessível para máquinas permite uma capacidade de descoberta muito maior do que seria possível simplesmente com a Web de documentos. O uso de RDF para estruturar esses dados torna possível tirar proveito do desempenho da máquina; sua capacidade de processar dados torna possível estudar as informações obtidas a partir desses dados, a fim de tirar novas conclusões a partir do conhecimento existente. Com a ajuda do RDF, documentos produzidos em HTML tornam-se dados que, através do trabalho conjunto de máquinas e usuários, produzem novos conhecimentos.
Freqüentemente, as expressões " semântica ", " metadados ", " ontologias " e "Web semântica" são usadas de maneira inconsistente. Em particular, eles são usados todos os dias por pesquisadores e profissionais cuja terminologia cobre uma ampla paisagem de tecnologias, conceitos e campos de aplicação. Além disso, há confusão entre as tecnologias que estão sendo consideradas para implementá-lo e o movimento da Web Semântica. Em um artigo apresentado por Gerber, Barnard e Van der Merwe, a paisagem da Web Semântica é desenhada e um breve resumo de termos relacionados e tecnologias habilitadoras são apresentados. O modelo arquitetônico proposto por Tim Berners-Lee é usado como base para representar o estado das tecnologias atuais e emergentes.
No exemplo a seguir, o texto “Paul Schuster nasceu em Dresden” em uma página da web será anotado vinculando a pessoa ao seu local de nascimento. A parte do código HTML exibida abaixo mostra como descrever um minigráfico usando a sintaxe RDFa com o vocabulário do Schema.org e um identificador do Wikidata :
<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>Este exemplo define os seguintes cinco triplos ( in ), exibidos no formato tartaruga . Cada trinca representa uma aresta do gráfico gerado: seu primeiro elemento (o sujeito) é o nome do nó de onde começa a aresta, o segundo elemento (o predicado) indica o tipo da aresta e o último (o objeto) é o nome do nó de destino ou um valor literal (texto, número, etc.).
_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .Muitos arquivos em um computador podem ser classificados mais ou menos em duas categorias: documentos legíveis por humanos e dados legíveis por máquina. Documentos como e-mails , relatórios ou brochuras podem ser lidos por humanos. Por outro lado, os dados contidos em calendários, cadernos de endereços, listas de leitura ou planilhas são lidos desde que você use um aplicativo que permite que sejam lidos, pesquisados e transformados de diferentes maneiras.
Atualmente, a World Wide Web é baseada principalmente em documentos escritos em Hypertext Markup Language (HTML) , ou seja, uma convenção de marcação que é usada para codificar texto intercalado com objetos multimídia, como imagens, e formulários interativos. As tags de metadados fornecem um método pelo qual os computadores podem categorizar o conteúdo das páginas da web; por exemplo :
<meta name="keywords" content="computing, computer studies, computer" /> <meta name="description" content="Cheap widgets for sale" /> <meta name="author" content="John Doe" />Com HTML e uma ferramenta de exibição (que pode ser um navegador da web ou outro "agente de usuário" ), você pode criar e apresentar uma página que exibe itens à venda. HTML para uma página de catálogo pode ser feito de forma simples, o documento que contém declarações como "o título deste documento é 'Supermercado de gadgets'", mas o código HTML não é capaz de afirmar de forma inequívoca que, por Por exemplo, o número do item X586172 é uma tabela com um preço de $ 199 , nem é um produto de consumo. O HTML só pode dizer que o intervalo de texto "X586172" é algo que deve ser posicionado próximo a "Móveis" e "199 € ", etc. Não há como dizer que "isto é uma página de catálogo", nem mesmo dizer que "Móveis" é uma espécie de título, nem mesmo saber que "199 € " é um preço. Não há maneira de expressar que estes pedaços de informação estão ligados entre si para descrever um discreto ponto , distinto de outros itens que podem ser listadas na mesma página.
HTML semântico refere-se ao uso de tags HTML para inserir informações adicionais no documento. Por exemplo, usar o elemento HTML que deldesigna o conteúdo excluído em vez de strikeapenas exibir o texto tachado e apenas especificar sua formatação. O HTML semântico deixa o layout para o navegador adicionando folhas de estilo em cascata . Mas essa prática atinge seus limites quando se trata de especificar a semântica de objetos como itens à venda.
Os microformatos também são tentativas não oficiais de estender a sintaxe HTML para que uma máquina possa ler marcação semântica sobre objetos em um documento, como artigos para venda ou contatos (por exemplo, com hCard ).
A Semantic Web oferece linguagens especialmente desenvolvidas para dados: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) e XML ( eXtensible Markup Language ). HTML descreve documentos e os links entre eles. RDF, OWL e XML, por outro lado, também podem descrever coisas, como pessoas, reuniões ou partes de aviões. De acordo com Tim Berners-Lee, “RDF está para os dados o que HTML está para os documentos. RDF permite vincular dados a uma categoria. "
Essas tecnologias são combinadas para fornecer descrições que complementam ou substituem o conteúdo dos documentos da web. Assim, o conteúdo pode aparecer na forma de dados descritivos armazenados em bancos de dados acessíveis na Web ou por meio de tags em documentos (via HTML ou sua variante XHTML - XML HTML -). Esses dados podem ser intercalados com XML ou, às vezes, publicados apenas como XML, com layout e dados armazenados separadamente. As descrições legíveis por máquina permitem que os gerenciadores de conteúdo adicionem significado ao seu conteúdo, ou seja, descrevam a estrutura do conhecimento dentro do conteúdo. Desta forma, uma máquina pode:
Aqui está um exemplo de uma tag que seria usada em uma página da web não semântica:
<item>cat</item>A codificação de informações semelhantes em uma página da web semântica pode ter a seguinte aparência:
<item rdf:about="http://dbpedia.org/resource/Cat">Cat</item>Tim Berners-Lee impulsiona o surgimento de uma rede de dados relacionada ( dados vinculados , em inglês ), ou dados da web (em francês ) para o Giant Global Graph , ao contrário da Web é uma página HTML mundial baseada na web. Tim Berners-Lee assume que, se no passado compartilhamos documentos, no futuro compartilharemos dados. Sua resposta à pergunta "como?" Baseia-se em três pilares. Um, um URL deve apontar para os dados. Dois, qualquer pessoa que acesse o URL deve ser capaz de recuperar os dados. Três, os relacionamentos nos dados devem apontar para outras URLs com os dados.
Tim Berners-Lee descreveu a Web Semântica como um componente da Web 3.0:
As pessoas ficam perguntando o que é Web 3.0. Eu acho que talvez quando você tiver uma sobreposição de gráficos vetoriais escaláveis - tudo ondulando e dobrando e parecendo nebuloso - na Web 2.0 e acesso a uma Web semântica integrada em um enorme espaço de dados, você terá acesso a um recurso de dados inacreditável .
“As pessoas perguntam o tempo todo o que é Web 3.0. Acho que quando você tem uma sobreposição de desenhos vetoriais - todos em ondas e dobras nebulosas - descrevendo a Web 2.0 e o acesso a uma web semântica embutida em um enorme espaço de dados, você terá acesso a um incrível recurso de dados. "
"Web Semântica" às vezes é usada como sinônimo de "Web 3.0", embora a definição de cada termo varie. Como "Web 2.0", "Web 3.0" é um neologismo e uma palavra da moda . No caso da Web 2.0, o uso do termo é debatido entre aqueles que pensam que é um termo de marketing sem mudança real e aqueles que pensam que houve uma evolução real.
Alguns dos desafios da Web Semântica são vastidão, imprecisão, incerteza, inconsistência e decepção. Os sistemas de raciocínio automatizados terão que abordar todas essas questões, a fim de cumprir a promessa da Web Semântica.
Esta lista de desafios é mais ilustrativa do que exaustiva, pois enfoca os desafios da “lógica de unificação” e da camada de “prova” para a implementação da Web Semântica. Muitas das técnicas aqui mencionadas terão que estender a linguagem OWL ( Web Ontology Language ), por exemplo, para anotar a probabilidade condicional de uma informação. Esta é uma área ativa de pesquisa.
A padronização da Web Semântica é supervisionada pelo W3C .
A expressão “web semântica” costuma ser usada mais especificamente para designar formatos e tecnologias que permitirão sua existência. A coleta, estruturação e recuperação de dados relacionados irão operar usando tecnologias que fornecerão uma descrição formal de conceitos, termos e relacionamentos dentro de um determinado domínio de conhecimento . Essas tecnologias são padronizadas pelo W3C e incluem, em particular:
The Semantic Web Stack é uma ilustração para representar a arquitetura da Web Semântica. As funções e relacionamentos dos componentes podem ser resumidos da seguinte forma:
Os padrões ainda necessários para a implementação da Web Semântica passam pelo processo de recomendação dos grupos de trabalho do W3C ( World Wide Web Consortium ). Isso significa que cada nova recomendação está sujeita à revisão pública. Então, as recomendações do W3C, que serão amplamente adotadas, naturalmente se tornarão os padrões da “Web Semântica”.
Aqui está a lista de padrões e recomendações principais em que a Web Semântica se baseia:
Aqui estão as recomendações ativas atuais:
Por outro lado, muitos passos para implementar uma “Web Semântica” ainda estão por ser imaginados, esclarecidos e especificados. Tim Berners-Lee , por meio de seu Semantic Web Stack , resume essas etapas nas seguintes camadas:
Enquanto aguardam a implementação de todas essas camadas, as tecnologias já disponíveis, como o SPARQL , já permitem oferecer interoperabilidade com melhor granularidade nos dados do que a oferecida pelos serviços da Web (o W3C, além disso, retirou a padronização dos serviços da Web de suas prioridades ).
O conjunto de fontes de dados que compartilham seus dados com os padrões semânticos da Web foi denominado Web of data (ou em inglês “ Linked Open Data ”) para facilitar a adoção pelo público. O Data Web é baseado em tecnologias de Linked Data que se sobrepõem às tecnologias da Web Semântica já amplamente adotadas. O Linked Data é uma das principais tecnologias utilizadas no movimento " dados abertos " na Inglaterra que visa compartilhar dados massivamente públicos para acelerar a pesquisa e o comércio. O surgimento da Web Semântica é considerado por alguns como o próximo avanço tecnológico e, portanto, econômico que eles já chamam de Web 3.0 .
O objetivo será, portanto, no futuro, melhorar o acesso e a utilidade da Web e dos recursos interconectados por meio dela, como:
As principais críticas referem-se à viabilidade total ou mesmo parcial da Web Semântica. Cory Doctorow fala sobre " metacrap " (uma maleta formada por palavras metadados e crap , podemos tentar trazer ao poder francês por "métamerde"), uma crítica que se baseia na observação sarcástica do comportamento humano. Por exemplo, as pessoas podem incluir microdados parasitas em páginas da web para enganar os mecanismos da Web Semântica que confiarão “ingenuamente” na veracidade de todos os dados. Esse fenômeno é bem conhecido por enganar: mecanismos de indexação, como o Google , buscam detectar esse tipo de manipulação. Peter Gärdenfors e Timo Honkela (en) notaram que a lógica das tecnologias da Web semântica cobre apenas uma fração dos fenômenos que impactarão a semântica da Web.
Em 2001, Cory Doctorow fez uma lista dos sete obstáculos supostamente intransponíveis para obter metadados confiáveis o suficiente para rodar uma possível Web Semântica. De acordo com ele :
Também inclui outros motivos relacionados à obsolescência dos metadados:
Cory Doctorow deduz que a pesquisa em tal sistema só poderia retornar dados que são obsoletos e parcial ou totalmente incorretos.
A arquitetura, ferramentas e próprios conceitos de Web Semântica têm sido muitas vezes criticado, citando que as tecnologias ou processos para garantir a qualidade dos dados, inserido por seres humanos e, portanto, falíveis, ainda não pode operar em escala. Web . Esses limites são todos problemas novos que a pesquisa está tentando resolver por meio dos desafios da Web Semântica . A web science (in) é o nome que damos à “disciplina” que visa resolver novos problemas científicos que trazem a web. No entanto, as tecnologias da web semântica têm sido adotadas em comunidades especializadas na implementação de sistemas de informação, mas principalmente em sistemas fechados (exemplo: intranet ), como em empresas ou bibliotecas.
O entusiasmo pela Web Semântica pode ser temperado por considerações como a recusa da censura e o desejo de proteger a privacidade . Por exemplo, atualmente é possível enganar facilmente os analisadores de texto para que usem outras palavras, metáforas ou imagens em vez de palavras. É muito mais fácil para os governos visualizar e, portanto, controlar a criação de informações online se usar uma estrutura semântica, porque as informações são muito mais fáceis de interpretar e possivelmente de bloquear por meio de um sistema automatizado. Além disso, a questão também foi levantada pelo uso de metadados como FOAF ou Geolocation API (as) , que questionam o anonimato da World Wide Web . Essas preocupações tornam a segurança de dados pessoais um tópico ativo de pesquisa, como no projeto “ Policy Aware Web ”.
Outro revisor fala de um aumento no tempo de criação e publicação de conteúdo devido à necessidade de produzir duas versões: uma para visualização humana e outra para máquinas. No entanto, muitos aplicativos da web já enfrentam esse problema ao criar um formato legível para um navegador da web ou a pedido de um leitor de RSS , como um blog . O desenvolvimento de microformatos foi uma reação a esse tipo de crítica. Em sua defesa, a Web Semântica provavelmente reduzirá o esforço associado às tarefas de recuperação de informações e, assim, compensará o custo adicional de fornecer um formato compatível para máquinas.
Uma das primeiras soluções foi usar a linguagem GRDDL , um mecanismo que usa apenas o conteúdo já presente em uma página HTML (com microformatos potencialmente) para extrair RDF dela. No entanto, a multiplicidade e a instabilidade dos microformatos, bem como a dificuldade de criar o conversor XSLT para GRDDL, levaram a especificar o RDFa para integrar o RDF de forma simples e explícita nas páginas HTML . O método RDFa também será integrado diretamente ao padrão HTML5 por meio de microdados , o que simplificará ainda mais a inserção de dados RDF em um documento.
Esta seção lista alguns dos muitos projetos e ferramentas que existem no movimento da Web Semântica.
O avanço da Semantic Web em todo o mundo é monitorado pelo W3C como parte do projeto Semantic Web Advanced Deployment ( SWAD ). O projeto SWAD -Europe teve lugar a partir deMaio de 2002 no outubro de 2004.
A organização europeia que hospeda os projetos do W3C e acompanha o progresso da Web Semântica é o ERCIM ( Consórcio Europeu de Pesquisa para Informática e Matemática ).
A Biblioteca Nacional da França está entrando no Semantic Web através de sua data.bnf.fr projeto . Este projeto integra dados produzidos em vários formatos, incluindo Intermarc, XML-EAD e Dublin Core , para a biblioteca digital. Os dados são modelados e agrupados por processamento automático e publicado em vários RDF normas : RDF-XML, RDF-N3, e RDF-NT. Também há uma publicação de dados em JSON . O projeto usa a plataforma de desenvolvimento semântico CubicWeb .
A Biblioteca Nacional da França, portanto, fornece:
Em 2013, o projeto compartilhou o Prêmio Stanford de Inovação em Bibliotecas de Pesquisa (SPIRL) com Gallica .
Desde 2017, o modelo de dados data.bnf.fr é baseado no modelo de referência conceitual IFLA LRM , permitindo navegar nas relações entre entidades.
DBpedia é o primeiro esforço histórico de publicação de dados estruturados extraídos da Wikipedia : os dados são extraídos das páginas e, em particular, das caixas de informações da Wikipedia publicadas em RDF e disponibilizadas na Web dos dados via HTTP e SPARQL sob a licença GFDL . .
SemanticPedia é uma plataforma para publicação de dados de vários projetos da Wikimedia em francês, apoiada pelo Ministério da Cultura e Comunicação , Inria e Wikimedia França . Uma versão francesa da DBpedia foi desenvolvida pela equipe Wimmics sob a responsabilidade de Fabien Gandon no centro de pesquisa Inria Sophia Antipolis. Este capítulo de língua francesa é denominado DBpedia.fr e contribui para o francês para a internacionalização da iniciativa DBpedia , extraindo e publicando dados dos diferentes capítulos linguísticos da Wikipedia . Este capítulo francês da DBpedia oferece suporte a muitos aplicativos. A Ministra da Cultura da França, Aurélie Filippetti , anunciou o19 de novembro de 2012 que o próximo projeto envolveria o Wikcionário e seus dois milhões de termos.
Wikidata é um dos projetos da Fundação Wikimedia. Seu objetivo é disponibilizar gratuitamente aos colaboradores todos os dados estruturados de todos os projetos da fundação, sem qualquer intermediário.
A Wikipedia é um dos projetos ligados ao Wikidata. Cada artigo da Wikipedia agora tem um identificador único na forma de um IRI e é uma entidade na comunidade Wikidata. Cada entidade é composta por vários imóveis com um ou mais valores (triplos). Essas entidades e propriedades são marcadas com um identificador exclusivo (por exemplo: Q90 é o identificador exclusivo de Paris), o que torna o banco de dados independente do idioma usado. O valor dessas propriedades pode ser outra entidade, mas também uma string, número, data, etc. Os dados estruturados desta forma podem ser reutilizados em vários formatos (XML, JSON, Turtle, etc.) e podem, em última instância, ser usados para alimentar as infoboxes da Wikipedia, evitando, assim, ter que modificá-las manualmente em todas as línguas, uma vez que o Wikidata é modificado ., todas as infoboxes são modificadas ao mesmo tempo.
Os dados do Wikidata são licenciados sob CC0 . Todos os dados compartilhados são, portanto, gratuitos e abertos para todos os tipos de uso.
Para a Web Semântica, o Wikidata é um dos poucos terminais SPARQL conectados em tempo real aos produtores de dados. Isso significa que as alterações no Wikidata impactam imediatamente o banco de dados RDF e, portanto, permitem que esses dados sejam reutilizados em outros aplicativos através do SPARQL. Em termos de sua ontologia, a estrutura é construída ao longo do tempo de forma consensual entre os colaboradores. A estrutura desta ontologia pode, portanto, mudar a qualquer momento de acordo com as necessidades dos colaboradores.
AKSW ( Agile Knowledge Engineering and Semantic Web ) é um grupo de pesquisa que é hospedado pela Betriebliche Informationssysteme ( BIS ) Chairdo Institut für Informatik ( IFI ) da Universidade de Leipzig, bem como pelo Institute for Applied Computing ( InfAI ) . O grupo de pesquisa AKSW lançou uma série de projetos como DBpedia.
Datalift é uma plataforma original destinada à exploração de dados que integra numa única solução open source todas as funções úteis para a interligação de dados, desde a sua captura até à sua publicação final. No Datalift, os dados de entrada são dados brutos provenientes de formatos heterogêneos (bancos de dados, CSV, XML, RDF, RDFa, GML, Shapefile ...). Os dados produzidos são dados vinculados. A plataforma Datalift participa ativamente da transformação da Web em Web de dados .
FOAF ( Friend Of A Friend ) é um vocabulário que usa RDF para descrever os relacionamentos que as pessoas têm com outras pessoas e as “coisas” ao seu redor. FOAF é um exemplo da tentativa da Web Semântica de fazer uso de relacionamentos dentro de um contexto social.
Comunidades Online Interligadas Semanticamente (SIOC)O SIOC é um vocabulário para descrever objetos comumente usados em sites de comunidades e seus relacionamentos.
A Web de dados oferece o desenvolvimento de novos usos que concretizam a noção de inteligência coletiva, tais como: