Um motor de pesquisa é uma aplicação web que permite ao utilizador realizar uma pesquisa online (ou pesquisa na Internet ), ou seja, encontrar recursos a partir de uma consulta composta por termos. Os recursos podem ser, em particular , páginas da web , os itens de fóruns da Usenet , as fotos , os vídeos , os arquivos , livros, sites educacionais, aplicativos , de software livre .
Em princípio, eles geralmente funcionam:
Alguns sites oferecem um mecanismo de pesquisa como principal funcionalidade; o próprio site é então denominado “motor de pesquisa”. São ferramentas de pesquisa na web sem intervenção humana, o que os diferencia dos diretórios . São baseados em " robôs ", também chamados de " bots ", " spiders ", " crawlers " ou "agentes", que navegam automaticamente nos sites em intervalos regulares para descobrir novos endereços ( URLs ). Eles seguem os hiperlinks que conectam as páginas umas às outras, uma após a outra. Cada página identificada é então indexada em um banco de dados , que pode ser acessado pelos usuários da Internet por meio de palavras-chave .
É por abuso de linguagem que também chamamos sites de "motores de busca" que oferecem diretórios de sites: neste caso, são ferramentas de pesquisa desenvolvidas por pessoas que listam e classificam sites considerados dignos de interesse, e não rastreadores da web.
Os mecanismos de pesquisa não se aplicam apenas à Internet: alguns mecanismos de pesquisa são softwares instalados em um computador pessoal . Estes são os chamados motores “desktop” que combinam a pesquisa entre os arquivos armazenados no PC e a pesquisa entre sites - por exemplo, Copernic Desktop Search, Windex Server, etc.
Existem também motores de metabusca , ou seja, sites onde a mesma pesquisa é lançada simultaneamente em vários motores de busca, sendo os resultados então mesclados para serem apresentados ao internauta .
Os mecanismos de pesquisa da Internet são anteriores ao início da Web no final de 1990:
Os mecanismos de busca são inspirados por ferramentas de recuperação documental (baseadas em arquivos invertidos , também conhecidos como arquivos de índice ) usadas em mainframes desde os anos 1970, como o software STAIRS da IBM . O método de preenchimento de seus bancos de dados é, porém, diferente, pois é orientado para a rede . Além disso, a distinção entre dados formatados (“campos”) e texto livre não existe mais, embora a partir de 2010 tenha começado a se reintroduzir por meio da web semântica .
Os motores históricos foram Lycos (1994), Altavista (1995, o primeiro motor de 64 bits) e Backrub (1997), ancestral do Google .
O funcionamento de um mecanismo de pesquisa, como qualquer ferramenta de pesquisa , pode ser dividido em três processos principais:
Módulos complementares são freqüentemente usados em conjunto com os três blocos de construção básicos do mecanismo de pesquisa. Os mais famosos são os seguintes:
O corretor ortográfico: | O lematizador: | O anti-dicionário: |
---|---|---|
Permite corrigir os erros introduzidos
nas palavras do pedido, certificando-se de sua relevância, levando em consideração seus forma canônica. |
Dá a possibilidade de reduzir
palavras de pesquisa para seu lema por assim, estender seu escopo de pesquisa.
|
É usado para remover todos
palavras "vazias" (como "de", "o", "o") que não são discriminatórios e que perturbam o pontuação de pesquisa introduzindo ruído . A exclusão é feita no índice e no os pedidos. |
Para otimizar os mecanismos de pesquisa, os webmasters inserem meta - elementos (metatags) em páginas da web , no cabeçalho HTML (cabeçalho). Essas informações permitem otimizar as buscas de informações nos sites .
Os sites que atendem principalmente à pesquisa são financiados pela venda de tecnologia e publicidade.
O financiamento publicitário consiste na apresentação de anúncios correspondentes às palavras pesquisadas pelo visitante. O anunciante compra palavras-chave: por exemplo, uma agência de viagens pode comprar palavras-chave como "férias", "hotel" e "praia" ou "Cannes", "Antibes" e "Nice" se for especializada nesta região. Esta compra permite obter um referenciamento denominado "referenciamento pago" a distinguir do referenciamento denominado "referenciamento natural".
O mecanismo de pesquisa pode exibir o anúncio de duas maneiras: como um encarte separado ou como parte dos resultados da pesquisa. Para o visitante, o encarte separado parece um anúncio clássico. A integração nos resultados, por outro lado, prejudica a relevância dos resultados e pode ter repercussões negativas na qualidade percebida do motor. Por isso, nem todos os motores vendem um investimento em resultados.
Os motores de busca são uma questão econômica. O valor de mercado das ações da holding Alphabet de propriedade do Google , o principal mecanismo de busca, era de US $ 831 bilhões em abril de 2020.
A importância das apostas econômicas gerou técnicas de desvio desonesto dos buscadores para obter referenciamento "natural", o spamdexing (referenciamento abusivo em francês).
As técnicas de spamdexing mais populares são:
As técnicas abusivas de referenciação são perseguidas pelos editores dos buscadores, que constituem listas negras, provisórias ou definitivas.
Nós distinguimos spamdexing , desvio desonesto, de "SEO", Search Engine Optimization ( otimização para motores de busca em francês). As técnicas de SEO são comercializadas por empresas especializadas.
Grandes organizações (empresas, administrações) geralmente têm um grande número de recursos de TI em uma grande intranet . Como seus recursos não são acessíveis pela Internet , eles não são cobertos pelos mecanismos de pesquisa da web. Eles devem, portanto, instalar seu próprio mecanismo se quiserem pesquisar seus recursos. Portanto, eles constituem um mercado para desenvolvedores de mecanismos de pesquisa. Isso é conhecido como mecanismo de pesquisa de negócios (veja abaixo).
Acontece também que os sites públicos utilizam os serviços de um motor de busca para expandir a sua oferta. Isso é chamado de “SiteSearch”. Este software permite a busca de conteúdo em um ou mais grupos de sites. Essas tecnologias são usadas principalmente em sites de conteúdo e sites de vendas online. A particularidade dessas ferramentas costuma ser a complexidade de implementação e os recursos técnicos necessários disponíveis.
Grandes portais também podem explorar a tecnologia de mecanismo de pesquisa. Então, Yahoo! , especialista em diretórios da web , usou a tecnologia do Google para busca por alguns anos até lançar seu próprio mecanismo de busca Yahoo Search Technology em 2004, cujas fundações vieram da Altavista, Inktomi e Overture, empresas fundadoras dos mecanismos de busca e adquiridas pelo Yahoo! .
Cada vez mais produtores de conteúdo, seguindo as recomendações do W3C na web semântica , estão indexando seus bancos de dados com metadados ou taxonomias ( ontologias ), a fim de permitir que os motores de busca se adaptem às análises semânticas .
Essas formas de pesquisa e análise de corpus de informações por computador ainda são apenas potencialidades.
Em comparação com as pesquisas de texto completo , as pesquisas realizadas na web semântica devem ser mais fáceis de usar:
A rigor, ainda não existe um buscador semântico que possibilite entender uma pergunta em linguagem natural e adaptar uma resposta de acordo com os resultados encontrados.
Existem, no entanto, algumas tentativas de encontrar uma resposta intermediária para essa problemática do significado na busca por informações:
O abandono gradual das listas impressas leva os utilizadores a realizarem as mesmas pesquisas na Internet “profissão + localidade”. O Google, portanto, adquiriu em 2010 um arquivo de empresas (para a França e um certo número de países), para realizar uma combinação de dados da web e de diretório quando as solicitações correspondem a uma atividade localizada. Esta nova tendência é confirmada pelos principais motores de busca e surgem novas “ferramentas mistas”. Yandex e Baidu ainda não adotaram esse modelo de mistura.
De acordo com um estudo realizado pela McKinsey & Co, apenas 65% das PME francesas tinham uma presença na Internet em 2013. De acordo com outro estudo , esta proporção chega a 72% para as profissões liberais (advogados, dentistas, médicos, notários, oficiais de justiça, enfermeiras, etc.).
Os motores de busca, que por definição apenas recolhem dados da Internet, eram, portanto, obrigados a adquirir e oferecer esses endereços de listas, para além de satisfazer a procura de endereços dos utilizadores da Internet. O Google batizou esses endereços de “Endereços do Google” e, em seguida, mudou automaticamente para “Google +”, atualmente “ Google Meu Negócio ”. Os mecanismos de busca Bing e Google não comunicam a origem desses arquivos integrados da empresa, exceto o Yahoo! que está em parceria com Pages Jaunes .
França | Alemanha | Canadá | Estados Unidos | México | Brasil | Marrocos | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31% | |
Bing | 2,95% | 2,89% | 4,31% | 5,59% | 3,36% | 1,32% | 1,79% |
Yahoo | 1,53% | 0,84% | 2,33% | 8,35% | 1,51% | 1,18% | 0,71% |
Qwant | 0,7% | ||||||
DuckDuckGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09% | 0,01% | 0,08% |
Msn | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
Os mecanismos de metabusca são ferramentas de busca que consultam vários mecanismos de busca simultaneamente e apresentam ao usuário uma síntese relevante.
Exemplos: Startpage , Searx , Seeks e Lilo , Framabee .
O termo “ multi-motor (en) ” (ou mais raramente, “super motor”) denota uma página da web que oferece um ou mais formulários, tornando possível consultar vários motores. Também pode (mas mais raramente) ser um software, uma função ou um plug-in de navegador da web ou uma barra de ferramentas ...
A escolha de um dos motores pode ser feita por botão , botão de rádio , guia , lista suspensa ou outro.
As primeiras páginas deste tipo copiam o código do formulário de vários motores. Com o advento do JavaScript , tornou-se possível ter apenas um formulário.
Podemos citar, por exemplo, Creative Commons Search , Ecosia , Disconnect , motor de busca da Maxthon , HooSeek (encerrado em 2012).
O termo “motor de busca solidário” é usado para designar um motor que doa parte de sua receita para causas ecológicas, sociais ou humanitárias. Esses motores nasceram da observação de que as receitas anuais geradas pela publicidade em motores de busca são bastante significativas (cerca de $ 45 por utilizador para o Google). Os motores de busca solidários destacam-se sobretudo pela forma como distribuem os rendimentos gerados. Alguns mecanismos como o Ecosia doam parte da receita para uma única causa, enquanto mecanismos como o Lilo permitem que os usuários da Internet escolham quais projetos financiar.
Veja a lista de motores de busca solidários.
O termo “motores verticais” denota uma página da web ou um serviço multimídia que oferece pesquisa especializada em um campo profissional ou que é particularmente direcionado. Esta ferramenta de pesquisa é especializada em um determinado setor, como telecomunicações, direito, biotecnologia, finanças (seguros) ou mesmo imobiliário. O seu funcionamento geral baseia-se numa base de dados constituída a partir das bases de dados de todos os sites especializados da atividade visada.
Este tipo de motor é utilizado por profissionais e dirigido ao consumidor, muitas vezes com uma finalidade económica que advém da geolocalização.
Existem, portanto, diretórios e comparadores para o público em geral. Estão agora disponíveis para todas as atividades: imobiliário, turismo, procura de emprego, recrutamento, automóvel, lazer, jogos.
A explosão do número de conteúdos em diversos formatos (dados, informações não estruturadas, imagens, vídeos, etc.) disponíveis nas empresas está a obrigá-las a equipar-se com um motor de busca interno.
De acordo com um estudo realizado pela MARKESS International em Fevereiro de 2008, 49% das organizações já usam um mecanismo de busca corporativo e 18% planejam usá-lo até 2010. Esses mecanismos de busca são em sua maioria integrados a estações de trabalho ou ferramentas de gerenciamento eletrônico de documentos , mas estão em um número crescente de empresas capazes de cobrir ambos os internos e conteúdo externo da empresa, ou integrado a ferramentas de gerenciamento de conteúdo ou soluções de inteligência de negócios.
Entre os players que oferecem buscadores corporativos estão Google , Exalead , PolySpot ou OpenSearchServer .
As tecnologias de análise de linguagem, como lematização, extração de entidades nomeadas, classificação e agrupamento, podem melhorar muito o funcionamento dos mecanismos de pesquisa. Essas tecnologias permitem tanto aumentar a relevância dos resultados quanto envolver o internauta em um processo de busca mais eficiente, como é o caso da busca facetada .
De acordo com o estudo da ADEME "Internet, emails, reduzindo impactos" publicado emFevereiro de 2014Vá diretamente para o endereço de um site, ou digitando seu endereço no navegador, seja registrando-o como "favorito" (ao invés de pesquisar o site por meio de um mecanismo de busca) dividido por 4 as emissões de gases de efeito estufa .