As frases estatisticamente improváveis ( SIPs ), o inglês literalmente significa "frases estatisticamente improváveis" são uma ferramenta estatística lançada em 2005 pelo site comercial online Amazon.com para seu programa de indexação de conteúdo de livros Search Inside! ; consiste em comparar o texto de todos os livros indexados, a fim de encontrar para cada um deles um conjunto de frases ou expressões que aparecem com mais frequência do que nos outros livros.
O interesse em identificar essas passagens é que sejam consideradas as mais significativas e representativas do livro, constituindo o equivalente a resumos ou palavras - chave , com a vantagem de serem determinadas de forma automatizada.
Esses metadados são apresentados ao internauta nas fichas de cada livro. Cada SIP é acompanhado por um hiperlink que permite aos visitantes que o seguem encontrar outros livros com a mesma expressão entre seus SIPs. De fato, livros com SIPs idênticos provavelmente abordam os mesmos temas e, portanto, provavelmente também interessam ao visitante. Bill Carr, vice-presidente executivo de mídia digital da Amazon, destaca que esse sistema de correspondência destaca trabalhos que seriam difíceis de encontrar sem ele, porque fazem parte da longa cauda do catálogo.
O algoritmo usado não é divulgado. No entanto, parece que os SIPs de cada livro estão sendo redefinidos à medida que novos livros são adicionados ao banco de dados.
A utilidade desse recurso para os visitantes é incerta. Benjamin Vershbow, pesquisador do Instituto para o Futuro do Livro , o vê como um equivalente automatizado das tags que são a base da Web 2.0 , mas acredita que o sistema funciona melhor para obras de não ficção do que para romances .
A Amazon está considerando várias outras maneiras de fazer bom uso dessa ferramenta, por exemplo, integrando-a ao sistema de recomendação já existente ou para responder a perguntas usando textos confiáveis na área. Além disso, pesquisadores propuseram uma aplicação deste sistema ao MEDLINE .