Algoritmo Knuth-Morris-Pratt

O algoritmo Knuth-Morris-Pratt (ou de forma abreviada o algoritmo KMP ) é um algoritmo de busca de substring (caractere), permitindo encontrar ocorrências de uma string em um texto com complexidade linear no pior caso. Sua particularidade está no pré-processamento da string, que fornece informações suficientes para determinar onde continuar a busca em caso de incompatibilidade. Assim, o algoritmo não reexamina os caracteres que foram vistos anteriormente e, portanto, limita o número de comparações necessárias. $P$ $S$ $O (| P | + | S |)$

O algoritmo foi projetado em 1970 por Knuth e Pratt (in) e, em outro contexto, por Morris (in) , e publicado em conjunto em 1977 . Independentemente, Matiyasevich já havia obtido em 1969 um algoritmo semelhante, codificado por uma máquina de Turing bidimensional, estudando um problema de reconhecimento de ocorrência de cordas.

Princípio da Operação

Abordagem ingênua

Para entender a lógica do algoritmo Knuth-Morris-Pratt, faz sentido examinar a abordagem ingênua para encontrar cordas.

A string P pode ser encontrada no texto S usando o seguinte algoritmo:

Qualquer um ; $i = 1$
Contanto que haja posições para verificar
- Compare letra com letra a string P e o texto S da posição ; $eu$
- Se a string corresponder, encerre o processamento e retorne como a posição de início da ocorrência; $eu$
- Caso contrário, corrija ; $i = i + 1$
Concluir o processamento, nenhuma ocorrência foi encontrada.

Este procedimento pode ser melhorado interrompendo a comparação da segunda etapa assim que um caractere diferente for detectado.

Essa abordagem tem uma desvantagem: após uma comparação malsucedida, a próxima comparação começará na posição , desconsiderando aquelas que já ocorreram na iteração anterior, na posição . O algoritmo Knuth-Morris-Pratt primeiro examina a string P e deriva informações dela para que cada caractere não seja comparado mais de uma vez. $i + 1$ $eu$

Fases

A primeira fase do algoritmo constrói uma tabela, indicando para cada posição um "deslocamento", ou seja, a próxima posição onde uma ocorrência potencial do string pode ser encontrada.
A segunda fase realiza a pesquisa propriamente dita, comparando os caracteres da string com os do texto. Se houver diferença, usa a tabela para saber o deslocamento a ser considerado para continuar a busca sem voltar atrás.

Exemplo

Para apresentar o princípio de operação do algoritmo, um exemplo particular é considerado: a string é ABCDABD e o texto é ABC ABCDAB ABCDABCDABDE . $P$ $S$

Notações : para representar strings, este artigo usa matrizes cujos índices começam em zero. Assim, a letra C da string será anotada . $P$ $P [2]$

$m$ designa a posição no texto em que a string está sendo verificada e a posição do caractere atualmente verificado $S$ $P$ $eu$ $P$

O algoritmo começa testando a correspondência de caracteres um após o outro. Assim, na quarta etapa, e . é um espaço e , a correspondência não é possível. $m = 0$ $i = 3$ $S [3]$ $P [3] = D$