Sequência de fuga

O termo sequência de escape (Inglês sequência de escape ) uma sequência de alguns bytes e / ou personagens presentes em um fluxo de texto e desempenham um papel particular para onde está presente. É introduzido por um código fornecido para esse fim, geralmente o código de controle 0x1B ESC (para escape ).

História

A noção de código de escape foi introduzida no código Baudot . Curiosamente, se considerarmos que -são 1s e +0s, a sequência de escape do código Baudot já é o valor 0x1B.

O código DoD de 8 bits incluía uma função especial nas mesmas disposições já em 1961.

Aplicativo

Essa tecnologia é usada em diferentes contextos; em particular :

Existem pelo menos 157 codificações de caracteres diferentes acessíveis pela sequência de escape.

Na linguagem C e C ++, as sequências de escape ASCII são:

Essas sequências são úteis para manipulação de arquivo e texto no console do Windows , Linux ,  etc.

Limitações do padrão POSIX

POSIX não define nenhuma forma padrão de literalmente denotar caracteres por seu código numérico em conjuntos de caracteres maiores que 8 bits (por exemplo, Unicode). Além disso, muitas implementações POSIX compatíveis com Unicode ou ISO / IEC 10646 também aceitam as sequências (onde NNNN designa em 4 dígitos hexadecimais o ponto de código Unicode de um caractere no plano multilíngue básico) ou (onde NNNNNNNN designa em 8 dígitos hexadecimais o ponto de código Unicode para qualquer personagem no conjunto). \uNNNN\UNNNNNNNN

O padrão também não especifica se os caracteres designados por um código hexadecimal designam aqueles no arquivo de origem ou se seu código resulta de uma transcodificação do conjunto de caracteres codificados de entrada para um conjunto comum (como Unicode). Unicode ou o conjunto de base ASCII quase sempre é usado como codificação interna, mas isso nem sempre é verdadeiro em sistemas que codificam EBCDIC com base em expressões regulares POSIX.

Além disso, os conjuntos de caracteres de 8 bits podem diferir amplamente, particularmente na zona superior (não ASCII) e na interpretação dos caracteres de controle (dependendo do sistema usado). Este é um problema de interoperabilidade, que é mais comumente resolvido usando, em utilitários de processamento de texto, um único conjunto de caracteres interno comum baseado em Unicode e transcodificação do conjunto de caracteres de entrada para essa codificação interna comum.: Com este sistema, as expressões regulares podem tornam-se independentes dos conjuntos de caracteres codificados usados ​​em diferentes documentos.

Notas e referências

  1. Padrão ASCII de 1963, §A.8.1 Estrutura do subconjunto de controle.
  2. http://alis.isoc.org/codage/registre_ISO.htm
  3. http://fr.cppreference.com/w/cpp/language/escape

Apêndices

Artigos relacionados

Bibliografia