Código padrão americano para intercâmbio de informações

ISO / IEC 646-02 ou ISO / IEC 646-06 (ASCII)
Os 95 caracteres ASCII imprimíveis: ! "# $% & '() * +, -. / 0123456789 :; <=>? @ABCDEFGHIJKLMNO PQRSTUVWXYZ [\] ^ _ `abcdefghijklmno pqrstuvwxyz {\|} ~

Família	ISO / IEC 646
línguas	inglês
Número de caracteres	128
Status do projeto	Padrão estabelecido
Plataformas	Tudo
Número de registro	002 006 038 (EBCDIC USA ASCII) 367 (IBM AIX 7 bits US-ASCII) 371 (IBM AIX 7 bits US-ASCII APL) 907 (DOS ASCII APL) 1054 (HP ASCII) 20127 (Microsoft 7 bits US- ASCII)
Licença	Padrão ISO pago
Sequências de escape	002: conjunto G0: ESC 2/8 4/0 conjunto G1: ESC 2/9 4/0 006: conjunto G0: ESC 2/8 4/2 conjunto G1: ESC 2/9 4/2
Unidade de codificação (codepoint)	Sete a oito bits são suficientes
Primeira versão	ISO / IEC 646-02 e ISO / IEC 646-06 ( 1 r janeiro 1975)

O ascii (American Standard Code for Information Interchange), mais conhecido pela sigla ASCII ( / has s . K i / , ) é um computador padrão de codificação de caracteres surgido na década de 1960 . É o padrão de codificação de caracteres mais influente até hoje. ASCII 128 define 7- bit códigos , compreendendo 95 caracteres imprimíveis : números árabes entre 0 e 9, as 26 letras do alfabeto latino em letras minúsculas e capitais , e matemáticos e de pontuação símbolos . ASCII é suficiente para representar textos em inglês , mas é muito limitado para outras línguas, incluindo o francês e suas letras acentuadas . As limitações do conjunto de caracteres ASCII ainda estão suscetíveis a XXI th século , por exemplo, na escolha de caracteres restritos geralmente oferecidos para compor um e-mail .

ASCII é uma das variantes do padrão ISO / IEC 646 . Ele está incluído em várias dezenas de padrões que abrangem mais caracteres, que às vezes são chamados informalmente de ASCII estendido . Eles podem ser regionais ( ISO / IEC 8859 ), nacionais ( GB 18030 ) ou internacionais ( Unicode ). Com o advento da globalização e da internacionalização dos sistemas de informação, as limitações do ASCII não são mais aceitas, exceto em áreas técnicas que requerem compatibilidade com protocolos de comunicação ou sistemas antigos.

História

Antes da padronização, existiam muitas codificações de caracteres incompatíveis. Cada material possuía uma codificação própria, vinculada às técnicas utilizadas. Qualquer computador, como o IBM 1130 , vinha com suas sub-rotinas e tabelas para transpor códigos de um hardware para outro. Outros padrões foram usados, em particular para cartões perfurados ( Bull e IBM cada um tinha seu código, mutuamente incompatível).

Em 1960, a ISO estabeleceu o Comitê Técnico de Computadores e Processamento de Informações . Foi dividido em seis grupos de trabalho:

Grupo de trabalho A: Glossário ;
Grupo de Trabalho B: Conjuntos de caracteres e codificação ;
Grupo de Trabalho C: Reconhecimento de Personagem ;
Grupo de Trabalho D: Mídia de entrada e saída ;
Grupo de Trabalho E: Linguagens de Programação ;
Grupo de Trabalho F: Transmissão Digital de Dados .

A American Standards Association (ASA, agora ANSI) foi responsável pelo padrão dos Estados Unidos . A ASA reconheceu o consórcio Business Equipment Manufacturers Association (BEMA, então, CBEMA) como o patrocinador do trabalho de padronização do processamento de dados. Em 1960, a BEMA formou um grupo de parceiros de processamento de dados, incluindo Minneapolis-Honeywell . Esse grupo formou um Comitê de Planos e Políticas , que por sua vez formou o Comitê de Engenharia . O Comitê de Engenharia formou o comitê X3, que foi reconhecido pela ASA como um Comitê Setorial . Entre os membros do comitê, Bob Bemer às vezes é apresentado como o pai do ASCII , o que não deve ser entendido como o inventor do ASCII, mas como um grande arquiteto da difusão do ASCII.

Em 1961, o DoD desenvolveu um código padrão de transmissão de dados de 8 bits. Este padrão de 8 bits é uma variante dos padrões FIELDATA de seis bits usados na década anterior pela defesa. Ele teve uma influência notável na primeira versão do ASCII.

Em 1963, apareceu a primeira versão publicada do ASCII. A lista de personagens a serem considerados e suas posições foram discutidos.

Sua última versão estabilizada foi padronizada por ANSI em 1986 sob a designação ANSI X3.4: 1986 (depois de duas outras versões em 1967 e 1968, historicamente padronizadas por ASI, que se tornou ANSI, mas que ainda não padronizou todas as posições). É também a variante americana dos conjuntos de caracteres codificados de acordo com o padrão ISO / IEC 646 com o qual é frequentemente confundido (daí sua designação também como US-ASCII para remover ambigüidade, uma designação preferida no registro de jogos IANA . Caracteres codificados) .

Na época, estava competindo com padrões incompatíveis. Posteriormente, a existência de muitas codificações usando as convenções ASCII o tornou muito popular. A IBM , que usava outra codificação em seus mainframes , EBCDIC , só começou oficialmente a usar ASCII em seu hardware com o IBM PC em 1981 .

Princípios

ASCII define 128 caracteres numerados de 0 a 127 e codificados em binários de 0000000 a 1111111. Sete bits são, portanto, suficientes. No entanto, os computadores de trabalho quase todos em um múltiplo de oito bits (um byte ) desde os anos 1970 , cada personagem de um texto em ASCII muitas vezes é armazenado em um byte cujos 8 th bit é 0. Ainda hoje alguns sistemas de e-mail e SMS operar com bytes ou bytes que consistem em apenas sete bits (ao contrário de um byte que é um byte ou byte de oito bits padronizado).

Os caracteres de 0 a 31 e 127 não podem ser exibidos; eles correspondem a comandos de controle de terminal de computador . O caractere número 127 é o comando para apagar. O caractere número 32 é o espaço . O caractere 7 provoca a emissão de um sinal sonoro. Os outros caracteres são algarismos arábicos , letras latinas maiúsculas e minúsculas sem acentos, símbolos de pontuação , operadores matemáticos e alguns outros símbolos.

Limitações

A ausência de caracteres de outros idiomas que não o inglês torna este padrão insuficiente por si só para textos estrangeiros (por exemplo, em francês), o que torna necessário o uso de outras codificações .

Quando usado sozinho para o idioma inglês, ele proíbe o uso de acentos no idioma inglês (cf. wikt: en: Apêndice: palavras em inglês com sinais diacríticos ).

Alguns dos caracteres gráficos ASCII causaram polissemia. Isso ocorre no todo ou em parte devido ao número limitado de elementos de código em um conjunto de sete bits. Isso é encontrado em particular nos símbolos de pontuação e no uso de aspas. O ASCII foi mantido porque é onipresente em muitos softwares. Essa herança é encontrada em Unicode, onde esses sinais estão em um bloco separado de outros símbolos semelhantes, a maioria dos quais são codificados em U + 2000.

Internacionalização

Os limites do padrão americano ASCII levaram, ao longo de três períodos diferentes, a três abordagens para a internacionalização :

o uso de padrões regionais com caracteres medindo um byte, que são tecnicamente os mais fáceis de implementar;
o uso de padrões extensíveis, onde o mesmo byte pode representar um caractere diferente dependendo do contexto ( família ISO / IEC 2022 ), bem como extensões onde um caractere é codificado em vários bytes;
a utilização do padrão Unicode (família UTF ), que é o que inclui o maior número de caracteres.

Os padrões regionais têm a desvantagem de permitir apenas a representação de um pequeno conjunto de caracteres, como caracteres da Europa Ocidental. Com essa abordagem, é necessário indicar a codificação fora do fluxo.

Os padrões extensíveis têm a desvantagem de serem contextuais. O software que usa determinados algoritmos de pesquisa pode não ter interoperabilidade nesse sentido.

estandardização

O conjunto de codificação ASCII é definido quase de forma idêntica por vários padrões diferentes, tem muitas variações e deu origem a uma infinidade (dezenas ou centenas) de extensões mais ou menos incompatíveis.

As principais extensões são justificadas pelo fato de o ASCII não atender às diversas necessidades regionais. Eles são oferecidos por organismos de normalização, ou por fornecedores de produtos e serviços.

Padrões ASCII

NB - Não confunda USASI X3.4-1968 ou ANSI X3.4-1968 e ANSI X3.4: 1986.

Padrões ASCII dos EUA (os padrões legados e o padrão atual):

ASA X3.4-1963, (incompleto com 28 posições livres e um código de pedido não atribuído);
USASI X3.4-1967 (renomeado retroativamente para ANSI X3.4-1967), ainda não padronizou todas as posições;
USASI X3.4-1968 (renomeado retroativamente para ANSI X3.4-1968), ainda não padronizou todas as posições;
ANSI X3.4-1977;
ANSI X3.4: 1986 (em 1986 e em vigor hoje).

Os seguintes padrões internacionais são geralmente considerados compatíveis (quase idênticos) com o padrão ASCII em vigor de 1986 a 2011, embora constituindo uma padronização internacional oficial:

Padrão ISO / IEC 646 :
- ISO / IEC 646-US variante dos Estados Unidos,
- Variante IRV internacional;
Página de código 367 da IBM;
Alfabeto de referência internacional:
- Alfabeto Referência Internacional N o 5 (1988)
- Alfabeto Referência Internacional N o 5 (no IRV G0).

A designação US-ASCII, US ASCII ou US ASCII é uma mistura das designações anteriores. O registro IANA atribui a ele o nome US-ASCII, sem definir sua codificação.

Aproximação, variantes e extensões

Padrão ISO / IEC 646
- Variante invariável de INV (incompleta em comparação com as duas anteriores).

Três tipos de codificação de caracteres são semelhantes ao ASCII:

aqueles que mudam apenas pelo nome - eles são essencialmente iguais ao ASCII;
aqueles que são variantes, ASCII sendo originalmente a variante local dos EUA da ISO / IEC 646;
aqueles que o aumentam, chamados de extensões.

A.k.a

Dentro Junho de 1992, o RFC e o registro do conjunto de caracteres da Autoridade para atribuição de números da Internet reconheceram os seguintes aliases que não diferenciam maiúsculas de minúsculas como adequados para uso em protocolos da Internet:

ANSI_X3.4-1968 (nome canônico)
iso-ir-6
ANSI_X3.4-1986
ISO_646.irv: 1991
ASCII (com variantes ASCII-7 e ASCII-8)
ISO646-US
US-ASCII ( nome MIME preferido )
nós
IBM367
cp 367
csASCII

A IANA promove mais particularmente o nome “US-ASCII” para a Internet.

Variantes

O ASCII deu origem a certas variantes que retêm a maioria dos caracteres, mas substituem alguns deles. A rigor, não é mais ASCII. Além da ISO / IEC 646 , existem outras variações na história da computação. Por exemplo, o circunflexo (# 94) é substituído pela seta para cima e o sublinhado (# 95) é substituído pela seta para a esquerda, no conjunto de caracteres embutido dos chips Motorola 6847 (VDG) e GIME, que foi usado em os adaptadores de vídeo do TRS-80 Color Computer e outros computadores do início dos anos 1980. Mas, vários anos antes, os computadores Xerox com a linguagem de programação Smalltalk incluíam os mesmos dois caracteres (no modo gráfico).

Além disso, alguns computadores mais antigos eram equipados apenas com dois terços do ASCII, ou seja, os caracteres 32 a 95 em vez de 32 a 126. É, então, estritamente falando, uma variante de 6 bits. No Computador de Cores , colocamos nos arquivos os códigos de 32 a 127, mas os de 96 a 127 eram versões de cores invertidas (verde com preto em vez de preto com verde). Esses blocos de 32 caracteres foram trocados no envio ao VDG, para os quais os códigos ASCII 32 a 63 foram numerados de 96 a 127, enquanto 0 a 63 estavam em cores invertidas (subtraindo 64). Além disso, os códigos 128 a 255 codificam formas de bloco em cores. O GIME foi capaz de operar como VDG ou no modo ASCII, com circunflexo # 94, sublinhado # 95. Também tinha como opção sua própria extensão de 8 bits para letras maiúsculas e minúsculas acentuadas, provavelmente compatível com nenhum outro computador (além de ser impossível inserir outro número no código-fonte BASIC).

Algumas extensões de 7 bits têm um caractere # 127, como as primeiras da Apple, que tinham uma grade ali, e placas de vídeo para PC ( página de código 437 ) que tinham uma espécie de pentágono, além de preencher as caixas de 0 a 31 .de setas, círculos e vários sinais. É claro que esses códigos não podiam ser usados em contextos em que tivessem significado de controle; e, inversamente, quando os códigos de controle não foram interpretados como tal, como quando o # 27 significa iniciar uma sequência VT100 ( ANSI.SYS ), mas aparece como uma seta para a esquerda (por exemplo, [1] ).

Oitavo bit e aumenta

Muitos padrões para codificação de caracteres retomaram o ASCII e adicionaram outros caracteres para códigos maiores que 127.

Entre as muitas extensões de 8 bits para ASCII, o Conjunto de caracteres multinacionais criado pela Digital Equipment Corporation para o terminal de computador VT220 é considerado o ancestral do ISO / IEC 8859-1 e do Unicode.

Extensões de byte único

Em particular, muitas páginas de código estender ASCII utilizando o 8 th bits para definir os caracteres numerados de 128 a 255. A norma ISO / IEC 8859 padrão proporciona extensões para várias línguas. Por exemplo, ISO / IEC 8859-1 , também chamado de Latin-1 , estende ASCII com caracteres acentuados úteis para idiomas originários da Europa Ocidental, como francês ou alemão .

Por abuso de linguagem, muitas vezes chamamos de padrões "ASCII" que estendem ASCII, mas que não são compatíveis entre eles (e às vezes até não são compatíveis em seus primeiros 128 caracteres codificados). Em particular, os padrões Windows-1252 (comumente usados no Microsoft Windows em países ocidentais), ISO / IEC 8859-1 (comumente usados na Internet e Unix ) e as páginas de código do PC número 437 e 850 (comumente usadas no DOS ) não são o padrão ASCII. Este uso indevido da linguagem não deixa de causar confusão, causando incompatibilidades, muitas vezes tornadas visíveis pelo fato de que caracteres não ASCII, como "letras acentuadas" (éÈç), não são exibidos corretamente. Às vezes, escrevemos "ASCII básico" para diferenciar o ASCII de um padrão maior.

Extensões asiáticas, com base em sequências de escape

A fim de unificar as diferentes codificações de caracteres completando ASCII e integrar codificações completamente diferentes ( JIS para japonês, por exemplo, que embora também desenvolvido com base em US-ASCII, difere na atribuição de um dos primeiros 128 pontos de código ), o ISO / IEC O padrão 10646 foi inventado (e também inicialmente desenvolvido separadamente pelo Unicode Consortium em uma versão de seu padrão Unicode 1.0 inicialmente incompatível com ISO / IEC 10646).

Veja em particular ISO / IEC 2022 .

Extensões Unicode

A versão 1.0 foi descontinuada desde a versão 1.1 para unificar e mesclar os dois diretórios em um conjunto universal de caracteres codificados. ISO / IEC 10646 codifica dezenas de milhares de caracteres, mas os primeiros 128 permanecem compatíveis com ASCII (em sua última versão X3.4-1986); o padrão Unicode adiciona semântica adicional. No padrão Unicode, o padrão ASCII é definido como "Controles C0 e Latim básico".

No entanto, alguns países do Leste Asiático (a República Popular da China , os antigos domínios britânicos e portugueses na China, Hong Kong e Macau , que desde então se tornaram regiões administrativas especiais da China, a República da China em Taiwan e o Japão ) escolheram para continuar a desenvolver seu próprio padrão para codificar o conjunto de caracteres universal, enquanto escolhe mantê-los totalmente conversíveis com ISO / IEC 10646; entre esses padrões asiáticos, apenas o padrão nacional japonês continua a manter uma diferença em suas primeiras 128 posições com o conjunto ASCII, codificando o símbolo da moeda do iene no lugar da barra invertida (como também é o caso na variante japonesa do ISO / IEC 646 ).

Afetando

O ASCII teve uma influência importante no mundo da informática. Em particular, há muito tempo ele limitou os caracteres disponíveis a caracteres latinos não acentuados, especialmente no mundo da Internet, seja para nomes de domínio, endereços de e-mail, caracteres disponíveis no BIOS ou caracteres nos quais programas de computador podem ser escritos.

Descrição

Tabela de 128 caracteres ASCII

Também podemos apresentar a tabela de caracteres ASCII nesta forma mais condensada que destaca uma organização baseada na base 16.

PDF: en	0	1	2	3	4	5	6	7	8	9	NO	B	VS	D	E	F
U + 0000	NÃO	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	TÃO	E SE
U + 0010	DLE	DC1	DC2	DC3	DC4	NAK	SYN	E B	POSSO	EM	SUB	ESC	FS	GS	RS	Nós
U + 0020	SP	!	"	#	$	%	E	'	(	)	*	+	,	-	.	/
U + 0030	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
U + 0040	@	NO	B	VS	D	E	F	G	H	eu	J	K	eu	M	NÃO	O
U + 0050	P	Q	R	S	T	você	V	C	X	Y	Z	[	\	]	^	_
U + 0060	``	no	b	vs	d	e	f	g	h	eu	j	k	eu	m	não	o
U + 0070	p	q	r	s	t	você	v	C	x	y	z	{	\|	}	~	DO

Na tabela detalhada a seguir, os 32 caracteres de controle (códigos 0 a 31 e 127) e o espaço (código 32) são apresentados com seus nomes em inglês seguidos de uma tradução entre parênteses.

Código base				Personagem	Significado
10	8	16	2	Personagem	Significado
0	0	00	0000000	NÃO	Nulo (zero)
1	01	01	0000001	SOH	Início do cabeçalho (início do cabeçalho)
2	02	02	0000010	STX	Início do texto (início do texto)
3	03	03	0000011	ETX	Fim do texto (texto final)
4	04	04	0000100	EOT	Fim da transmissão (fim da transmissão)
5	05	05	0000101	ENQ	Inquérito (pedido)
6	06	06	0000110	ACK	Reconhecer (reconhecimento)
7	07	07	0000111	BEL	Bell ( tocando )
8	010	08	0001000	BS	Backspace (backspace / deletar)
9	011	09	0001001	HT	Guia horizontal (guia horizontal)
10	012	0A	0001010	LF	Alimentação de linha ( nova linha )
11	013	0B	0001011	VT	Guia vertical (guia vertical)
12	014	0C	0001100	FF	Feed de formulário (quebra de página)
13	015	0D	0001101	CR	Retorno de carro ( retorno de carro / nova linha )
14	016	0E	0001110	TÃO	Shift Out (código especial)
15	017	0F	0001111	E SE	Shift In (código padrão)
16	020	10	0010000	DLE	Escape do link de dados (exaustão da transmissão)
17	021	11	0010001	DC1	Controle de dispositivo 1 a 4 (controle de dispositivo)
18	022	12	0010010	DC2
19	023	13	0010011	DC3
20	024	14	0010100	DC4
21	025	15	0010101	NAK	Confirmação negativa (NACK)
22	026	16	0010110	SYN	Inativo síncrono (espera sincronizada)
23	027	17	0010111	E B	Fim do bloco de transmissão (fim do bloco de transmissão)
24	030	18	0011000	POSSO	Cancelar (cancelado)
25	031	19	0011001	EM	Fim do Meio (EM)
26	032	1A	0011010	SUB	Substituto (substituição)
27	033	1B	0011011	ESC	Escape (escape)
28	034	1 C	0011100	FS	Separador de arquivo (separador de arquivo)
29	035	1D	0011101	GS	Separador de grupo (grupo separador)
30	036	1E	0011110	RS	Registro Separator (d 'separador de gravação )
31	037	1F	0011111	Nós	Unidade separadora (separador de unidade)
32	040	20	0100000	SP	Espaço ( espaçamento )
33	041	21	0100001	!	Ponto de exclamação
34	042	22	0100010	"	Aspa
35	043	23	0100011	#	Cruz
36	044	24	0100100	$	Dólar
37	045	25	0100101	%	Por cento
38	046	26	0100110	E	E comercial
39	047	27	0100111	'	Apóstrofo
40	050	28	0101000	(	colchete abre
41	051	29	0101001	)	Fechando parênteses
42	052	2A	0101010	*	Asterisco
43	053	2B	0101011	+	Mais
44	054	2C	0101100	,	Vírgula
45	055	2D	0101101	-	Hífen, menos
46	056	2E	0101110	.	Apontar
47	057	2 F	0101111	/	Golpear
48	060	30	0110000	0	Dígito zero
49	061	31	0110001	1	Número um
50	062	32	0110010	2	Número dois
51	063	33	0110011	3	Numero tres
52	064	34	0110100	4	Numero quatro
53	065	35	0110101	5	Número cinco
54	066	36	0110110	6	Número seis
55	067	37	0110111	7	Número sete
56	070	38	0111000	8	Número oito
57	071	39	0111001	9	Número nove
58	072	3A	0111010	:	Dois pontos
59	073	3B	0111011	;	Ponto e vírgula
60	074	3C	0111100	<	Inferior
61	075	3d	0111101	=	Igual
62	076	3E	0111110	>	Superior
63	077	3F	0111111	?	Ponto de interrogação
64	0100	40	1.000.000	@	No
65	0101	41	100.0001	NO	Letra latina A maiúscula
66	0102	42	1000010	B	Letra latina maiúscula B
67	0103	43	1000011	VS	Letra latina C maiúscula
68	0104	44	1000 100	D	Letra latina D maiúscula
69	0105	45	1000101	E	Letra latina maiúscula E
70	0106	46	1000110	F	Letra latina F maiúscula
71	0107	47	1000111	G	Letra latina G maiúscula
72	0110	48	1001000	H	H maiúsculo latino
73	0111	49	1001001	eu	Letra latina maiúscula I
74	0112	4A	1001010	J	Letra latina maiúscula J
75	0113	4B	1001011	K	Letra latina maiúscula K
76	0114	4C	1001100	eu	Letra latina L maiúscula
77	0115	4D	1001101	M	Letra latina maiúscula M
78	0116	4E	1001110	NÃO	Letra latina N maiúscula
79	0117	4F	1001111	O	Letra latina maiúscula O
80	0120	50	1010000	P	Letra latina maiúscula P
81	0121	51	1010001	Q	Letra latina Q maiúsculo
82	0122	52	1010010	R	Letra latina R maiúscula
83	0123	53	1010011	S	S maiúsculo latino
84	0124	54	1010100	T	Letra latina T maiúscula
85	0125	55	1010101	você	Letra latina U maiúscula
86	0126	56	1010110	V	Letra latina V maiúscula
87	0127	57	1010111	C	Letra latina maiúscula W
88	0130	58	1011000	X	Letra latina maiúscula X
89	0131	59	1011001	Y	Letra latina maiúscula Y
90	0132	5A	1011010	Z	Letra latina Z maiúscula
91	0133	5B	1011011	[	Gancho de abertura
92	0134	5C	1011100	\	Barra invertida
93	0135	5D	1011101	]	Gancho de fechamento
94	0136	5E	1011110	^	Sotaque circunflexo (com caça )
95	0137	5F	1011111	_	Sublinhado
96	0140	60	1100000	``	Sotaque sério (com caça)
97	0141	61	1100001	no	Letra latina minúscula A
98	0142	62	1100010	b	Letra latina minúscula B
99	0143	63	1100011	vs	Letra latina minúscula C
100	0144	64	1100100	d	Letra latina D minúscula
101	0145	65	1100101	e	Letra latina E minúscula
102	0146	66	1100110	f	Letra latina F minúscula
103	0147	67	1100111	g	Letra latina G minúscula
104	0150	68	1101000	h	Letra latina H minúscula
105	0151	69	1101001	eu	Letra latina minúscula i
106	0152	6A	1101010	j	Letra latina J minúscula
107	0153	6B	1101011	k	Letra latina K minúscula
108	0154	6C	1101100	eu	Letra latina L minúscula
109	0155	6D	1101101	m	Letra latina M minúscula
110	0156	6E	1101110	não	Letra latina N minúscula
111	0157	6F	1101111	o	Letra latina minúscula O
112	0160	70	1110000	p	Letra latina minúscula P
113	0161	71	1110001	q	Letra latina minúscula Q
114	0162	72	1110010	r	Letra latina minúscula R
115	0163	73	1110011	s	Letra latina S minúscula
116	0164	74	1110100	t	Letra latina minúscula T
117	0165	75	1110101	você	Letra latina U minúscula
118	0166	76	1110110	v	Letra latina V minúscula
119	0167	77	1110111	C	Letra latina W minúscula
120	0170	78	1111000	x	Letra latina minúscula x
121	0171	79	1111001	y	Letra latina minúscula Y
122	0172	7A	1111010	z	Letra latina Z minúscula
123	0173	7B	1111011	{	Accolade abre
124	0174	7C	1111100	\|	Barra vertical
125	0175	7D	1111101	}	Chave de fechamento
126	0176	7E	1111110	~	Til
127	0177	7F	1111111	DO	Apagar (apagar)

Agrupamento por tipo de caractere

Personagens de controle

ASCII reserva os primeiros 32 códigos (números decimais de 0 a 31) para caracteres de controle : códigos destinados não a representar informações imprimíveis, mas sim a controlar dispositivos (como impressoras ) que usam ASCII ou para fornecer metainformações sobre fluxos de dados, como aqueles armazenados em fita magnética .

Binário	Outubro	Dez.	Hex.	Abreviação						Nome (1967)
Binário	Outubro	Dez.	Hex.	1963	1965	1967				Nome (1967)
000 0000	000	0	00	NULO	NÃO		␀	^@	\0	Personagem nulo
000 0001	001	1	01	SOM	SOH		␁	^A		Caráter de início de cabeçalho
000 0010	002	2	02	EOA	STX		␂	^B		Início do caractere de texto
000 0011	003	3	03	EOM	ETX		␃	^C		Fim do caractere do texto
000 0100	004	4	04	EOT			␄	^D		Fim do caráter de transmissão
000 0101	005	5	05	WRU	ENQ		␅	^E		Personagem de inquérito
000 0110	006	6	06	Reino Unido	ACK		␆	^F		Personagem de reconhecimento
000 0111	007	7	07	SINO	BEL		␇	^G	\a	Personagem de chamada
000 1000	010	8	08	FE0	BS		␈	^H	\b	Caráter de retrocesso
000 1001	011	9	09	HT / SK	HT		␉	^I	\t	Caractere de tabulação horizontal
000 1010	012	10	0A	LF			␊	^J	\n	Quebra de linha
000 1011	013	11	0B	VTAB	VT		␋	^K	\v	Caractere de tabulação vertical
000 1100	014	12	0C	FF			␌	^L	\f	Personagem de mudança de página
000 1101	015	13	0D	CR			␍	^M	\r	Carriage Return Character
000 1110	016	14	0E	TÃO			␎	^N		Mudar para fora
000 1111	017	15	0F	E SE			␏	^O		Mudança em
001 0000	020	16	10	DC0	DLE		␐	^P		Escape do link de dados
001 0001	021	17	11	DC1			␑	^Q		Controle de dispositivo 1 (geralmente XON )
001 0010	022	18	12	DC2			␒	^R		Controle de dispositivo 2
001 0011	023	19	13	DC3			␓	^S		Controle de dispositivo 3 (frequentemente XOFF )
001 0100	024	20	14	DC4			␔	^T		Controle de dispositivo 4
001 0101	025	21	15	ERRAR	NAK		␕	^U		Reconhecimento Negativo
001 0110	026	22	16	SINCRONIZAR	SYN		␖	^V		Inativo Síncrono
001 0111	027	23	17	LEM	E B		␗	^W		Fim do bloco de transmissão
001 1000	030	24	18	S0	POSSO		␘	^X		Cancelar
001 1001	031	25	19	S1	EM		␙	^Y		Fim do Meio
001 1010	032	26	1A	S2	WL	SUB	␚	^Z		Substituto
001 1011	033	27	1B	S3	ESC		␛	^[	\e	Escapar
001 1100	034	28	1 C	S4	FS		␜	^\		Separador de Arquivo
001 1101	035	29	1D	S5	GS		␝	^]		Separador de Grupo
001 1110	036	30	1E	S6	RS		␞	^^		Separador de Registro
001 1111	037	31	1F	S7	Nós		␟	^_		Separador de Unidade

111 1111	177	127	7F	DO			␡	^?		Excluir

NÃO

Nulo : nulo. É originalmente um NOP , ou seja, um personagem a ser ignorado. A atribuição do código 0 tornou possível fornecer reservas nas faixas perfuradas , deixando áreas sem perfuração para inserir novos caracteres a posteriori . Com o desenvolvimento da linguagem C , ela assumiu especial importância ao ser utilizada como indicador de fim de string .

SOH

Início do cabeçalho : início do cabeçalho. É frequentemente usado hoje em dia em comunicações seriais para permitir sincronização após erro.

Excluir : exclusão. A atribuição do código 127 (1111111 em binário) permitiu eliminar a posteriori um caractere das fitas perfuradas que codificavam a informação em 7 bits. Qualquer caractere pode ser transformado em LED completando a perfuração dos 7 bits que o compõem.

LF, CR

Avanço de linha : avanço de linha , Retorno de carro: retorno de carro. Em um arquivo de texto , o final de uma linha é representado por um ou dois caracteres de controle. Existem várias convenções:

nos sistemas Multics , Unix , Type Unix ( Linux , AIX , Xenix , Mac OS X , etc.), BeOS , AmigaOS , RISC OS entre outros, o fim da linha é indicado por uma quebra de linha (LF);
em máquinas Apple II e Mac OS até a versão 9, o fim da linha é indicado por um retorno de carro (CR);
em sistemas DEC , RT-11 e, geralmente, todos os primeiros sistemas não Unix e não IBM, CP / M , MP / M , MS-DOS , OS / 2 ou Microsoft Windows , o fim da linha é indicado por um carro de retorno seguido por uma linha de alimentação (CR seguido por LF).

Portanto, ao transferir um arquivo ASCII entre sistemas com convenções de fim de linha diferentes, o fim de linha deve ser convertido para ser capaz de lidar com o arquivo confortavelmente no sistema de destino. Caso contrário, você terá que usar um editor de texto capaz de lidar com as várias convenções de fim de linha, o que não é o caso do bloco de notas clássico do Microsoft Windows , por exemplo . Os programas que usam arquivos ASCII geralmente não são perturbados por uma alteração do tipo de fim de linha.

SUB

Substituto : substituição. Geralmente é associado à combinação de teclas Ctrl + z e é usado em comunicações seriais para permitir que os dados sejam enviados no lugar da tecla Enter.

Caracteres imprimíveis

Os códigos de 20 hex a 7E hex , chamados de caracteres imprimíveis , representam letras , números , sinais de pontuação e alguns símbolos diversos. Existem 95 caracteres imprimíveis no total.

O código hexadecimal 20 , o caractere de espaço , denota o espaço entre as palavras, conforme produzido pela barra de espaço em um teclado. Como o caractere de espaço é considerado um gráfico invisível (em vez de um caractere de controle), ele é listado na tabela a seguir e não na seção anterior.

O código hexadecimal 7F corresponde ao caractere de exclusão (DEL) não pode ser impresso e, portanto, é omitido desta tabela. Ele está incluído na tabela da seção anterior.

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
010 0000	040	32	20	espaço
010 0001	041	33	21	!
010 0010	042	34	22	"
010 0011	043	35	23	#
010 0100	044	36	24	$
010 0101	045	37	25	%
010 0110	046	38	26	E
010 0111	047	39	27	'
010 1000	050	40	28	(
010 1001	051	41	29	)
010 1010	052	42	2A	*
010 1011	053	43	2B	+
010 1100	054	44	2C	,
010 1101	055	45	2D	-
010 1110	056	46	2E	.
010 1111	057	47	2 F	/

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
011 0000	060	48	30	0
011 0001	061	49	31	1
011 0010	062	50	32	2
011 0011	063	51	33	3
011 0100	064	52	34	4
011 0101	065	53	35	5
011 0110	066	54	36	6
011 0111	067	55	37	7
011 1000	070	56	38	8
011 1001	071	57	39	9
011 1010	072	58	3A	:
011 1011	073	59	3B	;
011 1100	074	60	3C	<
011 1101	075	61	3d	=
011 1110	076	62	3E	>
011 1111	077	63	3F	?

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
100 0000	100	64	40	@	``	@
100.0001	101	65	41	NO
100 0010	102	66	42	B
100 0011	103	67	43	VS
100 0100	104	68	44	D
100 0101	105	69	45	E
100 0110	106	70	46	F
100 0111	107	71	47	G
100 1000	110	72	48	H
100 1001	111	73	49	eu
100 1010	112	74	4A	J
100 1011	113	75	4B	K
100 1100	114	76	4C	eu
100 1101	115	77	4D	M
100 1110	116	78	4E	NÃO
100 1111	117	79	4F	O

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
101 0000	120	80	50	P
101.0001	121	81	51	Q
101 0010	122	82	52	R
101 0011	123	83	53	S
101 0100	124	84	54	T
101 0101	125	85	55	você
101 0110	126	86	56	V
101 0111	127	87	57	C
101 1000	130	88	58	X
101 1001	131	89	59	Y
101 1010	132	90	5A	Z
101 1011	133	91	5B	[
101 1100	134	92	5C	\	~	\
101 1101	135	93	5D	]
101 1110	136	94	5E	↑	^
101 1111	137	95	5F	←	_

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
110 0000	140	96	60		@	``
110.0001	141	97	61		no
110 0010	142	98	62		b
110 0011	143	99	63		vs
110 0100	144	100	64		d
110 0101	145	101	65		e
110 0110	146	102	66		f
110 0111	147	103	67		g
110 1000	150	104	68		h
110 1001	151	105	69		eu
110 1010	152	106	6A		j
110 1011	153	107	6B		k
110 1100	154	108	6C		eu
110 1101	155	109	6D		m
110 1110	156	110	6E		não
110 1111	157	111	6F		o

Binário	Outubro	Dez.	Hex.	Glifo
Binário	Outubro	Dez.	Hex.	1963	1965	1967
111 0000	160	112	70		p
111.0001	161	113	71		q
111 0010	162	114	72		r
111 0011	163	115	73		s
111 0100	164	116	74		t
111 0101	165	117	75		você
111 0110	166	118	76		v
111 0111	167	119	77		C
111 1000	170	120	78		x
111 1001	171	121	79		y
111 1010	172	122	7A		z
111 1011	173	123	7B		{
111 1100	174	124	7C	ACK	¬	\|
111 1101	175	125	7D		}
111 1110	176	126	7E	ESC	\|	~

Notas

caracteres Unicode na área U + 2400 a U + 2421 são reservados para representar os caracteres de controle quando for necessário imprimi-los ou exibi-los, em vez de permitir que executem a função pretendida. Alguns navegadores podem não exibi-los corretamente.
O circunflexo é freqüentemente usado para representar caracteres de controle em um terminal. Na maioria dos terminais de texto, manter pressionada a tecla Ctrlenquanto digita o segundo caractere imprimirá o caractere de controle. Às vezes, a tecla shift não é útil, por exemplo, ^@pode ser digitada apenas com Ctrl e 0.
Sequências de escape em C e muitas outras linguagens influenciadas por ele, como Java e Perl (embora nem todas as implementações suportem todas as sequências de escape).
O caractere Backspace também pode ser inserido pressionando a tecla Backspaceem alguns teclados.
A ambiguidade de retrocesso é devido aos terminais primeiros concebidos no pressuposto de que o uso primário do teclado seria para perfurar manualmente a tira de papel sem estar ligado a um computador. Para deletar o caractere anterior, era necessário salvar o furador de fita de papel, que por motivos mecânicos e de simplicidade era um botão no próprio furador e não no teclado, e em seguida digitar o caractere deletar. Portanto, eles colocaram uma chave produzindo uma rasura no local usado nas máquinas de escrever para a reversão. Quando os sistemas usavam esses terminais e forneciam edição de linha de comando, eles tinham que usar o código de apagamento para retroceder e frequentemente não interpretavam o caractere de retrocesso (eles podiam ecoar para ^Hretrocesso). Outros terminais não projetados para fita de papel tornaram-se a chave aqui para produzir Backspace, e sistemas projetados para estes usavam esse caractere para fazer backup. Visto que o código de exclusão geralmente produz um efeito de retrocesso, ele também força os fabricantes de terminais a fazer qualquer chave Deleteproduzir algo diferente do caractere Delete.
O caractere de tabulação também pode ser inserido pressionando a tecla tab Tab na maioria dos teclados.
O caractere de retorno de carro também pode ser inserido pressionando a tecla Enter ( Entrée) na maioria dos teclados.
A seqüência de escape \e não é uma especificação para ANSI C e muitas outras linguagens. No entanto, é compreendido por vários compiladores, incluindo GCC .
O caractere de escape também pode ser inserido pressionando a tecla Escem alguns teclados.
^^ significa Ctrl + ^(pressionando as teclas "Ctrl" e acento circunflexo ).
O caractere de exclusão às vezes pode ser inserido pressionando a tecla Backspaceem alguns teclados.

Referências

http://www.trailing-edge.com/~bobbemer/SURVEY.HTM
Pascal Becker, History of computer media ( leia online )
http://discover.lib.umn.edu/cgi/f/findaid/findaid-idx?c=umfa;cc=umfa;rgn=main;view=text;didno=cbi00067
"That Troublesome" Father of "" ( Internet Archive versão 2 de outubro de 2017 ) , em www.bobbemer.com
Apêndice §A.6.8 da norma A963
" Histórias de personagens - notas sobre algumas posições de código Ascii " , em jkorpela.fi (acessado em 13 de abril de 2020 )
(pt) Unicode 5.0 na prática , capítulo 7 “Pontuação” , Patrick Andries.
Alfabeto Internacional de Referência n o 5: T50 RECOMENDAÇÃO , União Internacional de Telecomunicações,1988( leia online )
do alfabeto de Referência Internacional: ANTERIOR internacional do alfabeto n o 5 ou EA5, T50 RECOMENDAÇÃO , União Internacional de Telecomunicações,1992( leia online )
(em) K. Simonsen Rationel Almen Planlaegning, Solicitação de comentários : 1345: Mnemônicos de caracteres e conjuntos de caracteres , Grupo de trabalho de rede, Junho de 1992( leia online ).
Internet Assigned Numbers Authority (14 de maio de 2007). " Conjuntos de caracteres ". Acessado em 14/04/2008.
Roman Czyborra, “ ISO 8859-1 e MCS, de ISO 8859 Alphabet Soup ” , em czyborra.com
O padrão ANSI X3.4 define o caractere 39 por apóstrofo (aspas simples de fechamento, acento agudo) e as tabelas de caracteres mais antigas geralmente o representavam inclinado. Codificações mais recentes restringem esse código à representação do apóstrofo vertical (nem inclinado para a direita nem para a esquerda, mas neutro). Veja o apóstrofo (no) Latin-1, sotaque grave, sotaque agudo .
Código 96 também é usado como aspas abertas simples em ASCII. Em Unicode, existe um código mais adequado.
conjunto ASCII (em) caracteres
(em) Charles E. Mackenzie , The Systems Programming Series , Addison-Wesley Publishing Company, Inc. ,1980, 6, 66, 211, 215, 217, 220, 223, 228, 236–238, 243–245, 247–253, 423, 425–428, 435–439 pp. ( ISBN 0-201-14460-3 , LCCN 77-90165 , leia online )
(em) Vinton Gray Cerf , " formato ASCII para Network Interchange " , Network Working Group,16 de outubro de 1969 (NB: quase idêntico ao USAS X3.4-1968, exceto para a introdução.)

Veja também

Bibliografia

(pt) Associações de fabricantes de equipamentos comerciais, American Standard Code for Information Interchange: ASA standard X3.4-1963 , American Standards Asociation Incorporated,17 de junho de 1963( leia online )
(pt) Eric Fischer, The Evolution of Character Codes, 1874-1968 , .transbay.net ( leia online )
(pt) American Standard Code for Information Interchange , AMERICAN STANDARDS ASSOCIATION,17 de junho de 1963, 12 p. ( leia online )