IEEE 754

Em ciência da computação , o IEEE 754 é um padrão para aritmética de ponto flutuante desenvolvido pelo Institute of Electrical and Electronics Engineers . Atualmente, é o padrão mais usado para calcular números de ponto flutuante com CPUs e FPUs . O padrão define os formatos de representação dos números de ponto flutuante ( sinal , mantissa , expoente , números desnormalizados ) e valores especiais ( infinito e NaN ), junto com um conjunto de operações de ponto flutuante. Também descreve cinco modos de arredondamento e cinco exceções (incluindo as condições em que ocorre uma exceção e o que acontece nesse caso).

História

A versão original do IEEE 754, datada de 1985, definiu quatro formatos para representar números de ponto flutuante de base 2:

precisão única (32 bits: 1 bit de sinal, 8 bits de expoente (−126 a 127), 24 bits de mantissa, incluindo 1 bit implícito);
precisão única estendida (≥ 43 bits, obsoleto, implementado na prática por precisão dupla);
precisão dupla (64 bits: 1 bit de sinal, 11 bits expoentes (−1022 a 1023), 53 bits de mantissa, incluindo 1 bit implícito);
precisão dupla estendida (≥ 79 bits, geralmente implementado com 80 bits: 1 bit de sinal, 15 bits de expoente (−16382 a 16383), 64 bits de mantissa, sem 1 bit implícito).

Por exemplo, na linguagem C , o compilador gcc para arquiteturas compatíveis com Intel de 32 bits usa o formato precisão simples para variáveis do tipo float , precisão dupla para variáveis do tipo duplo e precisão dupla ou precisão dupla estendida (seguindo o sistema operacional) para variáveis duplas longas . No entanto, se a extensão SSE2 não for usada, todos os cálculos são arredondados para a mesma precisão, dependendo da configuração de precisão dinâmica do processador (normalmente precisão dupla ou precisão dupla estendida, dependendo do sistema operacional, opções de compilação e alterações feitas por programas).

O título completo do padrão era Padrão IEEE para Aritmética de Ponto Flutuante Binário (ANSI / IEEE Std 754-1985 ). É também conhecido pelo nome de IEC 60559: 1989, Aritmética de ponto flutuante binário para sistemas microprocessados , o que também o torna um padrão (americano), desde que aprovado como referência normativa em vários padrões internacionais ISO. No entanto, este padrão foi estendido por uma grande revisão em 2008 para outros formatos básicos (binário em 128 bits e decimal em 64 e 128 bits), bem como formatos de troca (adicionando formatos que são menos precisos ou mais precisos) e formatos estendidos ( generalização do padrão de 1985, com mais liberdade de precisão e codificação do que com formatos de troca); esta revisão também inclui modos de arredondamento adicionais e requisitos de conformidade mais rigorosos com relação à precisão esperada de cálculos e operações transcendentais básicas. Essa norma também foi revisada em 2019.

Formato de um número de ponto flutuante

Convenções usadas no artigo

Em uma palavra de comprimento W, os bits são indexados de 0 a W - 1, inclusive. O bit 0 é colocado à direita e representa o bit menos significativo (ou seja, o bit de unidades, que causará a menor variação se alterado).

Formato geral

Um número de ponto flutuante é composto por três elementos: a mantissa , o expoente e o sinal. O bit mais significativo é o bit de sinal : se este bit estiver em 1, o número é negativo, e se estiver em 0, o número é positivo. Os próximos e bits representam o expoente polarizado (exceto valor especial) e os próximos m bits ( m bits menos significativos) representam a mantissa.

Assinar	Expoente de polarização	Mantissa
(1 bit)	( e bits)	( m bits)

Viés do expositor

O expoente pode ser positivo ou negativo. No entanto, a representação usual de números com sinais ( complemento de 2 ) tornaria a comparação entre os números de ponto flutuante um pouco mais difícil. Para resolver este problema, o expoente é "enviesado", a fim de armazená-lo como um número sem sinal.

Essa tendência é 2 e −1 - 1 ( e representa o número de bits no expoente); é, portanto, um valor constante uma vez que o número de bits e seja fixo.

A interpretação de um número (diferente do infinito) é, portanto: valor = sinal × mantissa × 2 ( expoente - viés ) com

sinal = ± 1
viés = 2 e −1 −1

Exceções

O bit mais significativo da mantissa é determinado pelo valor do expoente polarizado. Se o expoente polarizado for diferente de 0 e de , o bit mais significativo da mantissa é 1 e o número é considerado "normalizado". Se o expoente polarizado for zero, o bit mais significativo da mantissa é zero e o número é desnormalizado . $2 ^ {e} - 1$

Existem três casos especiais:

se o expoente polarizado e a mantissa forem ambos zero, o número é ± 0 (dependendo do bit de sinal)
se o expoente enviesado for igual a , e se a mantissa for zero, o número é ± infinito (dependendo do bit de sinal) $2 ^ {e} - 1$
se o expoente tendencioso for igual a , mas a mantissa não for zero, o número é NaN (não é um número: não é um número) . $2 ^ {e} - 1$

Podemos resumir da seguinte forma:

Modelo	Expoente de polarização	Mantissa
Zeros	0	0
Números desnormalizados	0	diferente de 0
Números normalizados	$1$ no $2 ^ e-2$	algum
Infinito	$2 ^ e-1$	0
NaNs	$2 ^ e-1$	diferente de 0

Formato de precisão única (32 bits)

Um número de ponto flutuante de precisão simples é armazenado em uma palavra de 32 bits: 1 bit de sinal, 8 bits para o expoente e 23 para a mantissa.

O expoente é, portanto, enviesado neste caso. O expoente de um número normalizado, portanto, vai de -126 a +127. O expoente -127 (que é polarizado em direção ao valor 0) é reservado para números zero e desnormalizados, enquanto o expoente 128 (polarizado em direção a 255) é reservado para codificar infinitos e NaNs (consulte a tabela anterior). $2 ^ {8-1} - 1 = 127$

Um número de ponto flutuante normalizado tem um valor v dado pela seguinte fórmula:

v = s × 2 e × m .

s = ± 1 representa o sinal (dependendo do bit de sinal);
e é o expoente antes de seu viés de 127;
m = 1+ mantissa representa a parte significativa (em binário), portanto, 1 ≤ m <2 ( mantissa sendo a parte decimal da parte significativa, entre 0 e 1)

Por exemplo, para 0b 0 01111100 01000000000000000000000: o sinal é positivo, o expoente é 124 - 127 = −3 e a parte significativa é 0b 1,01, ou seja, 1,25 em decimal (1 × 2 0 + 0 × 2 −1 + 1 × 2 - 2 ); o número representado é, portanto, +1,25 × 2 −3 ou +0,15625.

Os números desnormalizados seguem o mesmo princípio, exceto que e = −126 e m = 0+ mantissa (nota: para o cálculo, tomaremos o cuidado de tomar e = −126 e não −127, a fim de garantir a continuidade deste representação com a representação normalizada, uma vez que m = 0+ mantissa e não mais m = 1+ mantissa ).

Notas:

Existem dois zeros: +0 e −0 (zero positivo e zero negativo), dependendo do valor do bit de sinal;
Existem dois infinitos: + ∞ e −∞, dependendo do valor do bit de sinal;
Zeros e números desnormalizados têm um expoente tendencioso de -127 + 127 = 0; todos os bits do campo “expoente” estão, portanto, em 0;
NaNs e infinitos têm um expoente tendencioso de 128 + 127 = 255; todos os bits do campo “expoente” estão, portanto, em 1;
Os NaNs podem ter um sinal e uma parte significativa, mas não fazem sentido como um valor real (exceto para sinalização, que pode ativar uma exceção e correção de erro);
O número desnormalizado diferente de zero mais próximo de zero é ± 2 −149 ≈ ± 1,401 298 5 × 10 −45 ;
O número normalizado diferente de zero mais próximo de zero é ± 2 −126 ≈ ± 1,175 494 351 × 10 −38 ;
O número normalizado com o maior valor absoluto é ± (2−2 −23 ) × 2 127 ≈ ± 3,402 823 5 × 10 38 .

Aqui está uma tabela que resume a parte anterior, com exemplos de números de 32 bits de precisão única.

Modelo	Expositor	Mantissa	Valor aproximado	Desvio / anterior
Zero	0000 0000	000 0000 0000 0000 0000 0000	0,0
Menor número desnormalizado	0000 0000	000 0000 0000 0000 0000 0001	1,4 × 10 −45	1,4 × 10 −45
Próximo número desnormalizado	0000 0000	000 0000 0000 0000 0000 0010	2,8 × 10 −45	1,4 × 10 −45
Próximo número desnormalizado	0000 0000	000 0000 0000 0000 0000 0011	4,2 × 10 −45	1,4 × 10 −45
Outro número desnormalizado	0000 0000	100 0000 0000 0000 0000 0000	5,9 × 10 −39
Maior número desnormalizado	0000 0000	111 1111 1111 1111 1111 1111	1,175 494 21 × 10 −38
Menor número padronizado	0000 0001	000 0000 0000 0000 0000 0000	1,175 494 35 × 10 −38	1,4 × 10 −45
Próximo número padronizado	0000 0001	000 0000 0000 0000 0000 0001	1,175 494 49 × 10 −38	1,4 × 10 −45
Quase o dobro	0000 0001	111 1111 1111 1111 1111 1111	2.350 988 56 × 10 −38	1,4 × 10 −45
Próximo número padronizado	0000 0010	000 0000 0000 0000 0000 0000	2.350 988 70 × 10 −38	1,4 × 10 −45
Próximo número padronizado	0000 0010	000 0000 0000 0000 0000 0001	2.350 988 98 × 10 −38	2,8 × 10 −45
Quase 1	0111 1110	111 1111 1111 1111 1111 1111	0,999 999 94	0,6 × 10 −7
1	0111 1111	000 0000 0000 0000 0000 0000	1.000.000 00
Próximo número 1	0111 1111	000 0000 0000 0000 0000 0001	1.000.000 12	1,2 × 10 -7
Quase o maior número	1111 1110	111 1111 1111 1111 1111 1110	3.402 823 26 × 10 38
Maior número padronizado	1111 1110	111 1111 1111 1111 1111 1111	3.402 823 46 × 10 38	2 × 10 31
Infinito	1111 1111	000 0000 0000 0000 0000 0000	Infinito
Primeiro valor (desnormalizado) de aviso NaN	1111 1111	000 0000 0000 0000 0000 0001	não
NaN normalizado (alarme)	1111 1111	010 0000 0000 0000 0000 0000	não
Último valor (desnormalizado) de aviso NaN	1111 1111	011 1111 1111 1111 1111 1111	não
Primeiro valor (desnormalizado) de NaN silencioso	1111 1111	100 0000 0000 0000 0000 0000	não
Último valor (desnormalizado) de NaN silencioso	1111 1111	111 1111 1111 1111 1111 1111	não

Notas:

O valor do campo mantissa NaN mostrado acima é um exemplo de NaN, mas não é o único valor possível para codificar um valor NaN. Os valores desse campo que codifica NaN são todos valores possíveis, exceto zero (que codifica para o infinito);
Além disso, observe a diferença, na maioria das máquinas, entre um campo de mantissa começando com o bit 1, usado para NaNs silenciosos, e um campo de mantissa começando com o bit 0, indicando um NaN com aviso. Em algumas máquinas, no entanto, como aquelas baseadas no PA-RISC , a escolha oposta (menos prática) foi feita.

Exemplo complexo

Vamos codificar o número decimal -118.625 usando o mecanismo IEEE 754.

Primeiro, precisamos do sinal, do expoente e da parte fracionária. É um número negativo, então o sinal é "1".
Em seguida, escrevemos o número (sem o sinal) em binário . Obtemos 1110110,101 (com multiplicações sucessivas por dois para a parte decimal).
Em seguida, mudamos a vírgula para a esquerda, de modo que deixamos apenas 1 à sua esquerda: 1110110,101 (bin) = 1,110110101 (bin) × 2 6 . É um número de vírgula flutuante normalizado: a mantissa é a parte à direita da vírgula decimal, preenchida com 0 à direita para obter 23 bits. Isso resulta em 110 1101 0100 0000 0000 0000 (omitimos o 1 antes do ponto decimal, que está implícito).
O expoente é igual a 6 e precisamos convertê-lo em binário e levar em consideração o viés. Para o formato IEEE 754 de 32 bits, a polarização é 2 8−1 −1 = 127. Portanto, 6 + 127 = 133 (dec) = 1000 0101 (bin).

Portanto, temos −118,625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).

Formato de precisão dupla (64 bits)

O formato de precisão dupla é igual ao de precisão simples, exceto que os campos são maiores. Na verdade, ele tem 52 bits de mantissa em vez de apenas 23 e 11 bits de expoente em vez de apenas 8.

A mantissa é muito ampla, enquanto o expoente não é muito amplo. Isso porque, segundo os criadores do padrão, a precisão é mais importante do que a amplitude.

Os NaNs e os infinitos são representados pela definição de todos os bits do expoente em 1 (2047), mas diferenciados pela definição de todos os 52 bits da mantissa em 0 para os infinitos e pelo menos um desses 52 bits em 1 para o Nope .

Para números normalizados, o viés do expoente é +1023. Para números desnormalizados, o expoente é −1022 (o expoente mínimo para um número normalizado). Não é −1023 porque os números normalizados têm um 1 antes da vírgula decimal e os números desnormalizados não. Como antes, zero e infinito são assinados.

Notas:

O menor número positivo diferente de zero e o maior número negativo diferente de zero (representado por um valor desnormalizado com todos os bits no campo Expoente em 0 e o valor binário 1 no campo Fração) são: ± 2 −1074 ≈ ± 4,940 656 458 412 465 4 × 10 −324
O menor número positivo normalizado diferente de zero e o maior número negativo normalizado diferente de zero (representado pelo valor binário 1 no campo Exp e 0 no campo Fração são: ± 2 −1022 ≈ ± 2,225 073 858 507 201 4 × 10 −308
O maior número positivo finito e o menor número negativo finito (representado pelo valor 2046 no campo Exp e todos os bits de 1 no campo Fração) são: ± (2 1024 - 2 971 ) ≈ ± 1,797 693 134 862 315 7 × 10 308

Compare números de ponto flutuante

Geralmente, é melhor comparar números de ponto flutuante usando as instruções de cálculo de ponto flutuante. No entanto, essa representação possibilita comparações de certos subconjuntos byte a byte, se eles tiverem a mesma ordem de bytes e o mesmo sinal, e os NaNs forem excluídos.

Por exemplo, para dois números de ponto flutuante positivo a e b, a comparação entre a e b (>, <, ou ==) dá os mesmos resultados que a comparação de dois números com sinal (ou sem sinal) com os mesmos bits que a e b. Em outras palavras, dois números de ponto flutuante positivo (que não são NaNs) podem ser comparados com uma comparação binária com sinal (ou sem sinal). Devido ao problema de ordem de bytes, essa comparação não pode ser usada em código portátil.

Arredondar números de ponto flutuante

O padrão IEEE especifica 5 modos de arredondamento:

Em direção ao menos infinito;
Em direção ao infinito mais;
Em direção a zero;
De perto (2 variantes):
- quando na metade do caminho para o valor mais próximo com seu dígito ainda menos significativo (modo de arredondamento padrão para formatos binários);
- na metade, mais próximo de zero (para cima em valor absoluto);

Revisões padrão

Dentro junho de 2008, uma revisão importante dos padrões IEEE 754 e IEEE 854 foi aprovada pelo IEEE. Veja: IEEE 754-2008 (en) .

Esta revisão traz novos formatos de base 2 e 10, e especifica a representação dos formatos de base 10 (além da base 2).

Ele também normaliza uma relação de ordem total para cada um dos tipos de dados numéricos normalizados, suplementando as relações de ordem usuais que são apenas parciais; na verdade, a relação de ordem normal é total apenas com a condição de remover do conjunto de valores, o valor zero negativo (normalmente comparado como igual ao valor zero positivo) e todos os valores NaN (que não são iguais, nem superiores, nem inferior a qualquer outro, nem mesmo eles).

Por outro lado, esta revisão deixa a flexibilidade de representação e possível distinção dos valores NaN (a posição e o valor do (s) bit (s) de aviso no campo da mantissa não são padronizados, e o uso dos outros bits de o campo mantissa ou sinal de um valor NaN para codificar um erro permanece dependente da arquitetura ou dos aplicativos).

Uma nova revisão foi aprovada em julho de 2019.

Bibliografia

IEEE, padrão IEEE-754
David Goldberg, What Every Computer Scientist Deve Saber Sobre Floating-Point Arithmetic , ACM Computing Surveys, vol. 23, n o 1,Março de 1991.

Notas e referências

(em) " As especificações básicas do grupo aberto, problema 6 " .
(in) IEEE Standard for Floating-Point Arithmetic (ANSI / IEEE Std 754-2008) , ( ISBN 978-0-7381-5753-5 ) .
(em) " Re: sNaNs (longos) não são o que poderiam ser ... " 15 de outubro de 2010.
(en) Revisão ANSI / IEEE Std 754-1985; Rascunho 754R aprovado como padrão IEEE , em www.validlab.com
(en) Revisão ANSI / IEEE Std 754-1985; 754R Draft Approved como IEEE Standard , em 754r.ucbtest.org

links externos

Aritmética determinística de ponto flutuante de plataforma cruzada : Muitas informações sobre as diferentes implementações do IEEE 754 em várias plataformas
(pt) Conversor binário : conversor binário interativo com precisão simples e dupla de acordo com o padrão IEEE 754
Lista de artigos na página Grupo de revisão padrão .

IEEE 754

História

Formato de um número de ponto flutuante

Convenções usadas no artigo

Formato geral

Formato de precisão única (32 bits)

Formato de precisão dupla (64 bits)

Compare números de ponto flutuante

Arredondar números de ponto flutuante

Revisões padrão

Bibliografia

Notas e referências

links externos

Artigos relacionados