Quantização de 4 bits Tensorflow

O que é o Treinamento do Qat?
O que é INT8 quantização?
A quantização reduz o tamanho do modelo?

O que é o Treinamento do Qat?

Quantização Consciente do treinamento (QAT) O treinamento consciente de quantização visa compunhar fatores de escala durante o treinamento. Uma vez que a rede esteja totalmente treinada, quantize (q) e desquantize (DQ) os nós são inseridos no gráfico após um conjunto específico de regras.

O que é INT8 quantização?

A capacidade de diminuir a precisão de um modelo de FP32 para INT8 é incorporada no aplicativo DL Workbench. Esse processo é chamado de quantização e é uma ótima prática acelerar o desempenho de certos modelos em hardware que suporta Int8.

A quantização reduz o tamanho do modelo?

A quantização pode reduzir o tamanho de um modelo em todos esses casos, potencialmente à custa de alguma precisão. A poda e o agrupamento podem reduzir o tamanho de um modelo para download, tornando -o mais facilmente compressível.