Compressão de áudio com STFT

O que é STFT no áudio?
Para que é usado o STFT para?
Qual é a diferença entre FFT e STFT?
Por que usaríamos um espectrograma STFT para analisar a fala humana?

O que é STFT no áudio?

A DFT converte uma sequência (sinal discreto) em seus constituintes de frequência, assim como o FT faz para um sinal contínuo. No nosso caso, temos uma sequência de amplitudes que foram amostradas de um sinal de áudio contínuo. O algoritmo DFT ou FFT pode converter esse sinal discreto no domínio do tempo em um domínio de frequência.

Para que é usado o STFT para?

A transformação de Fourier de curto tempo (STFT) é usada para analisar como o conteúdo de frequência de um sinal não estacionário muda ao longo do tempo. A magnitude quadrada do STFT é conhecida como representação de frequência de tempo do espectrograma do sinal.

Qual é a diferença entre FFT e STFT?

A FFT tem uma resolução de 2048 linhas, janela Blackman e 50% de sobreposição e STFT também possui tamanho de bloco 2048, tamanho de FFT 16K, janela preta usada e sobreposição de 50%. Como podemos ver, o STFT tem um desempenho melhor com o mesmo tamanho de bloco (mas linhas mais calculadas). Melhoramos a resolução de frequência para a mesma quantidade de dados escavados.

Por que usaríamos um espectrograma STFT para analisar a fala humana?

O STFT é uma das ferramentas mais usadas na análise e processamento de fala. Ele descreve a evolução dos componentes de frequência ao longo do tempo. Como o próprio espectro, um dos benefícios dos STFTs é que seus parâmetros têm uma interpretação física e intuitiva.