- Por que usamos o DCT no MFCC?
- O que o MFCC Extract?
- Qual é a saída do MFCC?
- Como o MFCC é usado no reconhecimento de fala?
Por que usamos o DCT no MFCC?
DCT é a última etapa do processo principal de extração de recursos do MFCC. O conceito básico de DCT está correlacionando o valor do espectro MEL, de modo a produzir uma boa representação do local espectral. Basicamente, o conceito de DCT é o mesmo que a transformação inversa de Fourier.
O que o MFCC Extract?
A técnica de extração de recursos do MFCC inclui basicamente a janela do sinal, a aplicação da DFT, pegando o tronco da magnitude e, em seguida, distorce as frequências em uma escala MEL, seguida pela aplicação do DCT inverso.
Qual é a saída do MFCC?
A saída após a aplicação do MFCC é uma matriz com vetores de características extraídos de todos os quadros. Nesta matriz de saída, as linhas representam os números e colunas de quadros correspondentes representam coeficientes de vetor de características correspondentes [1-4]. Finalmente, esta matriz de saída é usada para o processo de classificação.
Como o MFCC é usado no reconhecimento de fala?
MFCC são recursos populares extraídos de sinais de fala para uso em tarefas de reconhecimento. No modelo de fala do filtro de origem, o MFCC é entendido como representar o filtro (trato vocal). A resposta de frequência do trato vocal é relativamente suave, enquanto a fonte de fala de voz pode ser modelada como um trem de impulso.