Dinâmico de deformação de tempo para reconhecimento de voz

O que é DTW no reconhecimento de fala?
Por que o tempo dinâmico é útil?
Como funciona o algoritmo DTW?

O que é DTW no reconhecimento de fala?

DTW é um método para medir a semelhança de um padrão com diferentes fusos horários. Quanto menor a distância produzida, mais semelhante entre os dois padrões de som. Ambos os padrões de som são semelhantes, portanto as duas vozes são as mesmas.

Por que o tempo dinâmico é útil?

A deformação dinâmica do tempo é usada para comparar a similaridade ou calcular a distância entre duas matrizes ou séries temporais com comprimento diferente. Como fazer isso? Uma maneira óbvia é combinar A e B de 1 a 1 e resumir a distância total de cada componente.

Como funciona o algoritmo DTW?

Dynamic Time Deforping (DTW) é um algoritmo de alinhamento de séries temporais desenvolvido originalmente para reconhecimento de fala⁽¹⁾. O objetivo é alinhar duas sequências de vetores de características, distorcendo o eixo do tempo iterativamente até que uma correspondência ideal (de acordo com uma métrica adequada) entre as duas seqüências seja encontrada.