O que está superamostragem em Python?
O superconsplamento aleatório envolve selecionar exemplos aleatórios da classe minoritária, com substituição e adicioná -los ao conjunto de dados de treinamento. A subamostragem aleatória envolve selecionar exemplos aleatórios da classe majoritária e excluí -los do conjunto de dados de treinamento.
Como você supera dados?
Para depois a amostra, pegue uma amostra do conjunto de dados e considere seus vizinhos mais próximos (no espaço de recursos). Para criar um ponto de dados sintético, pegue o vetor entre um desses k vizinhos e o ponto de dados atual. Multiplique este vetor por um número aleatório x que fica entre 0 e 1.
Como você usa dados em python?
Você pode aprimorar um conjunto de dados simplesmente copiando registros de classes minoritárias. Você pode fazer isso através do método reample () do Sklearn. Módulo Utils, conforme mostrado no script a seguir. Você pode ver que, neste caso, o primeiro argumento que passamos no método reample () é a nossa classe minoritária, eu.e. Nosso conjunto de dados de spam.