色控传媒

Skip to Content

O que é pré-processamento de dados para aprendizado de máquina?

O pré-processamento de dados para aprendizado de máquina (ML ) refere-se à prepara??o e transforma??o de dados brutos em um formato adequado para treinar modelos de ML. ? uma etapa essencial em um de ML (ou AI) porque afeta diretamente o desempenho e a precis?o dos modelos.

O pré-processamento de dados envolve várias técnicas, como limpar os dados para lidar com valores ausentes, remover valores discrepantes, dimensionar recursos, codificar variáveis categóricas e dividir os dados em conjuntos de treinamento e teste. Essas técnicas s?o essenciais para garantir que os dados estejam em um formato uniforme e utilizável para os algoritmos de ML.

Este artigo aborda tudo o que você precisa saber sobre o pré-processamento de dados para aprendizado de máquina, incluindo o que é, seus benefícios, etapas e exemplos.?

O que é pré-processamento de dados??

O pré-processamento de dados é a transforma??o de dados brutos em um formato mais adequado e significativo para análise e treinamento de modelos. O pré-processamento de dados desempenha um papel vital para melhorar a qualidade e a 别蹿颈肠颈ê苍肠颈补 dos modelos de ML, abordando problemas como valores ausentes, ruído, inconsistências e valores discrepantes nos dados.

Benefícios do pré-processamento de dados para aprendizado de máquina

O pré-processamento de dados para aprendizado de máquina tem muitos benefícios, e esses benefícios s?o os mesmos das etapas envolvidas no pré-processamento de dados. Vamos dar uma olhada.?

1. Limpeza de dados

A limpeza de dados é uma parte essencial do fluxo de pré-processamento de dados no aprendizado de máquina. Ela envolve identificar e corrigir erros ou inconsistências no conjunto de dados para garantir que os dados sejam de alta qualidade e adequados para análise ou treinamento de modelo.?

A limpeza de dados normalmente inclui:

Como lidar com valores ausentes

Valores ausentes s?o um problema comum em conjuntos de dados do mundo real e podem afetar negativamente o desempenho dos modelos de ML. Para identificar e lidar com valores ausentes:

  • Use estatísticas descritivas ou visualiza??es para identificar colunas/recursos com valores ausentes. Os indicadores comuns de valores ausentes incluem valores NaN (N?o é um número) ou NULL.
  • Determine o impacto de valores ausentes em sua análise ou modelo. Considere a porcentagem de valores ausentes em cada coluna e sua import?ncia para o conjunto de dados geral.
  • Se a porcentagem de valores ausentes for pequena e essas linhas ou colunas n?o forem essenciais, você pode optar por removê-los usando métodos como dropna() em pandas ou fun??es semelhantes em outras ferramentas.
  • Para variáveis numéricas, você pode imputar valores ausentes usando técnicas como média, mediana ou método de imputa??o de modo (fillna() em pandas). Para recursos categóricos, você pode imputar com a categoria mais frequente.

Você também pode considerar métodos de imputa??o mais avan?ados, como imputa??o de regress?o, imputa??o de vizinhos mais próximos de k ou usar modelos de ML para prever valores ausentes com base em outros recursos.

Como lidar com valores atípicos

Discrepantes s?o pontos de dados que diferem significativamente de outras observa??es no conjunto de dados e podem distorcer a análise estatística ou os modelos de aprendizado de máquina.?

Para detectar e lidar com valores discrepantes:

  • Use gráficos de caixa, histogramas ou gráficos de dispers?o para visualizar a distribui??o de recursos numéricos e identificar possíveis valores discrepantes visualmente.
  • Calcule estatísticas resumidas, como média, desvio padr?o, quartis e intervalo interquartil (IQR, Interquartile Range). Os valores atípicos s?o frequentemente definidos como pontos de dados que ficam abaixo do Q1 - 1,5 * IQR ou acima do Q3 + 1,5 * IQR.
  • Em alguns casos, a remo??o de valores atípicos pode ser apropriada, especialmente se for devido a erros ou anomalias na entrada de dados. Use técnicas de filtragem baseadas em limites estatísticos para remover valores discrepantes.
  • Aplique transforma??es como transforma??o de log, transforma??o de raiz quadrada ou transforma??o Box-Cox para tornar os dados mais normalmente distribuídos e reduzir o impacto de valores discrepantes.
  • Considere usar modelos robustos de aprendizado de máquina que sejam menos sensíveis a valores atípicos, como máquinas vetoriais de suporte (SVM, Support Vector Machine), florestas aleatórias ou métodos de conjunto.

Como lidar com duplicatas

Registros duplicados podem distorcer a análise e o treinamento de modelos ao inflar determinados padr?es ou vieses.?

Para detectar e lidar com duplicatas:

  • Use fun??es como duplicated() em pandas para identificar linhas duplicadas com base em colunas específicas ou em toda a linha.
  • Se os registros duplicados forem redundantes e n?o fornecerem informa??es adicionais, você poderá removê-los usando a fun??o drop_duplicates() em pandas ou métodos semelhantes em outras ferramentas.
  • Em alguns casos, duplicatas podem ocorrer devido a várias entradas, mas têm identificadores exclusivos. Certifique-se de manter identificadores exclusivos ou colunas-chave que diferenciem entre registros duplicados.

Ao seguir essas etapas e usar técnicas adequadas, você pode limpar e pré-processar com eficácia seus dados para tarefas de aprendizado de máquina, melhorando a qualidade e a confiabilidade das previs?es dos seus modelos.

2. Normaliza??o de dados

A normaliza??o é uma técnica de pré-processamento de dados usada para dimensionar e padronizar os valores dos recursos em um conjunto de dados. O principal objetivo da normaliza??o é colocar todos os valores de variáveis em um intervalo semelhante sem distorcer as diferen?as nos intervalos de valores. Isso é importante porque muitos algoritmos de aprendizado de máquina têm melhor desempenho ou convergem mais rapidamente quando os recursos de entrada est?o em uma escala semelhante e têm uma distribui??o semelhante.

Os benefícios da normaliza??o incluem:

  • Ajudar a evitar que recursos com grandes escalas dominem aqueles com menores escalas durante o treinamento do modelo.?
  • Algoritmos como descida de gradiente convergem mais rapidamente quando os recursos s?o normalizados, levando a tempos de treinamento mais rápidos.?
  • Redu??o do impacto de valores discrepantes ao colocar todos os valores dentro de um intervalo limitado. Os dados normalizados podem ser mais fáceis de interpretar e comparar entre diferentes recursos.

Técnicas de normaliza??o

Dimensionamento mínimo e máximo?

  • Fórmula:Xnorm =Xmax ?Xmin /Xmax ?Xmin
  • Faixa: Transforma valores para um intervalo entre 0 e 1.

?

Exemplo:

Normaliza??o do Z-score (Padroniza??o):

  • Fórmula: Xstd = (X/μ
  • Faixa: Transforma valores para ter uma média de 0 e desvio padr?o de 1.

?

Exemplo:

Diretrizes para aplicar a normaliza??o

Dimensionamento mínimo e máximo: O dimensionamento mínimo e máximo é adequado para algoritmos que exigem recursos de entrada dentro de um intervalo específico, como redes neurais e máquinas de vetor de suporte. Certifique-se de que os valores discrepantes sejam tratados adequadamente, pois podem afetar a expans?o.

Normaliza??o da pontua??o Z: Isso é adequado para algoritmos como cluster k-means, regress?o linear e regress?o logística. Ela resulta em uma distribui??o centrada em torno de 0 com um desvio padr?o de 1, tornando-a ideal para algoritmos que assumem dados normalmente distribuídos.

Dados esparsos: Para conjuntos de dados esparsos (onde a maioria dos valores é zero), considere usar técnicas como MaxAbsScaler ou RobustScaler para normaliza??o.

Dados categóricos: Para recursos categóricos, considere técnicas como codifica??o one-hot antes da normaliza??o para garantir expans?o significativa.

? importante observar que a escolha da técnica de normaliza??o depende das características específicas dos seus dados e dos requisitos do algoritmo de aprendizado de máquina que você planeja usar. A experimenta??o e a compreens?o do impacto no desempenho do modelo s?o aspectos essenciais da aplica??o eficaz da normaliza??o.

3. Dimensionamento de recursos

O dimensionamento de recursos é uma técnica de pré-processamento de dados usada para padronizar o intervalo de variáveis ou recursos independentes de um conjunto de dados. O objetivo do dimensionamento de recursos é levar todos os recursos a uma escala ou faixa semelhante para evitar que um recurso domine sobre outros durante o treinamento ou a análise do modelo. O dimensionamento de recursos pode melhorar a velocidade de convergência dos algoritmos de otimiza??o e evitar que certos recursos tenham influência indevida no modelo.

Fun??o do dimensionamento de recursos no pré-processamento de dados

Os recursos de expans?o garantem que os algoritmos de ML tratem todos os recursos igualmente, evitando a tendência a recursos com escalas maiores. Ele também melhora as convergências, pois muitos algoritmos de otimiza??o (por exemplo, descida de gradiente) convergem mais rapidamente quando os recursos s?o dimensionados, levando a um treinamento de modelo mais rápido. Ele também pode evitar problemas de instabilidade numérica que podem surgir devido a grandes diferen?as nas magnitudes dos recursos. Por fim, a expans?o horizontal pode facilitar a interpreta??o do impacto das variáveis nas previs?es do modelo.

Métodos de expans?o de recursos

Além do dimensionamento mínimo e máximo descrito acima e da normaliza??o da pontua??o Z, também há:

MaxAbsScaler: Isso dimensiona cada variável pelo seu valor absoluto máximo, de modo que os valores resultantes variam entre -1 e 1. Ele é adequado para dados escassos em que a preserva??o de zero entradas é importante, como em sistemas de classifica??o ou recomenda??o de texto.

RobustScaler: Isso usa estatísticas que s?o robustas para valores discrepantes, como a faixa mediana e interquartil (IQR, Median and Interquartile Range), para dimensionar recursos. ? adequado para conjuntos de dados que contêm valores atípicos ou distribui??es distorcidas.

Diretrizes para aplicar a expans?o de recursos

Para aplicar o dimensionamento de recursos:

  • Aplique a padroniza??o (normaliza??o de pontua??o Z) quando os dados seguirem uma distribui??o normal ou quando usarem algoritmos como regress?o linear, regress?o logística ou clustering k-means.
  • Aplique a normaliza??o (escala mínima e máxima) quando precisar que os dados estejam dentro de um intervalo específico, como redes neurais ou máquinas de vetor de suporte.
  • Use o MaxAbsScaler ao lidar com dados esparsos, como dados de texto ou recursos esparsos de alta dimens?o.
  • Use o RobustScaler ao lidar com conjuntos de dados que contêm valores atípicos ou recursos distribuídos de maneira n?o normal.

Tenha em mente que os recursos categóricos podem precisar de codifica??o (por exemplo, codifica??o one-hot) antes de aplicar o dimensionamento de recursos, especialmente se forem nominais (categorias n?o ordenadas).

4. Como lidar com dados categóricos

Variáveis categóricas representam grupos ou categorias e muitas vezes s?o de natureza n?o numérica, apresentando desafios durante o treinamento do modelo, incluindo:

  • Representa??o n?o numérica: As variáveis categóricas normalmente s?o representadas usando strings ou rótulos, que a maioria dos algoritmos de aprendizado de máquina n?o consegue processar diretamente. Algoritmos exigem entradas numéricas para treinamento e previs?es.
  • Variáveis ordinais vs. nominais: As variáveis categóricas podem ser ordinais (com uma ordem significativa) ou nominais (sem uma ordem específica). Tratar as variáveis ordinais como nominais ou vice-versa pode levar a interpreta??es incorretas do modelo ou previs?es tendenciosas.
  • Maldi??o de dimensionalidade: A codifica??o a quente, uma técnica comum para lidar com dados categóricos, pode levar a um aumento na dimensionalidade do conjunto de dados, especialmente com um grande número de categorias exclusivas. Isso pode afetar o desempenho do modelo e aumentar a complexidade computacional.

Técnicas para codificar variáveis categóricas

As técnicas para codificar variáveis categóricas incluem:

Codifica??o de rótulos: A codifica??o de rótulos atribui um rótulo numérico exclusivo a cada categoria em uma variável categórica. ? adequado para variáveis ordinais em que há uma ordem significativa entre as categorias.

Veja um exemplo usando o aprendizado de scikit da Python:

de importa??o sklearn.preprocessing LabelEncoder

le = LabelEncoder()

Rótulos_codificados = le.fit_transform(['cat', 'cachorro', 'coelho', 'cachorro'])

Codifica??o única: A codifica??o one-hot cria colunas binárias para cada categoria em uma variável categórica, onde cada coluna indica a presen?a ou ausência dessa categoria. ? adequado para variáveis nominais sem uma ordem específica entre as categorias.

Veja um exemplo usando pandas:

importar pandas como pd

df = pd.DataFrame({'category': ['A', 'B', 'C', 'A']})

one_hot_encoded = pd.get_dummies(df['category'], prefixo='category')

Codifica??o simulada: A codifica??o simulada é semelhante à codifica??o one-hot, mas descarta uma das colunas binárias para evitar problemas de multicolinearidade em modelos lineares. Ela é comumente usada em modelos de regress?o em que uma categoria serve como categoria de referência.

Veja um exemplo usando pandas:

dummy_encoded = pd.get_dummies(df['category'], prefix='category', drop_first=True)

Diretrizes para lidar com dados categóricos

Para lidar corretamente com dados categóricos, você deve:

Entenda os tipos de variáveis: Determine se as variáveis categóricas s?o ordinais ou nominais para escolher a técnica de codifica??o apropriada.

Evite interpreta??es err?neas ordinais: Tenha cuidado ao usar a codifica??o de rótulos para variáveis nominais, pois isso pode introduzir ordinalidade n?o intencional nos dados.

Lide com alta cardinalidade: Para variáveis categóricas com um grande número de categorias exclusivas, considere técnicas como codifica??o de frequência, codifica??o de destino ou técnicas de redu??o de dimensionalidade, como PCA.

Tudo isso além do tratamento já mencionado de valores ausentes e da normaliza??o de dados numéricos.?

5. Como lidar com dados desequilibrados

Lidar com dados desequilibrados é um desafio comum no aprendizado de máquina, especialmente em tarefas de classifica??o em que o número de inst?ncias em uma classe (classe minoritária) é significativamente menor do que nas outras classes (classes majoritárias). Os dados desequilibrados podem ter um impacto profundo no treinamento e avalia??o de modelos, levando a modelos tendenciosos que favorecem a classe majoritária e têm um desempenho ruim nas classes minoritárias.?

Aqui est?o alguns pontos-chave sobre dados desequilibrados e técnicas para lidar com eles:

Impacto de dados desequilibrados no desempenho do modelo

Os modelos treinados em dados desequilibrados tendem a priorizar a precis?o na classe majoritária enquanto negligenciam a classe minoritária. Isso pode levar a um desempenho ruim nas previs?es de classe minoritária. Além disso, métricas como precis?o podem ser enganosas em conjuntos de dados desequilibrados, pois uma alta precis?o pode resultar da previs?o correta da classe majoritária enquanto ignora a classe minoritária. As métricas de avalia??o, como precis?o, recall, F1-score e área sob a curva ROC (AUC-ROC), s?o mais informativas para conjuntos de dados desequilibrados em compara??o com a precis?o isoladamente.

Técnicas para lidar com dados desequilibrados

As técnicas mais comuns para lidar com dados desequilibrados s?o sobreamostragem e subamostragem. A sobreamostragem envolve aumentar o número de inst?ncias na classe minoritária para equilibrá-la com a classe majoritária. A subamostragem envolve reduzir o número de inst?ncias na classe majoritária para equilibrá-la com a classe minoritária. Você também pode adotar uma abordagem híbrida combinando sobreamostragem e subamostragem.

Há também a pondera??o de classes, em que você ajusta os pesos das classes durante o treinamento do modelo para penalizar erros na classe minoritária mais do que erros na classe majoritária. Isso só é útil para algoritmos que suportam a pondera??o de classe, como regress?o logística ou máquinas de vetor de suporte.

Diretrizes para lidar com dados desequilibrados

Para lidar com dados desequilibrados, você deve:

Entenda a distribui??o de dados: Analise a distribui??o de classes no seu conjunto de dados para determinar a gravidade do desequilíbrio.

Escolha a técnica apropriada: Selecione a técnica de sobreamostragem, subamostragem ou híbrida com base no tamanho do conjunto de dados, na taxa de desequilíbrio e nos recursos computacionais.

Avalie as métricas: Use métricas de avalia??o adequadas, como precis?o, recall, F1-score ou curva AUC-ROC, para avaliar o desempenho do modelo em ambas as classes.

Valida??o cruzada: Aplique técnicas em pastas de valida??o cruzada para evitar vazamento de dados e obter estimativas confiáveis de desempenho do modelo.

Conclus?o

O pré-processamento de dados ajuda a garantir que os modelos de ML sejam treinados em dados de alta qualidade e formatados adequadamente, o que afeta diretamente o desempenho, a precis?o e a capacidade de generaliza??o do modelo. Ao abordar problemas como valores ausentes, valores discrepantes, variáveis categóricas e desequilíbrio de classe, o pré-processamento de dados permite que os modelos fa?am previs?es mais informadas e precisas, levando a uma melhor tomada de decis?o em aplicativos do mundo real.

Com o pré-processamento adequado de dados, os profissionais de ML podem aproveitar todo o potencial de seus dados e criar modelos preditivos mais precisos e confiáveis para vários aplicativos em vários domínios.

No entanto, para realmente fazer isso no mundo real, primeiro você precisa ter uma solu??o flexível de armazenamento de dados, como a 色控传媒, que ajude a acelerar a AI e o aprendizado de máquina e a avan?ar com suas iniciativas de AI corporativa.

10/2025
FlashStack for AI: The Foundation for Enterprise AI Factories
FlashStack?? for AI from 色控传媒??, Cisco, and NVIDIA delivers an integrated, validated foundation for building and scaling Enterprise AI Factories.
Resumo da solu??o
5 pages

Confira os principais recursos e eventos

V?DEO
Assista: O valor de um Enterprise Data Cloud.

Charlie Giancarlo sobre o por que de gerenciar dados — e n?o o armazenamento — é o futuro. Descubra como uma abordagem unificada transforma as opera??es de TI corporativas.

Assista agora
RECURSO
O armazenamento legado n?o pode potencializar o futuro.

Cargas de trabalho avan?adas exigem velocidade, seguran?a e escala compatíveis com a IA. Sua pilha está pronta?

Fa?a a avalia??o
DEMONSTRA??ES do PURE360
Explore, conhe?a e teste a 色控传媒.

Acesse vídeos e demonstra??es sob demanda para ver do que a 色控传媒 é capaz.

Assista às demonstra??es
LIDERAN?A EM IDEIAS
A corrida pela inova??o

Os insights e perspectivas mais recentes de líderes do setor na vanguarda da inova??o do armazenamento.

Saiba mais
Seu navegador n?o é mais compatível.

Navegadores antigos normalmente representam riscos de seguran?a. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.