色控传媒

Skip to Content

机械学习のためのデータ前処理とは?

机械学习(ML)のためのデータ前処理とは、ML モデルのトレーニングに適した形式に未加工データを作成して変換することをさします。これは、モデルの性能と精度に直接影響を与えるため、ML(または AI)における重要なステップです。

データ前処理には、データのクリーニングによる欠損値の処理、外れ値の削除、特徴量スケーリング、カテゴリカル変数のエンコード、トレーニングやテストセットへのデータの分割など、いくつかの手法が含まれます。これらの手法は、データが ML アルゴリズムで一貫した使用可能な形式であることを保証する鍵となります。

この記事では、机械学习のためのデータ前処理について知っておくべきこと、そのメリット、手順、例などについて解説します。

データ前処理

データ前処理とは、未加工データを分析やモデルのトレーニングに適した形式に変換することです。データ前処理は、データの欠損値、ノイズ、不整合、外れ値などの問題に対処することで、ML モデルの品質と効率を向上させる上で重要な役割を果たします。

机械学习のためのデータ前処理のメリット

机械学习のためのデータ前処理には多くのメリットがあり、これらのメリットは、データ前処理に伴うステップと同じです。見てみましょう。

1. データ?クリーニング

データ?クリーニングは、机械学习におけるデータ前処理パイプラインの不可欠な部分です。これには、データセットのエラーや不整合を特定して修正し、データが高品質で、分析やモデルのトレーニングに適していることを確認することが含まれます。

データ?クリーニングには、通常、次のようなものがあります。

欠损値の取り扱い

実際のデータセットでは、欠損値は一般的な問題であり、ML モデルの性能に悪影響を及ぼす可能性があります。以下のような方法で欠損値を特定し、対処します。

  • 記述統計や可視化を使用して、欠損値のある列/特徴量を特定します。欠損値の一般的な指標には、NaN(Not a Number)または NULL 値が含まれます。
  • 欠损値が分析やモデルに与える影响を判断します。各列の欠损値の割合と、データセット全体に対する重要性を考虑します。
  • 欠損値の割合が少なく、行や列が重要でない場合は、pandas の dropna() などの方法や他のツールの同様の機能を使用して削除できます。
  • 数値的な特徴量の場合は、平均値、中央値、最頻値補完」(pandas の fillna() メソッド)などの手法を使用して、欠損値を補完できます。カテゴリカル特徴量の場合、最も頻度の高いカテゴリで補完できます。

回帰補完、k 近傍法による補完、他の特徴量に基づいて机械学习モデルを使って欠損値を予測するなど、より高度な補完方法も検討できます。

外れ値の取り扱い

外れ値は、データセット内の他の観測値と大きく異なり、統計分析や机械学习モデルを歪める可能性があるデータポイントです。

以下のような方法で外れ値を検出して処理します。

  • 箱ひげ図、ヒストグラム、散布図を使用して、数値特徴量の分布を视覚化し、外れ値の可能性を视覚的に特定します。
  • 平均、標準偏差、四分位数、四分位範囲(IQR)などの要約統計量を計算します。外れ値は、多くの場合、Q1 ~ 1.5 * IQR または Q3 + 1.5 * IQR を下回るデータポイントとして定義されます。
  • 外れ値の削除は、データ入力のエラーや异常に起因する场合に特に适切である场合があります。统计しきい値に基づくフィルタリング技术を使用して、外れ値を削除します。
  • ログ変換、平方根変換、Box-Cox 変換などの変換を適用することで、データをより正規分布にし、外れ値の影響を軽減します。
  • サポート?ベクター?マシン(SVM)、ランダム?フォレスト、アンサンブル法など、外れ値に対する感度が低い堅牢な机械学习モデルの使用を検討してください。

重复の処理

重复したレコードは、特定のパターンやバイアスを膨らませることで、分析やモデルのトレーニングを歪めます。

以下のような方法で重复を検出して処理します。

  • pandas の duplicated() 関数を使用して、特定の列や行全体に基づいて重複する行を識別します。
  • 重複レコードが冗長で、追加情報を提供しない場合は、pandas の drop_duplicates() 関数や他のツールの同様の方法で削除できます。
  • 重复は、复数のエントリが原因で発生する场合がありますが、一意の识别子を持つ场合があります。重复レコードを区别する一意の识别子やキー列を保持していることを确认します。

これらのステップに従い、適切な技術を使用することで、机械学习タスクのためのデータを効果的にクリーンアップして前処理し、モデル予測の品質と信頼性を向上させることができます。

2. データの正規化

正規化は、データセット内の特徴量の値を拡張および標準化するために使用されるデータ前処理技術です。正規化の主な目的は、値の範囲に差を生じることなく、全ての特徴量値を同じ範囲にすることです。多くの机械学习アルゴリズムは、入力特徴量が同様のスケールで、同様の分布を持つ場合に、優れた性能を発揮するか、より高速に収束するため、これは重要です。

正规化のメリット:

  • モデルのトレーニング中に、大规模な特徴量が小规模な特徴量に胜るのを防ぎます。
  • 勾配降下法などのアルゴリズムは、特徴量が正规化されると収束が速く、トレーニング时间が短缩されます。
  • 全ての値を境界范囲内にすることで、外れ値の影响を軽减します。正规化されたデータは、さまざまな特徴量间で解釈や比较が容易になります。

正规化のテクニック

最小最大スケーリング

  • 式:Xnorm = Xmax ? Xmin / Xmax ? Xmin
  • 範囲:値を 0~1 の範囲に変換します。

?

例:

Z スコアの正規化(標準化):

  • 式:Xstd = σX/μ
  • 範囲:値を平均 0、標準偏差 1 に変換します。

?

例:

正规化の适用に関するガイドライン

最小最大スケーリング:最小最大スケーリングは、ニューラル?ネットワークやサポート?ベクター?マシンなどの特定の范囲内の入力特徴量を必要とするアルゴリズムに适しています。外れ値はスケーリングに影响を与える可能性があるため、适切に処理されていることを确认してください。

Z スコアの正規化:これは、k-means クラスタリング、線形回帰、ロジスティック回帰などのアルゴリズムに適しています。これにより、平均が0で標準偏差が1の分布が得られ、正規分布したデータを前提とするアルゴリズムに最適です。

スパース(疎)なデータ:疎なデータセット(ほとんどの値がゼロの場合)では、正規化に MaxAbsScaler や RobustScaler などの技術の使用を検討してください。

カテゴリカル?データ:カテゴリカル特徴量については、正規化の前に One-Hot エンコーディングなどの技術を検討し、意味のあるスケーリングを確実にします。

正規化技術の選択は、データの特定の特性と、使用する机械学习アルゴリズムの要件に依存することに注意してください。モデルの性能への影響を実験し、理解することは、正規化を効果的に適用するための重要な要素です。

3. 特徴量スケーリング

特徴量スケーリングは、データセットの独立変数または特徴量の范囲を标準化するために使用されるデータ前処理技术です。特徴量スケーリングの目的は、モデルのトレーニングや分析中に他の特徴量よりも优位に立つことを避けるために、全ての特徴量を同じスケールや范囲にすることです。特徴量スケーリングは、最适化アルゴリズムの収束速度を向上させ、特定の特徴量がモデルに过度の影响を及ぼすのを防ぐことができます。

データ前処理における特徴量スケーリングの役割

特徴量をスケーリングすることで、ML アルゴリズムが全ての特徴量を平等に処理し、より大きなスケールで特徴量に偏向することを防ぎます。また、多くの最適化アルゴリズム(例えば、勾配降下法)が、特徴量スケーリング時により速く収束し、より迅速なモデルのトレーニングにつながるため、収束も強化されます。また、特徴量の大きさの大きな違いによって生じる可能性のある数値の不安定性の問題を防ぐこともできます。最後に、スケーリングにより、モデルの予測に対する特徴量の影響を簡単に解釈できます。

特徴量スケーリングの手法

上記の最小最大スケーリングと Z スコアの正規化に加えて、以下もあります。

惭补虫础产蝉厂肠补濒别谤:これにより、各要素の最大絶対値がスケーリングされるため、結果として得られる値は -1~1 の範囲になります。テキスト分類やレコメンデーション?システムなど、ゼロの値を保持することが重要な疎なデータに適しています。

搁辞产耻蝉迟厂肠补濒别谤:これは、中央値や四分位范囲(滨蚕搁)などの外れ値に対して坚牢な统计を使用して、特徴量を拡张します。外れ値や歪んだ分布を含むデータセットに适しています。

特徴量スケーリングの适用に関するガイドライン

以下のような方法で特徴量スケーリングを适用します。

  • データが正規分布に従う場合や、線形回帰、ロジスティック回帰、k-means クラスタリングなどのアルゴリズムを使用する場合は、標準化(Z スコア正規化)を適用します。
  • ニューラル?ネットワークやサポート?ベクター?マシンなど、特定の范囲内にデータが必要な场合は、正规化(最小最大スケーリング)を适用します。
  • テキストデータや高次元の疎な特徴量など、スパース(疎)なデータを扱う場合には、MaxAbsScaler を使用します。
  • RobustScaler は、外れ値や正規に分散されていない特徴量を含むデータセットを扱うときに使用します。

特徴量スケーリングを適用する前に、カテゴリ特徴量(特に順序のないカテゴリの場合)はエンコーディング(One-Hot エンコーディングなど)が必要になる場合があることに注意してください。

4. カテゴリカル?データの処理

カテゴリカル変数は、グループやカテゴリを表し、多くの场合、本质的に数値ではないため、モデルのトレーニング中に次のような课题が発生します。

  • 数値以外の表现:カテゴリカル変数は通常、文字列やラベルで表され、ほとんどの机械学习アルゴリズムでは直接処理できません。アルゴリズムには、トレーニングと予測のための数値入力が必要です。
  • 通常変数と公称変数:カテゴリカル変数には、顺序尺度(意味のある顺序を持つ)と名义尺度(特定の顺序を持たない)があります。顺序尺度変数を名义尺度変数として扱ったり、その逆を行ったりすると、モデルの解釈が误ったものになったり、予测に偏りが生じたりする可能性があります。
  • 次元の呪い:カテゴリカル?データを処理する一般的な手法である One-Hot エンコーディングは、特に多数の固有のカテゴリにおいて、データセットの次元性の向上につながります。これにより、モデルの性能に影響が及び、計算の複雑さが増す可能性があります。

カテゴリカル変数のエンコード方法

カテゴリカル変数をエンコードするテクニックには、次のようなものがあります。

ラベル?エンコーディング:ラベル?エンコーディングは、カテゴリカル変数内の各カテゴリに一意の数値ラベルを割り当てます。カテゴリ间に意味のある顺序がある场合の顺序変数に适しています。

Python の scikit-learn の例を以下に示します。

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

encoded_labels = le.fit_transform(['cat', 'dog', 'rabbit', 'dog'])

One-Hot エンコーディング:One-Hot エンコーディングは、カテゴリカル変数内の各カテゴリに対してバイナリ列を作成します。各列は、そのカテゴリの有無を示します。カテゴリ間に特定の順序がない名義変数に適しています。

pandas の使用例を以下に示します。

import pandas as pd

df = pd.DataFrame({'category': ['A', 'B', 'C', 'A']})

one_hot_encoded = pd.get_dummies(df['category'], prefix='category')

ダミー?エンコーディング:ダミー?エンコーディングは One-Hot エンコーディングに似ていますが、線形モデルでの多重共線性の問題を避けるために、1 つのバイナリ列を削除します。これは、1 つのカテゴリが参照カテゴリとして機能する回帰モデルで一般的に使用されます。

pandas の使用例を以下に示します。

dummy_encoded = pd.get_dummies(df['category'], prefix='category', drop_first=True)

カテゴリカル?データの取り扱いに関するガイドライン

カテゴリカル?データを正しく処理するには、次のことを行う必要があります。

変数の种类を理解する:カテゴリカル変数が顺序変数か名义変数かを判别し、适切なエンコーディング手法を选択します。

顺序の误解釈を避ける:名义変数に対してラベル?エンコーディングを使用すると、データに意図しない顺序が生じる可能性があるため、注意してください。

高いカーディナリティへの対応:固有のカテゴリが多数あるカテゴリカル変数の場合は、頻度エンコーディング、ターゲット?エンコーディング、PCA などの次元削減技術を検討してください。

これは、既に言及した欠损値の取り扱いや数値データの正規化に加えて行われます。

5. 不均衡なデータへの対応

不均衡なデータへの対処は、特に分类タスクにおいてよく直面する课题です。ここでは、一方のクラス(少数クラス)のインスタンス数が他のクラス(多数クラス)よりも大幅に少ない场合に问题となります。不均衡なデータは、モデルのトレーニングや评価に大きな影响を与える可能性があり、多数クラスを优遇し、少数クラスでの性能が低下するバイアスのかかったモデルが生成されることがあります。

不均衡なデータや、データを処理するテクニックに関する重要なポイントは、次のとおりです。

不均衡なデータがモデルの性能に与える影响

不均衡なデータについてトレーニングされたモデルは、少数クラスを無視しながら、多数クラスの精度を優先する傾向があります。これにより、少数クラスの予測において性能が低下する可能性があります。また、精度などの指標は、不均衡なデータセットにおいて誤解を招く可能性があります。なぜなら、高精度は、少数クラスを無視しつつ、多数クラスを正しく予測することに起因する可能性があるからです。精度、再現率、F1 スコア、ROC 曲線下面積(AUC-ROC)などの評価指標は、精度のみの場合と比較して、不均衡なデータセットにとってより有益です。

不均衡なデータを扱うためのテクニック

不均衡なデータを処理する最も一般的な手法は、オーバーサンプリングとアンダーサンプリングです。オーバーサンプリングには、少数クラスのインスタンス数を増やして、多数クラスとのバランスを取ることが含まれます。アンダーサンプリングには、多数クラスのインスタンス数を减らし、少数クラスとのバランスを取ることが含まれます。また、オーバーサンプリングとアンダーサンプリングを组み合わせることで、ハイブリッド?アプローチを取ることもできます。

クラス重み付けもあります。モデルのトレーニング中にクラスの重みを调整して、少数クラスのエラーを多数クラスのエラー以上に罚します。これは、ロジスティック回帰やサポート?ベクター?マシンなど、クラスの重み付けをサポートするアルゴリズムにのみ役立ちます。

不均衡なデータの取り扱いに関するガイドライン

不均衡なデータを処理するには、次のことを行う必要があります。

データの分布を理解する:データセット内のクラス分布を分析して、不均衡の重大性を判断します。

适切な技术を选択してください。オーバーサンプリング、アンダーサンプリング、ハイブリッド技术は、データセットのサイズ、不均衡率、计算リソースに基づいて选択します。

评価指标:精度、再現率、F1 スコア、AUC-ROC 曲線などの適切な評価指標を使用して、両方のクラスでモデルの性能を評価します。

交差検証:交差検証の枠内で技术を适用することで、データ漏洩を回避し、信頼性の高いモデル性能の见积もりを得ることができます。

まとめ

データ前処理は、ML モデルが高品質で適切にフォーマットされたデータについてトレーニングされていることを保証し、モデルの性能、精度、一般化能力に直接影響を与えます。欠損値、外れ値、カテゴリカル変数、クラスの不均衡などの問題に対処することで、データ前処理により、モデルがより多くの情報に基づいた正確な予測を行うことができ、実際のアプリケーションにおける意思決定が向上します。

ML の実践者は、適切なデータ前処理により、データの可能性を最大限に引き出し、ドメイン間のさまざまなアプリケーションに対して、より正確で信頼性の高い予測モデルを構築できます。

しかし、现実世界でこれを実现するには、AI や机械学习を加速し、エンタープライズ AI イニシアチブを前進させるピュア?ストレージのような柔软なデータ?ストレージ?ソリューションが必要です。

こちらの资料もご覧ください!

10/2025
FlashStack for AI: The Foundation for Enterprise AI Factories
FlashStack?? for AI from 色控传媒??, Cisco, and NVIDIA delivers an integrated, validated foundation for building and scaling Enterprise AI Factories.
ソリューションの概要
5 pages

関连リソースとイベント

动画
动画:エンタープライズ?データ?クラウドのメリット

会長兼 CEO のチャーリー?ジャンカルロが、ストレージ管理からデータ管理へのシフトこそが未来である理由を解説します。統合により、エンタープライズ IT の運用管理がいかに変わるかがわかります。

视聴する
リソース
従来のストレージは未来を支えません。

近代的なワークロードには、AI 対応の高速性、セキュリティ、拡張性が求められます。スタックの準備はできていますか?

现行のサイバー対策を评価する
Pure360 デモ
ピュア?ストレージを探索、体験、学习できます。

ピュア?ストレージの製品や機能をご紹介するオンデマンド动画/デモ付き动画をご用意しています。是非ご利用ください!

デモ动画を見る
ソート?リーダーシップ
イノベーション竞争

ストレージ技术革新の最前线に立つ业界リーダーによる最新のインサイトと展望。

详しく见る
このブラウザは现在サポートされていません。

古いブラウザには、セキュリティ?リスクが存在する場合があります。ピュア?ストレージの Web サイトをより快適にご利用いただけるよう、最新のブラウザにアップデートしてください。