ml

ダミー変数でカテゴリデータの変換 pandasでget_dummies 

機械学習において避けては通れないダミー変数について解説します。

pandasのget_dummiesという関数を使えば簡単にできます。

ダミー変数とは何かについても解説していきます。

 

機械学習で聞くダミー変数とは

質的な変数を量的な変数に置き換えることを言います。

例えば、性別という変数があって、「男」と「女」という値があったとします。

gender

 

我々人間からすれば、「男」と「女」で明確に意味を持っています。

しかし、コンピュータは理解できないため、コンピュータが理解できる「0」と「1」に置き換えて上げる必要があります。

質的なデータを量的なデータに置き換えることがダミー変数です。

 

実務でも利用した機械学習のダミー変数の使い方

実際、ダミー変数を使ってみます!

手で変換することはできますが、pandasを使えば1行で済みます。

 

import pandas as pd
pd.get_dummies(process_df[['gender']])

 

先ほどの質的なデータをダミー変数化すると以下のような値になります。

列が2つになり、manかwomanかを0,1で判定するようになりました。

 

gender_man gender_woman
1 0
1 0
0 1
0 1
1  0

 

0,1に変えてあげることでコンピュータが理解できる形になりました。

ダミー変数は、機械学習では避けて通れないので身につけておきましょう!

ABOUT ME
アバター
ロッピー
コンサルタントから2018年にエンジニアに転向。年収400万円のサラリーマンエンジニアから、半年で月収100万円を稼ぐエンジニアになった。 Python、Golangなど単価の高い言語を得意とする。