スポンサーリンク
機械学習において避けては通れないダミー変数について解説します。
pandasのget_dummiesという関数を使えば簡単にできます。
ダミー変数とは何かについても解説していきます。
スポンサーリンク
機械学習で聞くダミー変数とは
質的な変数を量的な変数に置き換えることを言います。
例えば、性別という変数があって、「男」と「女」という値があったとします。
gender |
男 |
男 |
女 |
女 |
男 |
我々人間からすれば、「男」と「女」で明確に意味を持っています。
しかし、コンピュータは理解できないため、コンピュータが理解できる「0」と「1」に置き換えて上げる必要があります。
質的なデータを量的なデータに置き換えることがダミー変数です。
実務でも利用した機械学習のダミー変数の使い方
実際、ダミー変数を使ってみます!
手で変換することはできますが、pandasを使えば1行で済みます。
import pandas as pd pd.get_dummies(process_df[['gender']])
先ほどの質的なデータをダミー変数化すると以下のような値になります。
列が2つになり、manかwomanかを0,1で判定するようになりました。
gender_man | gender_woman |
1 | 0 |
1 | 0 |
0 | 1 |
0 | 1 |
1 | 0 |
0,1に変えてあげることでコンピュータが理解できる形になりました。
ダミー変数は、機械学習では避けて通れないので身につけておきましょう!
ABOUT ME
スポンサーリンク
スポンサーリンク