python

実務でよく使うpandasを用いたデータ操作

pandasの概要

pandasは、機械学習において欠かせないライブラリーの一つです。
何と言ってもデータ操作がとーっても強力です。

pandasを覚えれば、複雑SQLを書けなくてもとりあえずガバッとデータを取得して作業っていうこともできます。

機械学習の現場においては、pandasが扱えることは最低限のレベルなので習得しておきましょう!

よく使うpandasによるデータ操作

dataframeをマージする

pd.maerge()

groupbyした結果を取得する

pd.groupby().sum()
  • indexを付与する
  • マージする時によく遭遇するエラーがindexがないこと。
MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False
pd.reset_index()

欠損値を調べる

df.isnull().sum()

列データを条件によって入れ替え

df.loc[process_df['age_from'] == 0, 'age_from'] = 20

クリップボードの値をpandasで読み込む

import pandas as pd
pd.read_clipboard(header=None)

データフレームをリストに変換

import pandas as pd
import numpy as np

res = pd.read_clipboard(header=None)
list=np.ravel(res.values.tolist())
ABOUT ME
アバター
ロッピー
コンサルタントから2018年にエンジニアに転向。年収400万円のサラリーマンエンジニアから、半年で月収100万円を稼ぐエンジニアになった。 Python、Golangなど単価の高い言語を得意とする。