タグ: join

  • python で csv を結合する

    pandas を使う事で容易に結合できる。

    例えば以下のような csv ファイルがあったとする

    a.csv

    NO,CODE
    1,987
    2,111
    3,222
    

    b.csv

    ID1,ID2,CODE
    1,111111111111111111,111111111111111111
    2,222222222222222222,222222222222222222
    

    pandas を使うことで容易に結合する事ができる

    import pandas as pd
    
    # まず2つのCSVを読み込む
    a = pd.read_csv('./a.csv', encoding='utf-8')
    b = pd.read_csv('./b.csv', encoding='utf-8')
    
    # b の ID1 を NO に置換する
    b_ = b.rename(columns={'ID1': 'NO'})
    
    # a とb 2つのCSVを結合する。結合する際のキーは NO とする
    df_merged = pd.merge(a, b_, on='NO')
    
    # 確認
    print(df_merged)
    
    # CSV ファイルとして出力する
    df_merged.to_csv("merged.csv", index=False)
    

    結果

     % python3 main.py
       NO  CODE_x                 ID2              CODE_y
    0   1     987  111111111111111111  111111111111111111
    1   2     111  222222222222222222  222222222222222222
    

    今回、結合した csv ファイルそれぞれに CODE というカラムがそれぞれに存在している。

    pd.merge の第一引数になったファイルは _x という suffix がつき、

    第二引数になったファイルには _y という suffix が付く。