본문 바로가기
DataScience/Python

[pandas] pd.merge()

by jusep 2022. 2. 21.

pd.merge는 데이터프레임을 합쳐준다. SQL에서 join과 같은 역활

 

- left : 왼쪽 데이터프레임

- right : 오른쪽 데이터프레임

- on : (두 데이터프레임의 기준열 이름이 같을 때) 기준열

- how : 조인 방식 {'left', 'right', 'inner', 'outer'} default = 'inner'

 

1. how = JOIN

  • Left join : 왼쪽 데이터프레임을 기준으로 조인한다. 오른쪽 데이터프레임에 없는 값은 NaN으로 리턴한다.

 

  • Right join : 오른쪽 데이터프레임을 기준으로 조인한다. 왼쪽 데이터프레임에 없는 값을 NaN으로 리턴한다.

  • Inner join : 교집합을 의미한다. 양쪽에 공통으로 있는 값을 리턴한다.

  • Outer join : 모든 값이 나타나도록 한다. 왼쪽 데이터 프레임과 오른쪽 데이터프레임에 없는 값들은 NaN으로 나타난다.

 

2. on = '기준열'

  • 공통이 되는 기준 열이 여러 개일때

  • 두 데이터프레임의 열 이름이 다를 때

양쪽 데이터프레임에서 merge의 기준이 되는 열의 이름이 같다면 on='기준열'로 지정해주면 된다. 하지만 양쪽 데이터프레임에서 기준이 되는 열의 이름이 다르다면 각각 left_on='왼쪽 열', right_on='오른쪽 열'로 지정하면 된다.

 

 

 

Reference

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

- https://mizykk.tistory.com/82

 

'DataScience > Python' 카테고리의 다른 글

warning ignore  (0) 2023.02.13
confusion matrix 식  (0) 2022.05.17
pandas pivot 참고자료  (0) 2022.02.07
Random forest parameters  (0) 2021.12.15
Decision tree parameters  (1) 2021.12.15

댓글