본문 바로가기
DataScience/Python

Random forest parameters

by jusep 2021. 12. 15.

1. min_ samples_split 

  • 노드를 분할하기 위한 최소한의 샘플 데이수 -> 과적합을 제어하는데 사용한다.
  • Default = 2 -> 작게 설정할수록 분할노드가 많아져 과적합 가능성이 증가한다.

2 min_samples_leaf 

  • Default = 1
  • 리프노드가 되기 위해 필요한 최소한의 샘플 데이터수
  • 과적합 제어를 위해 사용한다.
  • 불균형 데이터의 경우 특정 클래스의 데이터가 극도로 작을수 있으므로 작게 설정 필요

3. max_features

  • 최적의 분할을 위해 고려할 feature의 개수
  • Default = None -> 데이터 세트의 모든 피처를 사용
  • int 형 : 피처개수
  • sqrt, auto : 전체 피처중 sqrt(feature)만큼 선정
  • log : 전체 피처중 log2(feature)만큼 선정

4. max_depth

  • 트리의 최대 깊이
  • default = None -> 완벽하게 클래스 값이 결정될때가지 분할
  • 깊이가 깊어질수록 과적합될 가능성 증가함

5. max_leaf_nodes

  • 리프노드의 최대 개수

6. n_estimators

  • 결정트리의 갯수를 지정
  • Default = 10
  • 트리의 개수를 늘리면 시간이 그만큼 증가함.

'DataScience > Python' 카테고리의 다른 글

confusion matrix 식  (2) 2022.05.17
[pandas] pd.merge()  (0) 2022.02.21
pandas pivot 참고자료  (2) 2022.02.07
Decision tree parameters  (1) 2021.12.15
[PyTorch] Dataset과 Dataloader는 왜 사용할까  (0) 2021.03.23

댓글