이번주 스터디 목표, 스터디 범위
트리 알고리즘 - 결정 트리
- 로지스틱 회귀로 와인 분류하기
- 결정 트리
트리 알고리즘 - 교차 검증과 그리드 서치
- 검증 세트
- 교차 검증
- 하이퍼파라미터 튜닝
트리 알고리즘 - 트리의 앙상블
- 정형 데이터와 비정형 데이터
- 랜덤 포레스트
- 엑스트라 트리
- 그레이디언트 부스팅
- 히스토그램 기반 그레이디언트 부스팅
새롭게 배운 것
결정 트리
- 결정 트리는 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘
- 불순도는 결정 트리가 최적의 질문을 찾기 위한 기준
사이킷런은 지니 불순도와 엔트로피 불순도를 제공 - 정보 이득은 부모 노드와 자식 노드의 불순도 차이를 나타내며
결정 트리 알고리즘은 정보 이득이 최대화되도록 학습함 - 가지치기는 결정 트리의 성장을 제한하여 훈련 세트의 과대적합을 막는 방법으로
사이킷런의 결정 트리 알고리즘은 여러 가지 가지치기 매개변수를 제공 - 특정 중요도는 결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정보를 나타내는 값
교차 검증과 그리드 서치
- 검증 세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때,
테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 데이터 세트 - 교차 검증은 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고
나머지 폴드에서는 모델을 훈련하여 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법 - 그리드 서치는 하이퍼파라미터 탐색을 자동화해주는 도구이며
탐색할 매개변수를 나열하면 교차 검증을 수행하여 가장 좋은 검증 점수의 매개변수 조합을 선택
마지막으로 이 매개변수 조합으로 최종 모델을 훈련 - 랜덤 서치는 연속된 매개변수 값을 탐색할 때 유용하며
탐색할 값을 직접 나열하는 것이 아니고 탐색 값을 샘플링할 수 있는 확률 분포 객체를 전달함
트리의 앙상블
- 앙상블 학습은 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘
- 랜덤 포레스트는 대표적인 결정 트리 기반의 앙상블 학습 방법으로
부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징 - 엑스트라 트리는 랜덤 포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만
부트스트랩 샘플을 사용하지 않으며 랜덤하게 노드를 분할해 과대적합을 감소시킴 - 그레이디언트 부스팅은 결정 트리를 연속적으로 추가하여 손실 함수를 최소화하는 방법이므로
훈련 속도가 조금 느리지만 더 좋은 성능을 기대할 수 있음 - 히스토그램 기반 그레이디언트 부스팅은 그레이디언트 부스팅의 속도를 개선한 것으로
안정적인 결과와 높은 성능으로 매우 인기가 높음
'Community > GDSC' 카테고리의 다른 글
[220118-220624] Solution Challenge & Solution Challenge Top 50 (0) | 2022.06.24 |
---|---|
[220601/220604] Solution Challenge 15주차 (0) | 2022.06.01 |
[220530] 10min tech seminar - Cloud Native (0) | 2022.05.30 |
[220524/220529] Solution Challenge 14주차 (0) | 2022.05.29 |
[220523-220529] 2022 GDSC ML Start Study - 3주차 (0) | 2022.05.29 |