이번주 스터디 목표, 스터디 범위
다양한 분류 알고리즘 - 로지스틱 회귀
- 럭키백의 확률
- 로지스틱 회귀
다양한 분류 알고리즘 - 확률적 경사 하강법
- 점진적인 학습
- SGDClassifier
- 에포크와 과대/과소적합
새롭게 배운 것
로지스틱 회귀
- 로지스틱 회귀는 선형 방정식을 사용한 분류 알고리즘
선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하요 클래스 확률을 출력할 수 있음 - 다중 분류는 타깃 클래스가 2개 이상인 분류 문제
로지스틱 회귀는 다중 분류를 위해 소프트맥스 함수를 사용하여 클래스를 예측함 - 시그모이드 함수는 선형 방정식의 출력을 0과 1사이의 값으로 압축하며 이진 분류를 위해 사용함
- 소프트맥스 함수는 다중 분류에서 여러 선형 방정식의 출력 결과를 정규화하여 합이 1이 되도록 만듦
확률적 경사 하강법
- 확률적 경사 하강법은 훈련 세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘
+) 미니배치 경사 하강법 : 샘플을 여러 개씩 사용
+) 배치 경사 하강법 : 한 번에 전체 샘플 사용 - 손실 함수는 어떤 문제에서 머신러닝 알고리즘이 얼마나 엉터리인지 측정하는 기준으로,
확률적 경사 하강법이 최적화할 대상이다. 따라서 손실 함수의 값이 작을수록 좋음
대부분의 문제에는 잘 맞는 손실 함수가 이미 정의되어 있음
- 이진 분류에서는 로지스틱회귀(=이진 크로스엔트로피) 손실함수를 사용
- 다중 분류에는 크로스엔트로피 손실 함수를 사용
- 회귀 문제에는 평균 제곱 오차 손실 함수를 사용 - 에포크는 확률적 경사 하강법에서 전체 샘플을 모두 사용하는 한 번 반복을 의미
일반적으로 경사 하강법 알고리즘은 수십에서 수백 번의 에포크를 반복함
확률적 경사 하강법을 사용한 모델은 에포크 횟수에 따라 과소적합이나 과대적합이 될 수 있음
- 에포크 횟수가 적으면 모델이 훈련 세트를 덜 학습하게 되어, 훈련 세트와 테스트 세트에 맞지 않는 과소적합될 가능성이 높음
- 에포크 횟수가 충분히 많으면 훈련 세트를 완전히 학습하여, 훈련 세트에 아주 잘 맞는 모델이 만들어짐
- 에포크 횟수가 너무 많으면 모델이 훈련 세트에 너무 잘 맞아 테스트 세트에서 오히려 점수가 나빠져 과대적합될 가능성이 높음
'Community > GDSC' 카테고리의 다른 글
[220530] 10min tech seminar - Cloud Native (0) | 2022.05.30 |
---|---|
[220524/220529] Solution Challenge 14주차 (0) | 2022.05.29 |
[220518] Solution Challenge 13주차 (0) | 2022.05.22 |
[220516-220522] 2022 GDSC ML Start Study - 2주차 (0) | 2022.05.17 |
[220514] 프로그래밍 경진 대회 (SMUPC) (0) | 2022.05.14 |