이번주 스터디 목표, 스터디 범위
비지도 학습 - 군집 알고리즘
- 타킷을 모르는 비지도 학습
- 과일 사진 데이터 준비하기
- 픽셀값 분석하기
- 평균값과 가까운 사진 고르기
비지도 학습 - k-평균
- k-평균 알고리즘 소개
- kMeans 클래스
- 클러스터 중심
- 최적의 k 찾기
비지도 학습 - 주성분 분석
- 차원과 차원 축소
- 주성분 분석 소개
- PCA 클래스
- 원본 데이터 재구성
- 설명된 분산
- 다른 알고리즘과 함께 사용하기
새롭게 배운 것
군집 알고리즘
- 비지도 학습은 머신러닝의 한 종류로 훈련 데이터에 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습
대표적인 비지도 학습 작업으로는 군집, 차원 축소 등이 있음 - 히스토그램은 구간별로 값이 발생한 빈도를 그래프로 표시한 것
보통 x축이 값의 구간(계급)이고 y축은 발생 빈도(도수) - 군집은 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업
군집 알고리즘으로 모은 샘플 그룹을 클러스터라고 함
k-평균
- k-평균은 처음에 랜덤하게 클러스터 중심을 정하고, 점차 가장 가까운 샘플의 중심으로 클러스터의 중심을 이동하고
다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘 - 클러스터 중심은 k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값으로 센트로이드(centroid)라고도 부르며,
가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용할 수 있음 - 엘보우 방법은 최적의 클러스터 개수를 정하는 방법 중 하나. 이너셔는 클러스터 중심과 샘플 사이 거리의 제곱 합을 뜻함
클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 클러스터 개수 k가 될 수 있음
이 그래프 모양을 따서 엘보우 방법이라 부름
주성분 분석
- 차원 축소는 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류
차원 축소는 저장 공간을 줄이고 시각화하기 쉬우며, 다른 알고리즘의 성능을 높일 수도 있음 - 주성분 분석은 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향인 주성분을 찾는 방법
원본 데이터를 주성분에 투영하여 새로운 특성을 만들 수 있으며 일반적으로 주성분은 원본 데이터에 있는 특성 개수보다 작음 - 설명된 분산은 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것
사이킷런의 PCA 클래스는 주성분 개수나 설명된 분산의 비율을 지정하여 주성분 분석을 수행할 수 있음
'Community > GDSC' 카테고리의 다른 글
[220704-220710] 2022 GDSC ML Start Study - 9주차 (0) | 2022.07.07 |
---|---|
[220704] 2022 Solution Challenge Top 50 Demo Day (0) | 2022.07.04 |
[220118-220624] Solution Challenge & Solution Challenge Top 50 (0) | 2022.06.24 |
[220601/220604] Solution Challenge 15주차 (0) | 2022.06.01 |
[220530-220612] 2022 GDSC ML Start Study - 5주차 (0) | 2022.06.01 |