문서 임베딩
- 임베딩이 잘 된 상황에서 단어 벡터들의 평균만으로 텍스트 분류를 수행할 수 있음
데이터 로드와 전처리
- 1) 리뷰가 긍정인 경우 1, 부정인 경우 0으로 구성된 IMDB 영화 리뷰 데이터를 다운로드
2) 첫 번째 리뷰와 첫 번째 리뷰의 레이블을 출력함
이 데이터는 이미 단어 집합을 만들고, 각 단어를 정수로 인코딩하는 전처리가 모두 진행되어 있음을 알 수 있음
3) 각 리뷰의 평균 길이를 계산한 후 평균보다는 큰 수치인 400으로 패딩함
모델 설계하기
- 1) Embedding() 다음에 입력으로 들어오는 모든 벡터들의 평균을 구하는 GlobalAveragePooling1D()를 추가하여
해당 문장의 모든 단어 벡터들의 평균 벡터를 구하도록 함
2) 이진 분류를 수행해야 하므로 시그모이드 함수를 활성화 함수로 사용하는 뉴런 1개를 배치함
3) 훈련 데이터의 20%를 검증 데이터로 사용하고 총 10 에포크 학습
4) 학습이 끝난 후 테스트 데이터에 대해서 평가함
별다른 신경망을 추가하지 않고도 단어 벡터의 평균만으로 준수한 정확도를 얻어낼 수 있음
코드
GitHub - GaGa-Kim/ML_Study: 머신러닝 스터디 ⚙
머신러닝 스터디 ⚙. Contribute to GaGa-Kim/ML_Study development by creating an account on GitHub.
github.com
'ML > 딥 러닝을 이용한 자연어 처리' 카테고리의 다른 글
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 텍스트 분류 (0) | 2022.12.21 |
---|---|
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 독투벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 엘모 (0) | 2022.12.16 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 사전 훈련된 워드 임베딩 (0) | 2022.12.16 |
문서 임베딩
- 임베딩이 잘 된 상황에서 단어 벡터들의 평균만으로 텍스트 분류를 수행할 수 있음
데이터 로드와 전처리
- 1) 리뷰가 긍정인 경우 1, 부정인 경우 0으로 구성된 IMDB 영화 리뷰 데이터를 다운로드
2) 첫 번째 리뷰와 첫 번째 리뷰의 레이블을 출력함
이 데이터는 이미 단어 집합을 만들고, 각 단어를 정수로 인코딩하는 전처리가 모두 진행되어 있음을 알 수 있음
3) 각 리뷰의 평균 길이를 계산한 후 평균보다는 큰 수치인 400으로 패딩함
모델 설계하기
- 1) Embedding() 다음에 입력으로 들어오는 모든 벡터들의 평균을 구하는 GlobalAveragePooling1D()를 추가하여
해당 문장의 모든 단어 벡터들의 평균 벡터를 구하도록 함
2) 이진 분류를 수행해야 하므로 시그모이드 함수를 활성화 함수로 사용하는 뉴런 1개를 배치함
3) 훈련 데이터의 20%를 검증 데이터로 사용하고 총 10 에포크 학습
4) 학습이 끝난 후 테스트 데이터에 대해서 평가함
별다른 신경망을 추가하지 않고도 단어 벡터의 평균만으로 준수한 정확도를 얻어낼 수 있음
코드
GitHub - GaGa-Kim/ML_Study: 머신러닝 스터디 ⚙
머신러닝 스터디 ⚙. Contribute to GaGa-Kim/ML_Study development by creating an account on GitHub.
github.com
'ML > 딥 러닝을 이용한 자연어 처리' 카테고리의 다른 글
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 텍스트 분류 (0) | 2022.12.21 |
---|---|
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 독투벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 엘모 (0) | 2022.12.16 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 사전 훈련된 워드 임베딩 (0) | 2022.12.16 |