Doc2Vec
- 단어를 임베딩하는 워드 임베딩하는 Word2Vec과 달리
Doc2Vec은 Word2Vec을 변형하여 문서의 임베딩을 얻을 수 있도록 하는 알고리즘 - Word2Vec과 마찬가지로 파이썬 머신 러닝 패키지인 Gensim을 통해 사용 가능
공시 사업 보고서 로드 및 전처리
- 1) 전자공시시스템에 올라와있는 각 회사의 사업 보고서를 다운로드
2) 데이터를 데이터프레임으로 로드하고 결측값을 가진 샘플을 제거
종목 번호에 해당하는 code 열, 해당 종목이 KOSPI인지 KOSDAQ인지를 알려주는 market 열,
회사명에 해당하는 name 열, 학습할 사업 보고서인 business 열이 존재
3) business 열에 대해서 형태소 분석을 수행하고 Doc2Vec 학습을 위해서 필요한 형식으로 데이터를 변환
Doc2Vec 학습을 위해서는 해당 문서의 '제목'과 단어 토큰화가 된 상태의 해당 문서의 '본문' 두 가지가 필요함
4) 첫 번째 문서의 전처리 결과를 확인
TaggedDocument 안 words에는 토큰화된 사업 보고서가 저장되고 tags에는 해당 문서의 제목이 저장되어있음을 확인
Doc2Vec 학습 및 테스트
- 1) Doc2Vec을 사용해 모델을 학습
모델을 학습하면 dart.do2vec, dart.doc2vec.trainables.syn1neg.npy, dart.doc2vec.wv.vectors.npy 3개의 파일 생성
2) 회사 '동화약품'과 사업 보고서가 유사한 회사들을 찾아 테스트
3) 이외에도 '하이트진로', 'LG이노텍', '메리츠화재', '카카오'와 사업 보고서가 유사한 회사들을 찾아볼 수 있음
코드
GitHub - GaGa-Kim/ML_Study: 머신러닝 스터디 ⚙
머신러닝 스터디 ⚙. Contribute to GaGa-Kim/ML_Study development by creating an account on GitHub.
github.com
'ML > 딥 러닝을 이용한 자연어 처리' 카테고리의 다른 글
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 케라스를 이용한 텍스트 분류 (0) | 2022.12.21 |
---|---|
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 텍스트 분류 (0) | 2022.12.21 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 임베딩 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 엘모 (0) | 2022.12.16 |
Doc2Vec
- 단어를 임베딩하는 워드 임베딩하는 Word2Vec과 달리
Doc2Vec은 Word2Vec을 변형하여 문서의 임베딩을 얻을 수 있도록 하는 알고리즘 - Word2Vec과 마찬가지로 파이썬 머신 러닝 패키지인 Gensim을 통해 사용 가능
공시 사업 보고서 로드 및 전처리
- 1) 전자공시시스템에 올라와있는 각 회사의 사업 보고서를 다운로드
2) 데이터를 데이터프레임으로 로드하고 결측값을 가진 샘플을 제거
종목 번호에 해당하는 code 열, 해당 종목이 KOSPI인지 KOSDAQ인지를 알려주는 market 열,
회사명에 해당하는 name 열, 학습할 사업 보고서인 business 열이 존재
3) business 열에 대해서 형태소 분석을 수행하고 Doc2Vec 학습을 위해서 필요한 형식으로 데이터를 변환
Doc2Vec 학습을 위해서는 해당 문서의 '제목'과 단어 토큰화가 된 상태의 해당 문서의 '본문' 두 가지가 필요함
4) 첫 번째 문서의 전처리 결과를 확인
TaggedDocument 안 words에는 토큰화된 사업 보고서가 저장되고 tags에는 해당 문서의 제목이 저장되어있음을 확인
Doc2Vec 학습 및 테스트
- 1) Doc2Vec을 사용해 모델을 학습
모델을 학습하면 dart.do2vec, dart.doc2vec.trainables.syn1neg.npy, dart.doc2vec.wv.vectors.npy 3개의 파일 생성
2) 회사 '동화약품'과 사업 보고서가 유사한 회사들을 찾아 테스트
3) 이외에도 '하이트진로', 'LG이노텍', '메리츠화재', '카카오'와 사업 보고서가 유사한 회사들을 찾아볼 수 있음
코드
GitHub - GaGa-Kim/ML_Study: 머신러닝 스터디 ⚙
머신러닝 스터디 ⚙. Contribute to GaGa-Kim/ML_Study development by creating an account on GitHub.
github.com
'ML > 딥 러닝을 이용한 자연어 처리' 카테고리의 다른 글
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 케라스를 이용한 텍스트 분류 (0) | 2022.12.21 |
---|---|
[딥 러닝을 이용한 자연어 처리 입문] 10. RNN을 이용한 텍스트 분류 - 텍스트 분류 (0) | 2022.12.21 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 임베딩 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 문서 벡터 (0) | 2022.12.20 |
[딥 러닝을 이용한 자연어 처리 입문] 09. 워드 임베딩 - 엘모 (0) | 2022.12.16 |