영화 데이터 읽어오기 무비렌즈에서 제공하는 영화 평가 데이터 다운로드 다운로드 받은 데이터 파일을 구글 클라우드의 ml-latest-small 폴더에 저장 필요한 패키지 설치 데이터 읽어오기 데이터 저장하기 영화 메타 데이터 분석 개봉연도 분석 개봉연도 데이터 정제하기 결측값 핸들링하기 결측치 채워주기 데이터에 가장 많이 출현하는 개봉연도 찾기 개봉연도 시각화 시각화 패키지 설치 개봉연도에 따른 영화 갯수 시각화 장르 분석 영화에 따른 장르 목록 분리 플랫 리스트 생성 중복되는 장르 제거 장르 갯수 확인 텍스트 데이터를 숫자형으로 변환 장르의 존재 여부 참거짓 설정 판다스 함수로 대신하여 장르 데이터 숫자형으로 변환 판다스 데이터프레임 저장 장르 간 관계 찾기와 시각화 장르 간의 상관관계 분석 상관관계 ..
추천 시스템 주변에서 자주 접하는 추천 시스템으로는 넷플릭스, 유튜브, 쿠팡이 존재 → 이들은 개개인에게 맞는 특정 영상, 상품 등만 큐레이팅 수 만 편의 영화, 수 억 편의 영상, 수십 만 개의 상품 등 정보의 양이 폭증함에 따라 정보 소비자가 원하는 정보를 얻는데 시간과 노력이 많이 필요하므로 정보 소비자에게 원하는 정보를 쉽게 얻도록 도와주는 분야를 정보 필터링이라고 함 정보 필터링의 대표적인 분야로는 검색과 추천 시스템이 존재하며 그 중 추천 시스템은 정보 소비자가 원하는 정보를 찾아 소비자에게 추천하는 시스템을 말함 검색은 소비자가 관심사를 표현하는 검색이라는 행위를 해야함 (active) 반면 추천은 특별한 행위 없이도 정보 전달이 가능함 (passive) 추천 시스템 분류 시나리오에 따른 분..
YOLOv3 모델 (TensorFlow) YOLOv3 모델 다운로드 기존의 DarkNet으로 학습된 모델 파일을 Keras에서 사용할 수 있는 Tensorflow 모델 파일로 변환 객체 탐지를 위해 사용할 Detector 정의 예제 데이터를 Detector에 입력하여 객체 인식 수행 객체 인식 결과 확인 YOLOv3 모델 (PyTorch) YOLOv3 모델 다운로드 객체 탐지를 위해 YOLOv3를 받아서 사용할 Detector인 detect.py를 사용해 모든 입력 데이터에 대해 객체 인식 수행 저장된 객체 인식 결과 확인 YOLOv5 모델 (PyTorch) YOLOv3 모델 다운로드 객체 탐지를 위해 YOLOv5를 받아서 사용할 Detector인 detect.py를 사용해 모든 입력 데이터에 대해 객체..
YOLO (You Only Look Once) 가장 빠른 객체 검출 알고리즘 중 하나 256x256 사이즈의 이미지 파이썬, 텐서플로 기반 프레임워크가 아닌 C++로 구현된 코드 기준 GPU 사용 시, 초당 170 프레임 작은 크기의 물체를 탐지하는데는 어려움 YOLO 아키텍처 백본 모델 기반 특징 추출기라고도 불림 YOLO는 자체 맞춤 아키텍쳐 사용하며 3개의 스케일(작은 객체, 중간 객체, 큰 객체)을 학습 어떤 특징 추출기 아키텍쳐를 사용했는지에 따라 성능 달라짐 마지막 계층은 크기가 w×h×D인 특징 볼륨 출력 w×h는 그리드의 크기이고, D는 특징 볼륨 깊이 YOLO 계층 출력 마지막 계층 출력은 w×h×M 행렬 M = B × (C + 5) B : 그리드 셀당 경계 상자 개수 C : 클래스 개수..
객체 탐지란? 한 이미지에서 객체와 그 경계 상자를 탐지 객체 탐지 알고리즘은 일반적으로 이미지를 입력으로 받고, 경계 상자와 객체 클래스 리스트를 출력 경계 상자에 대해 그에 대응하는 예측 클래스와 클래스의 신뢰도를 출력 객체 탐지가 어느 곳에 주로 활용될까? 자율 주행 자동차에서 다른 자동차와 보행자를 찾을 때 의료 분야에서 방사선 사진을 사용해 종양이나 위험한 조직을 찾을 때 제조업에서 조립 로봇이 제품을 조립하거나 수리할 때 보안 산업에서 위협을 탐지하거나 사람 수를 셀 때 Bounding Box 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형 IOU (Intersection Over Union) 실측값과 모델이 예측한 값이 얼마나 겹치는지를 나타내는 지표 IOU가 높을수록 잘 예측한 ..
개체명 인식이란? 이름을 가진 개체를 인식하는 것을 뜻하며 어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형인지를 인식하는 것을 뜻함 즉, 개체명 인식을 사용하면 코퍼스로부터 어떤 단어가 사람, 장소, 조직 등을 의미하는 단어인지 찾을 수 있음 개체명 인식은 챗봇 등에서 필요한 주요 전처리 작업 예) '유정이는 2018년에 골드만삭스에 입사했다.' 유정 : 사람, 2018 : 시간, 골드만삭스 : 조직 NLTK를 이용한 개체명 인식 NLTK에서는 개체명 인식기인 NER chunker를 지원하고 있으므로 별도 개체명 인식기를 구현할 필요없이 NLTK를 사용해서 개체명 인식을 수행할 수 있음 개체명 인식기를 통해 개체명을 태깅하기 위해서는 품사 태깅이 수행되어야 함 BIO 표현 개체명 인식에서 코퍼스로..
태깅 작업 각 단어가 어떤 유형에 속해있는지를 알아내는 태깅 작업 단어 태깅 작업의 대표적인 두 가지로는 각 단어의 유형이 사람, 장소, 단체 등 어떤 유형인지 알아내는 개체명 인식과 각 단어의 품사가 명사, 동사, 형용사 인지를 알아내는 품사 태깅이 존재 개체명 인식기와 품사 태거는 RNN의 다 대 다 작업이면서 앞, 뒤 시점의 입력을 모두 참고하는 양방향 RNN을 사용함 훈련 데이터에 대한 이해 태깅 작업은 텍스트 분류 작업과 동일하게 지도 학습에 속함 태깅을 해야하는 단어 데이터를 X, 레이블에 해당하는 태깅 정보 데이터를 y라고 할 때, X와 y 데이터의 쌍은 병렬 구조를 가지게 되며 각 데이터의 길이는 같게 됨 예1) X_train[3]의 'The'와 y_train[3]의 'O'는 하나의 쌍 예..