분석에 들어가기 앞서
- 데이터 분석 큰 그림 이해하기
데이터 분석 전과정으로는 데이터 수집 - 데이터 구조화 - 데이터 전처리 - 데이터 분석
- 아나콘다 설치 (나의 경우 구글 코랩으로 진행)
solux practice 폴더를 만든 후 데이터셋을 다운로드 하여 폴더에 넣어주기
판다스 라이브러리로 데이터 전처리하기
- raw data 가져오기
필요 데이터인 국가명, 국기, 날짜별 확진자 수에 맞게 데이터를 가공하기 위해 데이터를 불러옴
컬럼명(Province_State, Province/State)이 다르므로 컬럼명(Province_State)을 통일하는 과정이 필요할 것임을 알 수 있음
- 데이터 프레임 데이터 변경하기
특정 컬럼(주, 나라, 확진자)만 선택해서 또다른 데이터 프레임을 만들고 국가 정보와 합친 후 결측치를 제거
- 컬럼값 변경하기
국가명이 들어있는 파일과 확진자가 들어있는 파일이 일치되어야 데이터를 합치고 분석까지 할 수 있으므로
예) Mainland China가 아닌 China가 필요하므로 Country_Region 값을 일관되게 하기 위해 컬럼값을 China로 변경
그 후 파일명을 날짜(01-23-2020.csv)에서 문자열(1/23/2020)로 바꿔주고
확진자수 컬럼명을 날짜 문자열(Confirmed →1/23/2020) 로 변경
- 중복 데이터 합치기
주로 나누어져 있었던 데이터를 국가명이 중복되는 데이터로 합치기
예) Province_State가 Anhui, Beijing, Chongqing인 주들의 Country_Region은 China
- 지금까지의 과정을 모두 한데 모아서, 함수로 만들기
특정 날짜만을 가지고 전처리하는 것이 아닌, 파일에 있는 모든 날짜로 가져와서 전처리하도록 한 후
국가별로 합치기를 위한 위의 모든 과정을 함수로 만든 후, 테스트 해보기
- 최종 코드
최종 코드로 실행을 하여 전체 데이터프레임을 만든 후, 정수로 바꾸고 csv 파일로 만들어주기
- 참조 : 특정 폴더의 파일 리스트 확인하기
최종 전처리 데이터로 그래프 만들기
- 국가명과 iso2 매칭 테이블 읽기
국가별 국기 이미지를 얻어 해당 국가의 이미지를 알 수 있도록 하기 위해 날짜별 국가별 확진자수와 국가별 iso2 값을 병합
- 국가 링크를 기존 컬럼 기반해서 만들어, 데이터프레임에 붙이기
국가별 이미지에 대한 링크를 만들어 iso2 필드에 국가별 이미지로 덮은 후, 컬럼 위치 변경
- flourish로 데이터 시각화하기
Bar chart race를 클릭한 후 우리가 만든 최종 데이터인 fina_covid_data_for_graph를 업로드하고
Label을 A에서 B로 바꾸어 숫자 대신 나라국가명으로 라벨을 변경하고 윗 부분을 없애기 위해 레전드를 Disabled로 변경
마지막으로 동그란 국가 이미지를 네모로 변경하기 위해 Images의 Shape를 Rectangle로 변경
그 후 Export & publish로 사이트를 생성
'Community > SOLUX' 카테고리의 다른 글
[220707] 2022 1학기 프로젝트 - 6차 회의 (0) | 2022.07.08 |
---|---|
[220702] 2022 1학기 프로젝트 - 5차 회의 (0) | 2022.07.02 |
[220520] 2022 1학기 프로젝트 - 프로젝트 기획 발표회 (0) | 2022.05.24 |
[220513] 2022 1학기 프로젝트 - 4차 회의 (0) | 2022.05.23 |
[220506-220513] 2차 세미나 - 타이타닉 생존자 분석하기 (0) | 2022.05.09 |