2021. 8. 28. 20:56ㆍ개인 프로젝트/게임 여론 분석
[T 게임의 <언더월드> 이벤트 여론 분석 - 데이터 전처리 편]
3. 데이터 전처리
1) 전처리 방향
현재까지 수집한 데이터는 4개의 SNS 사이트에서 수집한 텍스트 데이터로, 전처리를 반드시 해주어야 할 필요성이 존재한다. 여론을 분석하기 위해서는 해당 이벤트에 대한 후기, 감정 등이 담긴 게시글이 필요하나, 여론 분석에 필요없는 게시글들이 많기 때문이다.
따라서 위 프로젝트에서 데이터를 전처리할 때에는 여론 분석에 필요한 게시글만을 남기는 것을 목적으로 한다.
2) 게임 공식 홈페이지의 자유게시판
게임 공식 홈페이지의 자유게시판에서 수집한 게시글은 총 812개이다. 여론 분석에 필요한 게시글만을 남길 때, 먼저는 모든 게시글을 확인할 수 없기에 '키워드'를 이용해 제거하기로 했다.
import pandas as pd
import numpy as np
runner_data.drop(list(runner_data[runner_data['body'].str.contains("시세")].index), inplace=True)
다음과 같이 데이터프레임의 텍스트 열 내에서 포함 여부를 알 수 있는 'str.contains'를 이용해 몇몇 키워드를 포함하는 게시글을 확인 후, 제거할 게시글은 drop() 메소드를 이용해 제거해주었다. 사용한 키워드로는 '시세', '거래', '교환', '판매', '구매', '감사', '정리', '그림', '리퀘' 등이 존재했다.
키워드를 이용해 몇몇 게시글을 제거한 후에는, CSV 파일을 직접 훑어보며 여론 분석에 부적합한 게시글을 직접 제외했다. 키워드를 이용해 게시글을 제거하는 것은 어렵지 않으나, 파일을 직접 훑어보며 게시글을 제거하는 일은 시간과 노력이 필요하다. 따라서 앞으로도 위와 비슷한 프로젝트를 진행한다고 가정했을 때, 이러한 텍스트 데이터를 더 빠르고 쉽게 전처리할 수 있는 방안을 현재까지 고민하고 있다.
최종적으로 남은 게시글은 총 90개이다.
3) 트위터
트위터에서 수집한 게시글은 총 108개이다. 위와 같은 방법을 이용해, '판매', '구매', '거래', '뽑기', '업뎃' 등 다양한 키워드를 이용해 먼저는 해당 키워드를 포함하는 게시글을 제거했다. 키워드를 이용해 몇몇 게시글을 제거한 이후에는, CSV 파일을 직접 훑어보며 여론 분석에 부적합한 게시글을 제외했다.
전처리 후, 총 22개의 게시글이 남았다.
4) 페이스북
페이스북에는 총 29개의 게시글이 존재했으나, 위 29개의 게시글 모두 여론 분석에 사용하기에 부적합하다고 판단하여, 페이스북에서 수집한 게시글 데이터는 모두 제외하기로 했다.
5) 네이버 카페
네이버카페에서 수집한 게시글은 총 1063개이다. 이 역시 위와 같은 방법을 이용해, 다양한 키워드를 이용하여 먼저는 해당 키워드를 포함하는 게시글을 제거했다. 그 후에는, 파일을 직접 훑어보며 여론 분석에 부적합한 게시글을 제외했다.
전처리 후, 총 136개의 게시글이 남았다.
-여담-
텍스트 데이터 전처리를 굉장한 시간을 소요하는 것 같다. 물론 데이터가 상당히 컸다면 오로지 키워드를 이용해 해당 키워드를 포함하는 게시글을 지움으로써 전처리를 완료했을 수도 있으나, 위 데이터들은 규모가 작기 때문에 아무리 키워드를 이용해 게시글을 제거한다 해도 결국 하나하나 확인해야 하는 절차가 필요한 것 같다. 이런 프로젝트에 관심이 많기 때문에, 앞으로 이러한 게시글 데이터를 어떻게 빠른 속도로 전처리할 것인지 계속 고민해봐야겠다.
'개인 프로젝트 > 게임 여론 분석' 카테고리의 다른 글
[파이썬] T 게임의 <언더월드> 이벤트 여론 분석 - 감성분석 편 (0) | 2021.09.03 |
---|---|
[파이썬] T 게임의 <언더월드> 이벤트 여론 분석 - 데이터 시각화 편 (2) | 2021.08.29 |
[파이썬] T 게임의 <언더월드> 이벤트 여론 분석 - 데이터 수집 편 (풀버전) (0) | 2021.07.23 |
[파이썬] T 게임의 <언더월드> 이벤트 여론 분석 - 데이터 수집 편 (0) | 2021.07.23 |
[파이썬] T 게임의 <언더월드> 이벤트 여론 분석 - 프로젝트 소개 편 (1) | 2021.06.26 |