[파이썬] 트위터 게시글 스크래핑 모듈 제작하기
2021. 10. 8. 08:17ㆍ개인 프로젝트/기타
그동안은 주로 코드 전체를 복사+붙여넣기 해서 썼었는데, 그렇게 하니 비효율적이라는 생각이 들어 아예 트위터 스크래핑 전용 모듈을 따로 만들었습니다.
어느 곳에서 프로젝트 파일을 생성하든 작동될 수 있도록 했습니다.
위 4줄의 코드를 입력하면 바로 트위터 게시글 스크래핑 결과가 해당 작업 디렉토리에 CSV 파일로 저장이 되게끔 설정했습니다.
참고로 검은색으로 가린 부분은 제 아이디와 비밀번호입니다.
아래 실행 예시를 영상으로 찍었습니다.
중간에 로그인 하는 장면은 제거했습니다(제 아이디가 보이더군요...ㅎ).
닉네임 등까지는 수집하면 문제가 생길 것 같아, 지금은 트위터 게시글 + 게시글 작성 날짜만 수집해보았습니다.
물론 전문가분들이 만드신 크롤링/스크래핑 프로그램보다는 성능이 떨어집니다. 텍스트 전처리가 아예 되지 않는다는 단점도 있고, 실제 크롤링을 할 수 있는 코드를 작성한 것이 아니라 파이썬의 Selenium 라이브러리를 사용했기에 트위터 페이지 구조가 바뀌면 이에 따라 모듈 코드도 같이 수정해야 합니다.
시간이 되면 일반 게시글과 답글도 분류해서, 답글은 거르는 기능도 만들어보고 싶습니다.
워낙 구조가 유사해서 가능할지 모르겠지만요ㅎ...
'개인 프로젝트 > 기타' 카테고리의 다른 글
[파이썬] 페이스북 게시글 스크래핑 모듈 제작하기 (0) | 2021.10.10 |
---|