개인 프로젝트/기타

[파이썬] 페이스북 게시글 스크래핑 모듈 제작하기

Silver Shoes 2021. 10. 10. 12:41

저번에 만들었던 트위터 게시글 스크래핑 모듈에 이어, 이번에는 페이스북 게시글 전용 스크래핑 모듈을 만들었습니다.

제 컴퓨터 상에서라면 어느 곳에서 프로젝트 파일을 생성하든 작동될 수 있도록 만들었습니다.

위 4줄의 코드를 입력하면 바로 페이스북 게시글 스크래핑 결과가 해당 작업 디렉토리에 CSV 파일로 저장이 되게끔 설정했습니다.

이번에도 검은색으로 가린 부분은 제 아이디와 비밀번호입니다.

아래에 실행 예시를 녹화한 영상을 업로드합니다.

 

 

배경음악: Jim Yosef & Stessie - Free

중간에 로그인 할 때 부득이하게 아이디가 보여서, 해당 장면은 삭제했습니다.

이번에도 저번 트위터 스크래핑 때처럼 게시글 본문과 게시글 작성 날짜만 수집해보았습니다.

 

특히나 페이스북 게시글 스크래핑 모듈을 만들면서 가장 힘들었던 점은, 바로 알림창이었습니다.

페이스북은 매번 새로운 브라우저로 접근할 때마다 알림에 대한 허용/차단 여부를 묻는 알림창이 뜨는데요.

이로 인해 컴퓨터가 수행해야 할 작업이 방해되고, 오류가 반환됐었습니다.

다행히 구글에서 열심히 검색한 결과, 해당 문제를 빠르게 해결할 수 있었습니다ㅎㅎ...

 

물론 전문가분들이 만드신 크롤링/스크래핑 프로그램보다는 당연히 성능이 떨어집니다. 텍스트 전처리가 아예 되지 않는다는 단점도 존재하며, 실제 크롤링을 할 수 있는 코드를 작성한 것이 아니라 파이썬의 Selenium 라이브러리를 사용했기에 트위터 페이지 구조가 바뀌면 이에 따라 모듈 코드도 같이 수정해야 한다는 문제점도 있습니다.

때문에 시간이 된다면 이렇게 HTML 소스로 접근해서 스크래핑을 하는 방식이 아니라, 제대로 된 크롤링 프로그램을 만드는 방법을 배우고 싶네요ㅎㅎ