[MACHINELEARNING]TIL4 네이버 금융과 뉴스 크롤링하기

오늘은 조금 더 발전된 네이버 금융사이트와 뉴스 사이트를 크롤링 하는 법을 공부하도록 하겠습니다

네이버 금융페이지에서 위에 보이는 원달러 환율을 크롤링하려고 검사를 눌러보니 span에 class가 value로 되어있는것을 볼수가 있습니다

따라서 코드를 짜보겠습니다.

이렇게 여러개가 나오는 이유는 원달러 원엔 원유로 등등이 같이 value class로 되어있기 때문입니다. 그래서 원달러 원엔 원유로 환율만 뽑도록 해보겠습니다

잘 나옴을 볼 수가 있습니다.

이제 네이버뉴스에서 오른쪽 아래에 랭킹을 크롤링하고자 검사를 눌러보니

strong 태그에 title class로 제목이 코드로 짜여있는 것을 확인할 수 있습니다.

따라서 코드를 짜보도록 하겠습니다

랭킹 제목이 잘 나옴을 알 수 있습니다.

이제 네이버 IT 탭의 굵은색 제목을 뽑아보도록하겠습니다.

검사를 눌러 찾아보니 div tag에 cluster_text class 아래에 a태그로 제목들이 잡혀있는것을 볼 수 있습니다.

따라서 링크와 제목을 둘 다 크롤링 해보도록 하겠습니다.

해당 제목들과 링크가 반복문을 통해 모두 잘 나옴을 확인 할 수 있습니다.

이제 해당 링크를 하나 들어가 본문을 크롤링 해오도록 하겠습니다

div tag에 articleBodyContents라는 id를 가진 내용 전체가 본문임을 검사를 통해 알수 있었습니다.

출력해보니 본문이 나옴을 알 수 있습니다.

하지만 태그도 같이 나오고 정확히 텍스트만 나오지 않아 strip()를 써서 가공을 해보도록 하겠습니다

본문 텍스트가 잘 나옴을 알 수 있습니다.

이제 링크를 들고오는 코드들과 그 링크들의 본문을 들고오는 코드를 잘 합쳐서

모든 링크의 본문들을 가져오는 코드를 마지막으로 짜보도록 하겠습니다.

각 링크에 해당하는 본문들이 반복문을 통해 잘 나옴을 알 수 있습니다.

느낀점

크롤링을 할 줄 안다고만 해서 되는게 아니라 가져온 데이터를 어떻게 가공하냐에 따라 가독성도 달라지고 쓸만한 데이터가 되냐 안되냐를 판가름 한다는 것을 배웠습니다. 좀 더 유용하게 가공하는 법을 익혀야 되겠다고 생각했습니다

[MACHINELEARNING]TIL6 SELENIUM과 PHANTOMJS를 이용하여 네이버 로그인 해보기 (1)	2018.11.30
[MACHINELEARNING]TIL5 requests로 세션 쓰기와 PhantomJS + Selenium 활용 (0)	2018.11.29
[MachineLearning]TIL3 GET방식과 BS4를 사용한 크롤링 (0)	2018.11.27
[MachineLearning]TIL2 웹에서 데이터 가져오기 (0)	2018.11.26
[MachineLearning]TIL1 Docker 설치 및 개발환경 구축 (0)	2018.11.26

티스토리툴바