반응형

파이썬을 이용한 머신러닝, 딥러닝 실전개발 입문 책을 보고 공부하는 중입니다


BeautifulSoup로 스크레이핑 하기


BeautifulSoup 기본 사용법


웹사이트로부터 html을 가져와서 사용하는것이 아니라 html을 문자열로 만들어 사용하고 있습니다


그리고 문자열 분석을 완료하면 결과를 출력합니다



잘 나옴을 알 수 있습니다.



id로 요소를 찾는 방법


BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 id 속성을 지정해서 요소를 찾는 find()메서드를 제공합니다



잘 나옴을 알 수 있습니다.



여러개의 요소 추출하기 - find_all() 메서드


참고로 여러 개의 태그를 한 번에 추출하고싶을떄는 find_all() 메서드를 사용합니다


다음 코드는 html 내부에 있는 여러개의 <a> 태그를 추출하는 프로그램입니다




잘 나옴을 알 수 있습니다.



urlopen()과 BeautifulSoup 조합하기



기상청 RSS에서 XML 데이터를 추출하고 XML의 내용을 출력하는 프로그램입니다.


잘 나옴을 알 수 잇습니다.



CSS 선택자 사용하기


BeautifulSoup는 자바스크립트 라이브러리인 jQuery처럼 CSS 선택자를 지정해서 원하는 요소를 추출하는 기능도 제공합니다.



잘 나옴을 알 수 있습니다.


네이버 금융에서 환율 정보 추측하기


웹사이트를 스크레이핑을 해보도록 하겠습니다


원/달러 환율 정보를 추출해보겠습니다.


  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기