파이썬을 사용한 웹 스크래핑

[웹 스크래핑 기술]

Requests

  • requests는 웹사이트에 HTTP 요청을 보내기 위한 인기 있는 파이썬 라이브러리입니다.
  • 이를 사용하여 대상 웹사이트에 소켓을 열고 데이터를 요청할 수 있습니다.
  • 요청에 헤더를 지정하여 웹 브라우저처럼 동작할 수 있습니다.

python web1

 

BeautifulSoup (BS4)

  • BeautifulSoup는 HTML 또는 XML 파일에서 데이터를 파싱하고 추출하는 데 사용됩니다.
  • HTML 또는 XML 데이터를 검색하고 수정하는 데 도움이 됩니다.

python web2 (2)

 

Pandas

  • Pandas는 구조화된 데이터와 작업하기 위한 파이썬 라이브러리입니다.
  • 스크랩한 데이터를 CSV 파일로 저장하는 데 사용됩니다.

python web3

 

Scrapy

  • Scrapy는 웹사이트에서 데이터를 추출하기 위한 강력한 파이썬 프레임워크입니다.
  • Xpath를 사용하여 데이터를 검색하고 추출합니다.

python web4

 

이러한 도구와 개념은 파이썬을 사용한 웹 스크래핑의 기본입니다. 이 도구들을 사용하여 다양한 웹사이트에서 다양한 목적으로 데이터를 추출할 수 있습니다.

참고: https://realpython.com/api-integration-in-python/

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다