[웹 스크래핑 기술]
Requests
requests
는 웹사이트에 HTTP 요청을 보내기 위한 인기 있는 파이썬 라이브러리입니다.- 이를 사용하여 대상 웹사이트에 소켓을 열고 데이터를 요청할 수 있습니다.
- 요청에 헤더를 지정하여 웹 브라우저처럼 동작할 수 있습니다.
BeautifulSoup (BS4)
- BeautifulSoup는 HTML 또는 XML 파일에서 데이터를 파싱하고 추출하는 데 사용됩니다.
- HTML 또는 XML 데이터를 검색하고 수정하는 데 도움이 됩니다.
Pandas
- Pandas는 구조화된 데이터와 작업하기 위한 파이썬 라이브러리입니다.
- 스크랩한 데이터를 CSV 파일로 저장하는 데 사용됩니다.
Scrapy
- Scrapy는 웹사이트에서 데이터를 추출하기 위한 강력한 파이썬 프레임워크입니다.
- Xpath를 사용하여 데이터를 검색하고 추출합니다.
이러한 도구와 개념은 파이썬을 사용한 웹 스크래핑의 기본입니다. 이 도구들을 사용하여 다양한 웹사이트에서 다양한 목적으로 데이터를 추출할 수 있습니다.