파이썬 크롤링 라이브러리 기초 예제

지금까지 파이썬에서 변수,조건문,반복문,함수,객체등의 기본문법에 대해서 알아보았는데 이번시간은 패키지 메니지를 이용하여 웹사이트를 크롤링하는 기초 예제를 해보고자 합니다.

패키지 메니저는 완성된 프로그램을 인스톨하여 손쉽게 포함시켜서 사용하는 도구를 말하며 라이브러리도 포함이 됩니다.

1.패키지 메니저 사용방법

먼저 패키지 메이저를 사용하기 위해서는 ‘윈도우키 + R’ 입력후에 명령어 cmd 를 입력하면 프롬프트창이 나타나며 ‘ C:>pip ‘ 명령어를 입력하여 pip 도구가 설치가 되어져 있는지 확인이 가능합니다.

2.html 크롤링 라이브러리 설치

우리가 웹페이지를 크롤링(스크래핑) 하기 위해서는 라이브러리 설치가 필요하며 터미널에서 ‘ pip install requests ‘ 를 입력하여 requests 를 설치합니다.

2.파이썬 크롤링 예제

크롤링하기 위한 라이브러리 requests 를 설치하였다면, import requests 모듈로 불러오고 주소에 해당하는 html 을 확인하기 위한 코드를 입력합니다.

변수 r = requests.get(‘크롤링할주소’) 를 입력하고 실행을 위해서 r.text 를입력하여 출력하면, 크롤링할 웹페이지의 코드가 출력이 되는것을 확인할수가 있습니다.

3.웹페이지 추출 라이브러리 설치

우리가 위에서 크롤링하기위해 requests 라이브러리를 설치하였지만, 웹페이지의 원하는 부분만 크롤링 하기 위해서는 터미널에서 ‘ pip install beautifulsoup4 ‘ 명령어를 입력하여 beautifulsoup 라이브러리를 설치합니다.

4.웹페이지 추출 기초예제

위에서 beautifulsoup 라이브설치를 마쳤다면, 사용을 위해서 from bs4 import BeautifulSoup 모듈을 입력합니다.

변수에 추출할 웹페이지 r = equests.get(‘크롤링할 주소’) 담았으며 변수 soup = BeautifulSoup(r.text, ‘html.parser’) 를 하여 추출합니다.

+soup.title.string 는 title 코드의 제목을 추출하여 불러옵니다. articles = sopu.findAll(‘div’ , {‘class’ : ’em”}) 은 웹페이지의 div 코드안에 있는 class em 텍스트를 크롤링합니다.

변수 +articles[0].text 를 실행하면 div 코드안에 있는 class em 코드의 텍스트가 출력이 됩니다.

여기까지 파이썬 크롤링을 하기위한 라이브러리 설치와 기초예제에 대해서 살펴보았습니다. 여기까지 기초예제를 통해서 실행하였다면 충분히 성공을 한것입니다.

위에 크롤링(스크래핑), 라이브설치를 통해서 여러분은 앞으로 좀더 복잡하고 어려운 프로그래을 만들어서 사용하는 것도 가능합니다.

Leave a Comment