Study/Python

파이썬 초보자 - 모르는 사람 블로그 가져오기 크롤링/스크래핑

고래상어9 2022. 1. 19. 13:03

파이썬 스크래핑을 해보았다.

진짜 신기했다.

어떤 홈페이지를 스크래핑할지 정하고 할 수 있을 것 같은 링크를 찾아서 긁어왔다.

나는 가볍게 해볼 수 있는 것을 찾고 있어서 어떤 사람의 오래된 블로그를 선택했다.

다음에는 셀레니움을 활용한 크롤링/스크래핑을 해보고 싶다.

 

#구글링을 하면서 크롤링과 스크래핑의 차이가 궁금했었다.

간단하게 찾아본 바로는 이랬다.

--크롤링은 URL,키워드 등을 여러 곳에서부터 수집하는 것

--스크래핑은 필요한 데이터를 긁어오는 것

 

from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import pandas as pd
from tqdm import *
original_url = "원하는 링크를 붙여넣기"

lst = {'Title':[], 'Date':[]}

with urllib.request.urlopen(original_url) as response:
    html = response.read()
    soup = BeautifulSoup(html, 'html.parser')
    
for el_title in soup.select('h3'):
    lst['Title'].append(el_title.getText())
    
for el_date in soup.select('span'):
    lst['Date'].append(el_date.getText())
    
lst
del lst['Date'][0]
df = pd.DataFrame(lst)
df