Study/Python
파이썬 초보자 - 모르는 사람 블로그 가져오기 크롤링/스크래핑
고래상어9
2022. 1. 19. 13:03
파이썬 스크래핑을 해보았다.
진짜 신기했다.
어떤 홈페이지를 스크래핑할지 정하고 할 수 있을 것 같은 링크를 찾아서 긁어왔다.
나는 가볍게 해볼 수 있는 것을 찾고 있어서 어떤 사람의 오래된 블로그를 선택했다.
다음에는 셀레니움을 활용한 크롤링/스크래핑을 해보고 싶다.
#구글링을 하면서 크롤링과 스크래핑의 차이가 궁금했었다.
간단하게 찾아본 바로는 이랬다.
--크롤링은 URL,키워드 등을 여러 곳에서부터 수집하는 것
--스크래핑은 필요한 데이터를 긁어오는 것
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import pandas as pd
from tqdm import *
original_url = "원하는 링크를 붙여넣기"
lst = {'Title':[], 'Date':[]}
with urllib.request.urlopen(original_url) as response:
html = response.read()
soup = BeautifulSoup(html, 'html.parser')
for el_title in soup.select('h3'):
lst['Title'].append(el_title.getText())
for el_date in soup.select('span'):
lst['Date'].append(el_date.getText())
lst
del lst['Date'][0]
df = pd.DataFrame(lst)
df