파이썬 스크래핑을 해보았다.
진짜 신기했다.
어떤 홈페이지를 스크래핑할지 정하고 할 수 있을 것 같은 링크를 찾아서 긁어왔다.
나는 가볍게 해볼 수 있는 것을 찾고 있어서 어떤 사람의 오래된 블로그를 선택했다.
다음에는 셀레니움을 활용한 크롤링/스크래핑을 해보고 싶다.
#구글링을 하면서 크롤링과 스크래핑의 차이가 궁금했었다.
간단하게 찾아본 바로는 이랬다.
--크롤링은 URL,키워드 등을 여러 곳에서부터 수집하는 것
--스크래핑은 필요한 데이터를 긁어오는 것
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import pandas as pd
from tqdm import *
original_url = "원하는 링크를 붙여넣기"
lst = {'Title':[], 'Date':[]}
with urllib.request.urlopen(original_url) as response:
html = response.read()
soup = BeautifulSoup(html, 'html.parser')
for el_title in soup.select('h3'):
lst['Title'].append(el_title.getText())
for el_date in soup.select('span'):
lst['Date'].append(el_date.getText())
lst
del lst['Date'][0]
df = pd.DataFrame(lst)
df
'Study > Python' 카테고리의 다른 글
python pandas read csv 에러해결 (0) | 2022.05.17 |
---|---|
[Python] icrawler_홈페이지에 나와있는대로 해보기 (0) | 2022.05.17 |
icrawler 써보려고 하는데....macos pip upgrade부터 하라네 (0) | 2022.05.17 |