파이썬 초보자 - 모르는 사람 블로그 가져오기 크롤링/스크래핑

파이썬 스크래핑을 해보았다.

진짜 신기했다.

어떤 홈페이지를 스크래핑할지 정하고 할 수 있을 것 같은 링크를 찾아서 긁어왔다.

나는 가볍게 해볼 수 있는 것을 찾고 있어서 어떤 사람의 오래된 블로그를 선택했다.

다음에는 셀레니움을 활용한 크롤링/스크래핑을 해보고 싶다.

#구글링을 하면서 크롤링과 스크래핑의 차이가 궁금했었다.

간단하게 찾아본 바로는 이랬다.

--크롤링은 URL,키워드 등을 여러 곳에서부터 수집하는 것

--스크래핑은 필요한 데이터를 긁어오는 것

from bs4 import BeautifulSoup
import urllib.request
import urllib.parse
import pandas as pd
from tqdm import *

original_url = "원하는 링크를 붙여넣기"

lst = {'Title':[], 'Date':[]}

with urllib.request.urlopen(original_url) as response:
    html = response.read()
    soup = BeautifulSoup(html, 'html.parser')
    
for el_title in soup.select('h3'):
    lst['Title'].append(el_title.getText())
    
for el_date in soup.select('span'):
    lst['Date'].append(el_date.getText())
    
lst
del lst['Date'][0]
df = pd.DataFrame(lst)
df

저작자표시 (새창열림)

'Study > Python' 카테고리의 다른 글

python pandas read csv 에러해결 (0)	2022.05.17
[Python] icrawler_홈페이지에 나와있는대로 해보기 (0)	2022.05.17
icrawler 써보려고 하는데....macos pip upgrade부터 하라네 (0)	2022.05.17

202125

파이썬 초보자 - 모르는 사람 블로그 가져오기 크롤링/스크래핑

'Study > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바