공학속으로/python

[Python] 구글 크롤링하기

더월드 2023. 8. 8.

파이썬으로 구글 크롤링

Python을 사용하여 구글에서 크롤링하는 예제 코드입니다.

 

아래 코드는 `requests` 모듈을 사용하여 구글 검색 페이지에 접속하고, `BeautifulSoup` 모듈을 사용하여 HTML을 파싱합니다. 그리고 검색 결과 중에서 제목과 링크를 추출하여 출력합니다.

 

import requests
from bs4 import BeautifulSoup

#--------------------------
# 구글 크롤링
#--------------------------
def search_google(keyword):
    url = f"https://www.google.com/search?q={keyword}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
    }

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    search_results = []
    for result in soup.find_all("div", class_="tF2Cxc"):
        title = result.find("h3").text
        link = result.find("a")["href"]
        search_results.append({
            "title": title,
            "link": link
        })

    return search_results

#--------------------------
# Main
#--------------------------
if __name__ == "__main__":
    # 예제 실행
    results = search_google("python")
    for result in results:
        print(result["title"])
        print(result["link"])
        print()

 

 

실행결과

아래와 같이 실행해서 `python`이라는 키워드로 구글 검색 결과를 가져올 수 있습니다.

```shell
python google_crawling.py
```

이렇게 실행했을때 아래와 같이 크롤링이 잘 되는것을 확인할 수 있습니다.

댓글

💲 추천 글