こんにちは!今回はPythonを使ったWebスクレイピングの基本についてご紹介します。Webスクレイピングとは、インターネット上の情報を自動的に収集する技術のことです。Pythonはその使いやすさから、多くのエンジニアに愛されています。さっそく見ていきましょう!
Webスクレイピングに必要なライブラリとして、主に「Requests」と「Beautiful Soup」を使用します。まずは、これらのライブラリをインストールしましょう。
pip install requests beautifulsoup4
次に、実際にWebページからデータを取得する簡単なコードを見てみましょう。ここでは、例としてWikipediaの「Python (プログラミング言語)」のページからタイトルを取得します。
import requests
from bs4 import BeautifulSoup
url = 'https://ja.wikipedia.org/wiki/Python_(プログラミング言語)'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.text
print(title)
1. Requestsライブラリを使って指定したURLにアクセスし、そのレスポンスを取得します。
2. Beautiful Soupを用いて、レスポンスからHTMLを解析します。
3. 最後に、ページタイトルを取得して表示しています。
Webスクレイピングを行う際は、アクセスするサイトの利用規約を必ず確認しましょう。一部のサイトではスクレイピングを禁止している場合がありますので、注意が必要です。
Pythonを使ったWebスクレイピングは非常に簡単で、データ収集の強力な手段となります。ぜひ、興味のあるサイトから情報を集めてみてくださいね!