Carat (カラット) 経営Blog

経営者としての仕事からプライベートまで

スクレイピングというやつを教えてもらいました

はじめに

スクレイピングとはなにか?

Wikipedia参照

ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。

 

つまり、簡単に情報を抽出できる技術のこと。

エンジニアではなくても簡単にできちゃいます。

 

僕はビジネスサイドの人間ですが、

いわゆる雑務などでデータをWebから探して

引っ張って来ることがとても多かったです。

そこでこいつを教えてもらいました。

 

そもそもエンジニアではない人の多くは

こんなことが簡単にできるとはそもそも思ってないのでは?

簡単にある程度できるので是非試してみて下さい!

 

プログラム言語とフレームワーク

今回はPython3という言語と

BeautifulSoupというフレームワーク

利用してやってみました。

 

※詳細な記事はこちら


たった10行程度のコードで

Webページの情報を抽出できます。

 

なぜこれを今まで誰も教えてくれなかったのか

と時間の勿体無さを感じる。笑

 

サンプル

# coding: utf-8
import urllib.request
from bs4 import BeautifulSoup

url = "https://thepedia.co/"

html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'lxml')

titles = soup.find_all("h2")

#テキストを表示させる
for title in titles:
print(title.text)

 これはとあるメディアのタイトル記事だけを

抽出してくれるスクリプトです。

 

ほんのわずかなことを覚えるだけで、

作業効率を上げれるのはプログラムの

凄味でもありますね。

 

終わりに

エンジニアでもなくプログラミングも

できないからといって全く手を出さず、

やれそうなところだけでも覚えていけると

やっぱりいいなと思いました。