スクレイピングというやつを教えてもらいました

はじめに

スクレイピングとはなにか？

※Wikipedia参照

ウェブスクレイピング（英: Web scraping）とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。

つまり、簡単に情報を抽出できる技術のこと。

エンジニアではなくても簡単にできちゃいます。

僕はビジネスサイドの人間ですが、

いわゆる雑務などでデータをWebから探して

引っ張って来ることがとても多かったです。

そこでこいつを教えてもらいました。

そもそもエンジニアではない人の多くは

こんなことが簡単にできるとはそもそも思ってないのでは？

簡単にある程度できるので是非試してみて下さい！

プログラム言語とフレームワーク

今回はPython3という言語と

BeautifulSoupというフレームワークを

利用してやってみました。

※詳細な記事はこちら

たった10行程度のコードで

Webページの情報を抽出できます。

なぜこれを今まで誰も教えてくれなかったのか

と時間の勿体無さを感じる。笑

サンプル

# coding: utf-8
import urllib.request
from bs4 import BeautifulSoup

url = "https://thepedia.co/"

html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'lxml')

titles = soup.find_all("h2")

#テキストを表示させる
for title in titles:
print(title.text)

これはとあるメディアのタイトル記事だけを

抽出してくれるスクリプトです。

ほんのわずかなことを覚えるだけで、

作業効率を上げれるのはプログラムの

凄味でもありますね。

終わりに

エンジニアでもなくプログラミングも

できないからといって全く手を出さず、

やれそうなところだけでも覚えていけると

やっぱりいいなと思いました。

Carat (カラット) 経営Blog

経営者としての仕事からプライベートまで

スクレイピングというやつを教えてもらいました

はじめに

プログラム言語とフレームワーク

サンプル

終わりに