スクレイピングというやつを教えてもらいました
はじめに
スクレイピングとはなにか?
※Wikipedia参照
ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。
つまり、簡単に情報を抽出できる技術のこと。
エンジニアではなくても簡単にできちゃいます。
僕はビジネスサイドの人間ですが、
いわゆる雑務などでデータをWebから探して
引っ張って来ることがとても多かったです。
そこでこいつを教えてもらいました。
そもそもエンジニアではない人の多くは
こんなことが簡単にできるとはそもそも思ってないのでは?
簡単にある程度できるので是非試してみて下さい!
プログラム言語とフレームワーク
今回はPython3という言語と
BeautifulSoupというフレームワークを
利用してやってみました。
※詳細な記事はこちら
たった10行程度のコードで
Webページの情報を抽出できます。
なぜこれを今まで誰も教えてくれなかったのか
と時間の勿体無さを感じる。笑
サンプル
# coding: utf-8
import urllib.request
from bs4 import BeautifulSoupurl = "https://thepedia.co/"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'lxml')titles = soup.find_all("h2")
#テキストを表示させる
for title in titles:
print(title.text)
これはとあるメディアのタイトル記事だけを
抽出してくれるスクリプトです。
ほんのわずかなことを覚えるだけで、
作業効率を上げれるのはプログラムの
凄味でもありますね。
終わりに
エンジニアでもなくプログラミングも
できないからといって全く手を出さず、
やれそうなところだけでも覚えていけると
やっぱりいいなと思いました。