pythonでスクレイピング!楽天の商品ページをスクレイピングしてみる。

スポンサーリンク
Pocket
LINEで送る

pythonを使ってスクレイピングをしてみる。

今回使っているpythonのバージョンは3.5.1です。

準備

今回は以下の3つのライブラリを使います。インストールしましょう。
lxml,requests,cssselect

pip install lxml

pip install requests

pip install cssselect

楽天の商品ページをスクレイピングする

さて、準備が整ったのでこちらの楽天の商品ページをスクレイピングしたいと思います。

Screenshot_from_2016-06-30 22:38:57
http://books.rakuten.co.jp/rb/13853715/

スポンサーリンク

コード


import lxml.html
import requests

url = 'http://books.rakuten.co.jp/rb/13853715/'
target_html = requests.get(url).content
dom = lxml.html.fromstring(target_html)

title = dom.cssselect('h1')[0].text
price = dom.cssselect('.pirce')[0].text
print(title)
print(price)
'''
PythonによるWebスクレイピング
3,240円
'''


#text_contentにすると以下のテキストをすべて取得します。
info = dom.cssselect('.innerSection')[0].text_content()
print(info)
'''
発売日:  2016年03月18日頃
著者/編集:  
RyanMitchell, 嶋田健志
発行元:  
オライリー・ジャパン
発売元:  
オーム社
サイズ:  単行本
ページ数:  253p
ISBNコード:  9784873117614
'''

対象のurlにリクエストを送り、返ってきたhtmlを解析します。
今回は商品タイトルと価格を取得してみました。

pythonを使うと簡単にスクレイピングができました。
もっと詳しく知りたい方にこちらの2冊の本をおすすめします。