pythonでスクレイピング!楽天の商品ページをスクレイピングしてみる。

pythonを使ってスクレイピングをしてみる。

今回使っているpythonのバージョンは3.5.1です。

スポンサーリンク

準備

今回は以下の3つのライブラリを使います。インストールしましょう。
lxml,requests,cssselect

pip install lxml

pip install requests

pip install cssselect
スポンサーリンク

楽天の商品ページをスクレイピングする

さて、準備が整ったのでこちらの楽天の商品ページをスクレイピングしたいと思います。
Screenshot_from_2016-06-30 22:38:57 http://books.rakuten.co.jp/rb/13853715/

スポンサーリンク

コード


import lxml.html
import requests

url = 'http://books.rakuten.co.jp/rb/13853715/'
target_html = requests.get(url).content
dom = lxml.html.fromstring(target_html)

title = dom.cssselect('h1')[0].text
price = dom.cssselect('.pirce')[0].text
print(title)
print(price)
'''
PythonによるWebスクレイピング
3,240円
'''


#text_contentにすると以下のテキストをすべて取得します。
info = dom.cssselect('.innerSection')[0].text_content()
print(info)
'''
発売日:  2016年03月18日頃
著者/編集:  
RyanMitchell, 嶋田健志
発行元:  
オライリー・ジャパン
発売元:  
オーム社
サイズ:  単行本
ページ数:  253p
ISBNコード:  9784873117614
'''

対象のurlにリクエストを送り、返ってきたhtmlを解析します。 今回は商品タイトルと価格を取得してみました。

pythonを使うと簡単にスクレイピングができました。

 

データ収集スクレイピング代行を行っています。収集したいデータがありましたら、ご連絡ください。

データ収集、Webスクレイピング代行