使用python抓取js脚本动态加载网页
1. 简介
在做网页抓取的时候,一般来说使用urllib和urllib2就能满足大部分需求。但是有时候我们遇见那种使用js动态加载的网页。就会发现urllib只能抓出一个部分内容空白的网页。
如何解决这种问题呢?可以使用python+selenium+phantomjs来进行无界面抓取。
phantomjs是一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,而selenium是一个用于Web应用程序测试的工具,将两者在Python环境下结合起来就可以实现动态加载网页。
2. 安装
phantomjs的安装参考:windows下PhantomJs的下载与安装
selenium的安装参考:windows下selenium的下载与安装
3. 使用
from selenium import webdriver
driver = webdriver.PhantomJS()
#driver = webdriver.PhantomJS(executable_path="PATH_OF_PhantomJS")
driver.get("http://www.baidu.com")
data = driver.title
print data
4. 解析
接下来就是对已经获取的数据进行解析。
前八种是大家都熟悉的,经常会用到的
1.id定位:find_element_by_id(self, id_)
2.name定位:find_element_by_name(self, name)
3.class定位:find_element_by_class_name(self, name)
4.tag定位:find_element_by_tag_name(self, name)
5.link定位:find_element_by_link_text(self, link_text)
6.partial_link定位find_element_by_partial_link_text(self, link_text)
7.xpath定位:find_element_by_xpath(self, xpath)
8.css定位:find_element_by_css_selector(self, css_selector)
这八种是复数形式
9.id复数定位find_elements_by_id(self, id_)
10.name复数定位find_elements_by_name(self, name)
11.class复数定位find_elements_by_class_name(self, name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(self, text)
14.partial_link复数定位find_elements_by_partial_link_text(self, link_text)
15.xpath复数定位find_elements_by_xpath(self, xpath)
16.css复数定位find_elements_by_css_selector(self, css_selector
这两种就是快失传了的
find_element(self, by='id', value=None)
find_elements(self, by='id', value=None)
说明
1.element方法定位到是是单数,是直接定位到元素
2.elements方法是复数,这个学过英文的都知道,定位到的是一组元素,返回的是list队列
3.可以用type()函数查看数据类型
参考:http://www.cnblogs.com/yoyoketang/p/6557421.html