使用python抓取js脚本动态加载网页

1. 简介

在做网页抓取的时候,一般来说使用urllib和urllib2就能满足大部分需求。但是有时候我们遇见那种使用js动态加载的网页。就会发现urllib只能抓出一个部分内容空白的网页。

如何解决这种问题呢?可以使用python+selenium+phantomjs来进行无界面抓取。

phantomjs是一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,而selenium是一个用于Web应用程序测试的工具,将两者在Python环境下结合起来就可以实现动态加载网页。

2. 安装

3. 使用

from selenium import webdriver  
driver = webdriver.PhantomJS()  
#driver = webdriver.PhantomJS(executable_path="PATH_OF_PhantomJS")  
driver.get("http://www.baidu.com")  
data = driver.title  
print data

4. 解析

接下来就是对已经获取的数据进行解析。

前八种是大家都熟悉的,经常会用到的

1.id定位:find_element_by_id(self, id_)
2.name定位:find_element_by_name(self, name)
3.class定位:find_element_by_class_name(self, name)
4.tag定位:find_element_by_tag_name(self, name)
5.link定位:find_element_by_link_text(self, link_text)
6.partial_link定位find_element_by_partial_link_text(self, link_text)
7.xpath定位:find_element_by_xpath(self, xpath)
8.css定位:find_element_by_css_selector(self, css_selector)

这八种是复数形式
9.id复数定位find_elements_by_id(self, id_)
10.name复数定位find_elements_by_name(self, name)
11.class复数定位find_elements_by_class_name(self, name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(self, text)
14.partial_link复数定位find_elements_by_partial_link_text(self, link_text)
15.xpath复数定位find_elements_by_xpath(self, xpath)
16.css复数定位find_elements_by_css_selector(self, css_selector

这两种就是快失传了的
find_element(self, by='id', value=None)
find_elements(self, by='id', value=None)

说明
1.element方法定位到是是单数,是直接定位到元素
2.elements方法是复数,这个学过英文的都知道,定位到的是一组元素,返回的是list队列
3.可以用type()函数查看数据类型

参考:http://www.cnblogs.com/yoyoketang/p/6557421.html

标签: python

相关文章推荐

添加新评论 (无需注册,可直接评论)