使用python抓取js脚本动态加载网页

作者: 我爱搜集网博主
时间: 2017年09月18日
分类: 编程语言
访问: 5,808 次

1. 简介

在做网页抓取的时候，一般来说使用urllib和urllib2就能满足大部分需求。但是有时候我们遇见那种使用js动态加载的网页。就会发现urllib只能抓出一个部分内容空白的网页。

如何解决这种问题呢？可以使用python+selenium+phantomjs来进行无界面抓取。

phantomjs是一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，而selenium是一个用于Web应用程序测试的工具，将两者在Python环境下结合起来就可以实现动态加载网页。

2. 安装

phantomjs的安装参考：windows下PhantomJs的下载与安装
selenium的安装参考：windows下selenium的下载与安装

3. 使用

from selenium import webdriver  
driver = webdriver.PhantomJS()  
#driver = webdriver.PhantomJS(executable_path="PATH_OF_PhantomJS")  
driver.get("http://www.baidu.com")  
data = driver.title  
print data

4. 解析

接下来就是对已经获取的数据进行解析。

前八种是大家都熟悉的，经常会用到的

1.id定位：find_element_by_id(self, id_)
2.name定位：find_element_by_name(self, name)
3.class定位：find_element_by_class_name(self, name)
4.tag定位：find_element_by_tag_name(self, name)
5.link定位：find_element_by_link_text(self, link_text)
6.partial_link定位find_element_by_partial_link_text(self, link_text)
7.xpath定位：find_element_by_xpath(self, xpath)
8.css定位：find_element_by_css_selector(self, css_selector）

这八种是复数形式
9.id复数定位find_elements_by_id(self, id_)
10.name复数定位find_elements_by_name(self, name)
11.class复数定位find_elements_by_class_name(self, name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(self, text)
14.partial_link复数定位find_elements_by_partial_link_text(self, link_text)
15.xpath复数定位find_elements_by_xpath(self, xpath)
16.css复数定位find_elements_by_css_selector(self, css_selector

这两种就是快失传了的
find_element(self, by='id', value=None)
find_elements(self, by='id', value=None)

说明
1.element方法定位到是是单数，是直接定位到元素
2.elements方法是复数，这个学过英文的都知道，定位到的是一组元素，返回的是list队列
3.可以用type()函数查看数据类型

参考：http://www.cnblogs.com/yoyoketang/p/6557421.html

标签: python

使用python抓取js脚本动态加载网页

1. 简介

2. 安装

3. 使用

4. 解析

添加新评论（无需注册，可直接评论）

博主推荐

本站热门文章

最近回复

使用python抓取js脚本动态加载网页

1. 简介

2. 安装

3. 使用

4. 解析

相关文章推荐

添加新评论 （无需注册，可直接评论）

博主推荐

本站热门文章

最近回复

添加新评论（无需注册，可直接评论）