博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
selenium 和 phantomJS或chrome浏览器抓取渲染网页
阅读量:6956 次
发布时间:2019-06-27

本文共 1035 字,大约阅读时间需要 3 分钟。

首先pip安装selenium

一、phantomjs

1、下载phantomjs压缩包,解压,把bin文件夹路径加入PATH环境变量

2、代码

#coding=utf-8import requestsimport  refrom pyquery import PyQuery as pqfrom lxml import etreefrom bs4 import BeautifulSoupimport sysfrom selenium import webdriverreload(sys)sys.setdefaultencoding("utf-8")def getHtml(url):    driver = webdriver.PhantomJS(executable_path='/home/lhy/phantomjs-1.9.8-linux-x86_64/bin/phantomjs')    driver.get(url)    fo = open("phonesinfo2.txt", "wb")    fo.write(driver.page_source)    fo.close()    return driver.page_source
二、chrome浏览器

1、必须安装chrome浏览器

2、下载chrome驱动chromedriver

3、把驱动加如PATH环境变量(注意最好修改/etc/profile配置,永久生效)

4、代码

#coding=utf-8import requestsimport  refrom pyquery import PyQuery as pqfrom lxml import etreefrom bs4 import BeautifulSoupimport sysfrom selenium import webdriverreload(sys)sys.setdefaultencoding("utf-8")def getHtml(url):    driver=webdriver.Chrome();    driver.get(url)    fo = open("phonesinfo2.txt", "wb")    fo.write(driver.page_source)    fo.close()    return driver.page_source
注意运行过程中会打开chrome浏览器

转载地址:http://ortil.baihongyu.com/

你可能感兴趣的文章
Git使用笔记
查看>>
最短路 BZOJ3694 树链剖分+线段树
查看>>
项目总结
查看>>
JavaScript中valueOf函数与toString方法的使用
查看>>
C#对接JAVA系统遇到的AES加密坑
查看>>
力扣算法题—051N皇后问题
查看>>
Elementary Methods in Number Theory Exercise 1.5.11
查看>>
化一阶线性方程为恰当方程
查看>>
服务器使用ssh秘钥登录并禁止密码登录
查看>>
django基础知识~forms钩子
查看>>
javascript预解释中的机制
查看>>
正则表达式pattern的匹配格式
查看>>
JDOM
查看>>
MySQL 最基本的SQL语法/语句
查看>>
洛谷 P2661 信息传递 Label:并查集||强联通分量
查看>>
Linux下搭建ftp服务器(转载)
查看>>
hadoop之 HDFS-Hadoop存档
查看>>
搭建时间服务器
查看>>
php 多进程 父进程的阻塞与非阻塞
查看>>
asp.net core mvc ActionFilterAttribute 获取自动定义Attribute
查看>>