原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)
大数据挖掘DT数据分析 公众号: datadw
本文爬虫代码可以通过回复本公众号关键字"公众号"可获取。
安装python相关模块:
命令行运行下面的代码需要安装以下内容:
pip install pyquerypip install requestspip install selenium pip install pyExceleratorpip install json
同时需要下载 phantomjs-2.1.1-windows
它的官网下载地址如下:
点击 http://phantomjs.org/
http://download.csdn.NET/detail/qiqiyingse/9785222
也可以通过回复本公众号关键字"公众号"可获取。
下载完成之后,解压,将整个解压文件夹复制一份到 Python27s 这个目录下,这样程序能找到它。
然后呢,我们需要在代码中加入phantomjs.exe的路径(注意修改为你电脑上的路径):
browser =webdriver.PhantomJS( executable_path=r'C:Anaconda2sphantomjs-2.1.1-windowsbinphantomjs.exe')
接下来可以运行爬虫了。
整体代码可以通过回复本公众号关键字"公众号"可获取。
爬取界面
爬取下载的数据:
人工智能大数据与深度学习
大数据挖掘DT数据分析返回搜狐,查看更多