JAVA爬虫抓取百度指数思路总结

核心提示：做了一个多月的JAVA爬虫爬取百度指数的项目，发现出现了很多问题，总结如下：抓取百度指数的整体思路：1、首先得模拟登陆百度账

JAVA爬虫抓取百度指数思路总结

做了一个多月的JAVA爬虫爬取百度指数的项目，发现出现了很多问题，总结如下：

抓取百度指数的整体思路：

1、首先得模拟登陆百度账号（用selenium+PhantomJS模拟登陆百度，获取cookie）

2、由于有该死的验证码，因此我们要绕过验证码，保存cookie模拟登陆（绕过万恶的验证码）

3、然后模拟登陆以后，程序截取屏幕保存到本地图片。（屏幕截屏）

4、读取本地图片。（读取图片）

5、找到搜索指数所在区域，裁剪图片。（裁剪图片）

6、下面就是进行图像识别，或者说验证码识别了。（去灰度化，二值化，图像识别）

问题一：百度指数具体的数字竟然是图片！！！每一个数字竟然都是一个图片！显然，常规的思路已经无法驾驭百度指数了

解决思路：采用Python的图像识别包来识别并爬取百度指数

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

最新资讯

点击排行

• 【系统架构设计】计算机网络	• 全世界规模最大战争排名，第一名居然是清朝时期
• python tk随机内容生成器	• ai自动写文章在线在线写文章自动生成器
• AI写系统性综述ChatGPT还远远不够未来百年能否	• 全球AI半导体技术排名：韩国强势第三，未来发展
• MVSO影视程序源码影视自动采集_魔改超强SEO_自	• 多地楼市政策不断优化房地产市场企稳态势渐明
• 新澳正版资料免费大全，词语作答释义解释汇总	• 揭秘快速排名SEO软件，网站高效提升排名的秘密