分享好友 最新动态首页 最新动态分类 切换频道
java Tesseract 设置只识别数字
2024-12-27 01:04


关于这篇文章有几句话想说,首先给大家道歉,之前学的时候真的觉得下述的是比较厉害的东西,但是后来发现真的是基础中的基础,内容还不是很完全。再看一遍自己写的这篇文章,突然有种想自杀的冲动。emmm所以楼主决定本文全文抹掉重写一遍,并且为之前点进来看的七十多访问量的人,致以最诚挚的歉意。好想死。。

在学完了爬虫全部内容后,楼主觉得勉强有资格为接触爬虫的新人指指路了。那么废话不多说,以下正文:

一、获取内容

说爬虫一定要先说爬取内容的方法,python有这么几个支持爬虫的库,一个是urllib和它的后续版本库,这个库做爬取的时候生成的中继对象是比较多的,楼主也记不大住都有什么,而且这个库的使用在楼主看来有些过时了。更加建议做爬取的时候使用requests库(ps:不是request)

使用urllib:


html = urllib.request.urlopen(url).read()


使用requests:


r = requests.get(url)

对于获取到的内容,有以下方法进行处理:

1、使用正则表达式匹配。

2、使用BeautifulSoup对爬取内容标签对象化。

3、通过构造节点树使用Xpath获取元素。

第一种方法胜在直接,效率高而且不需要安装三方库。第二种方法胜在简单,标签对象化后不需要写复杂的正则表达式,而且提取标签更加方便。第三种方法胜在灵活,获取内容更加灵活,就是语法有点多,不熟的话可以对着Xpath语法文档写。

使用正则表达式匹配:

使用BeautifulSoup对爬取内容标签对象化:

关于BeautifulSoup的安装请自行百度,没记错的话直接pip是可行的。

通过构造节点树使用Xpath获取元素:

至此,爬取的基本内容就叙述完毕了,这里给出的是最简单的范例,如果想深入了解某种方法,建议去查询更详细的技术文档。

下面内容就是之前的了,略作删改。

二、伪造表单请求头

很多网站上的数据爬取比较简单,只需要直接request那个网址就可以,很多小型网站都是这样。面对这样的网站数据,只需要花个几分钟随便写几行代码,就能爬到我们想要的数据。

但是想要爬取稍微大型一些的网站数据,就不会这么容易了。这些网站的服务器,会分析收到的每一条request,来判断该请求是否为用户操作。这种技术,我们把它称为反爬技术。常见的反爬技术,楼主知道的有上面所述的分析请求,还有验证码技术。对于这两种情况,我们在构造爬虫程序的时候就需要稍微费点力气了。

先来介绍第一种的应对方法。首先我们要知道一条request的组成部分,不同网站的request格式可能会有点不同。对于这一点,我们可以通过浏览器的开发者工具,抓到一个网站的请求数据格式。如下图:

此为使用谷歌浏览器抓取的请求信息。

我们可以看到request headers的格式,所以在访问这样的网站的时候,我们就不能忘了在postdata中放上一条伪造的headers。

其中referer键对应的值是要访问的网址。

某些网站还会需要有cookie的用户验证,我们可以通过调用


requests.Session().cookies


来获得它。

如果在爬虫中需要提交某些信息的话,还要构造一下postdata的数据。比如这样:

三、关于多网页的爬取

如果网页地址有规律,那么构造url用个循环函数就好,对于网页地址中包含随机码的时候,通常就是先爬取根页面,获取到所有想爬取的子页面url,把这些url放进一个url池(项目小是一维的列表,项目大的时候可能会是高维的列表)里,循环爬取。

而比较高效的方式是使用多线程技术,demo有点长只贴关键部分。

开两个线程,一个爬取url放进url池,一个从url池里获取url然后爬取内容,再开一个线程监控两个线程,如果两个线程运行完毕,结束主线程。

python的多线程机制底层做的其实不好,理由不多讲。另,多线程具体操作很多就不展开讲了。

四、关于使用代理ip

很多网站会有ip检测机制,当同一ip以人力无法做到的速度多次访问网站时,通常就会触发这种机制。

代理ip的话,通常通过爬取一些开源ip网站发布的ip构建ip代理池,比如西刺、蘑菇等。这样的一些网站,直接百度代理ip就能找到。然后,使用Flask+Redis维护代理池。这部分详细说明也比较长,就不细说了。也不是爬虫必要的东西。

五、关于selenium模仿浏览器操作

关于selenium主要介绍以下几点:

1、selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。

2、Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

3、selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。

4、用python写爬虫的时候,主要用的是selenium的Webdriver。

这些是某说明文档的内容,能看懂就看,看不懂就看楼主的简单版:

selenium的话主要用于模仿浏览器操作,比如向文本框中赋值,点击按钮等。配合高效率浏览器的话也是实现爬虫的一个比较好的方法。优点是通过模拟浏览器操作,不易被反爬检测。缺点是效率低下,非常不适合大型爬虫,小作坊自己玩玩就好。

六、关于Scrapy框架

这又是一块非常非常庞大的内容,很多技术一旦牵扯上框架就麻烦了。当然学会了的话,做大型项目就简单多了。重点就是框架一般针对比较大型的系统去做,所以其管理和操作会比较麻烦,内部的一些机制也不是很好说明。这一块的话如果以后有时间就单独写一篇文章详细介绍,毕竟从原理到搭建到配置到使用,内容太多。。

七、关于验证码处理

对于处理验证码的话,目前简单点的是直接使用PIL(pillow)做图像处理,然后使用Tesseract直接识别。此方法楼主已经写好了单独的文章供大家参考。

另,如果学过机器学习神经网络这部分的话,还可以使用卷积神经网络。这个方向楼主还正在学,简单给大家指条路,不详述。

以上是楼主想到的爬虫所有内容,若有错误还望指正。

最新文章
搜狗搜索优化策略,如何提升网站搜狗搜索引擎排名?
在这个信息爆炸的时代,每一个网站都渴望在搜索引擎中脱颖而出,吸引更多的目光和流量。而我,作为一名在SEO领域摸爬滚打多年的从业者,深知搜狗搜索引擎优化的重要性。搜狗搜索,凭借其强大的自然语言处理和机器学习能力,不断优化搜索算
跳转微信链接转化率高达80%的引流工具
据不完全数据统计,截止近些年,智能手机逐渐走入了千家万户,覆盖了全国超过90%以上的用户,成为绝大多数人士在工作上或者生活中不可或缺的一个部分。随着互联网社交技术的更新换代,微信的平台功能模块日趋健全,服务于更加广阔的商家和
桌面虚拟化 免费云桌面系统 云电脑租用 YL135 禹龙 办公云终端服务器
桌面虚拟化 免费云桌面系统 云电脑租用 云终端解决方案 虚拟化服务商一、云桌面介绍云桌面是完全符合云计算特征的一种云形态,也是云计算最主要的落地方式之一。桌面云的定义是:“可以通过瘦客户端或者其他任何与网络相连的设备(普通PC、
英文网站建设有什么需要注意
随着经济全球化影响范围的扩大和趋势的蔓延,国际间的交流合作加强,制作一个符合国际化标准的英文网站成为国际企业之间交流的主要平台。英文网站建设对企业之间的市场开拓具有重要的意义,那么英文网站建设有什么需要注意的呢?1.网站风格
谷歌关键词规划师使用详细教程
谷歌关键词规划师(Google Keyword Planner)是一个强大的工具,主要用于帮助用户研究和规划他们的广告活动中的关键词。以下是使用谷歌关键词规划师的基本步骤和方法:1. 访问关键词规划师登录谷歌 Ads 帐户:首先,您需要拥有谷歌 Ads 帐
超级菜菜鸟全程架站攻略(Mysql+Apche+PHP+Phpmyadmin+Zend,含本机安装)
——本文是我5月份刚学PW一个来月时写的攻略,因自己对语言一窍不通,只好自己琢磨+摸索,用了1个通宵研究出来的。今日有朋友问我架设方法,才想起俺写过这么个东西,一直没拿出来发表,今日赶紧补上:)不是超级菜鸟的可以不往下看了哈,
香港资料大全正版资料2024年免费,最佳精选解释落实_LE版6.822
  在这个信息爆炸的时代,数据和知识的获取看似随手可得,但实际上并非所有信息都是准确和权威的。“香港资料大全正版资料2024年免费,最佳精选解释落实_LE版6.822”应运而生,旨在为需要深入了解香港且追求高品质的读者提供一个官方、免
用AI绘画生成超逼真美女写真,零基础也能掌握!
DALL-E:这个工具是由OpenAI推出的强大AI图像生成器,可以将文字描述转化为生动的图片。用户只需通过自然语言描述自己想要的美女形象,DALL-E便能生动还原。优点是能生成非常富有创意和细节的图像,缺点则是对于中文的识别和生成效果相对较
跨境电商独立站没有流量?站外快速引流方法全介绍
现在是互联网时代,很多大佬开始做跨境电商的独立站,毕竟独立站赚钱也多一些,利润高一点。但是苦恼的就是跨境电商独立站建设容易,推广难,很久都没见到任何流量,没有流量意味着没有收入,有什么办法可以快速引流呢?其实跨境电商独立站
炼神丹!御神兽!废材大小姐竟是绝世帝女
简介:  【团宠+双强+驭兽+空间+帝女传承】夜染音,21世纪令人闻风丧胆的第一佣兵“夜神”!一朝穿越,成了边境小城被唾弃的废柴!未婚夫家上门退婚?家族把她当弃子?下一瞬,她被迎回帝都,成了国公府唯一的娇小姐!从此,展露逆天天赋
相关文章
推荐文章
发表评论
0评