分享好友 最新动态首页 最新动态分类 切换频道
python爬虫学习笔记(1)
2024-11-03 05:46

本人使用了anaconda3中的python3环境,进行爬虫的环境为anaconda中的spyder,使用anaconda具体详细原因及安装教程可见
Anaconda3详细安装使用教程及问题总结

python爬虫学习笔记(1)

request就是请求的意思,主要用于url信息的请求

urlopen()

urllib.request.urlopen(“网址”)
实现向该网站发起访问请求,并获取响应结果。

urlopen()详细介绍可见python中urlopen()介绍
urlopen()方式所请求的网址访问不能设置用户代理,不支持重构User-Agent,初步认为代理是用于模仿浏览器访问网页所设置的,这个可以看作是爬虫与反爬虫作斗争的第一步。
关于网页的编码方式想了解更多可以参考网页编码方式

Request()

这个函数看着很奇怪,因为他就是之前urllib中request模块中首字母r进行大写后的名称。
通过Request()方式请求访问网址可用进行重构User-Agent,操作为

通过上面的直接使用urlopen()以及先用Request()构造新的User-Agent在使用urlopen()打开,可以看出来,url本身就可以作为urlopen的参数,也可以通过Request给url加了个headers后,再作为urlopen的参数。
更多的浏览器请求头可以参考浏览器User-Agent汇总

parse的意思是解析,这个模块主要就是用于encode转码操作。

urlencode()

按我的理解,urlencode()是的作用说白了就是将{key:value}构造成的key=encode(value)字符串格式,用于url的构造。举例

可见我们再爬取网页时首先就要对网页的url有充分的了解,关于百度网址的参数解析可以参考百度搜索网址参数解析

很奇怪的是,parse中虽然提供了{key:value}的urlencode方式,却没有对应的urldecode方式。下面介绍另一种编码方式。

quote

quote简单粗暴,它就是直接将value的值进行编码,转换为%e8…。
在拼接url的时候就可以直接

quote就有对应的反quote的函数,unquote,顾名思义,就是进行解码。

html打开出现乱码

在学习过程中,对代码还不是很理解,导致将他人代码敲入后,爬取了信息把并存入了一个html文件,结果打开出现乱码。
已解决
html文件打开出现乱码,但将其转换为txt格式打开确实有正常代码的,查明原因后知道了是由于编码解码方式等原因而导致的。
一开始我是直接将文件另存时,设置其编码方式,在新建文件打开时正常显示。后发现了原因,是在从网页爬取信息下来的时候解码方式是utf-8,然而在保存至html文件中时选择的是gb18030的方式,将其修改为utf-8后正常显示。但所参考的代码的作者意图就不得而知了。

进行百度搜索时,出现安全验证网页无法打开情况

<title>百度安全验证</title>
<div class=“timeout-title”>网络不给力,请稍后重试
(大部分省略)

查明原因可能时代理方面的问题,被服务器拒绝加入了,具体如何操作较为复杂,毕竟我是初学者,看也看不懂。

最新文章
潜伏在视频网站的垃圾营销
一.引言Neets视频网站及公众号的出现给广大追剧用户提供了优质的管理服务,用户可以在平台上搜索到众多资源。Neets收录了近2000条剧集条目,超过30000个视频链接,覆盖了包括美剧、日剧、韩剧、国产剧、动漫等在内的各种主流电视剧和部分
百度SEO价格的探索之旅
摘要:本文将探讨百度SEO价格的奇妙旅程。随着互联网的普及,SEO优化已成为网站提升排名、吸引流量的重要手段。百度SEO价格因各种因素而异,如关键词竞争度、优化工作量等。本文将介绍百度SEO价格的构成,以及如何在预算内获得最佳的SEO效
seo的优缺点是什么意思啊-seo的优点与缺点
在当今的互联网时代,SEO(搜索引擎优化)已经成为了网站推广和营销的重要手段之一,对于 SEO 的优缺点,人们的看法却不尽相同,SEO 的优缺点到底是什么意思呢?一、SEO 的优点1、提高网站的曝光度通过优化网站的内容、结构和关键词等因素
起名软件软件有哪些 最新起名软件软件排行
探寻好名字的奥秘?起名软件软件有哪些 最新起名软件排行榜这篇精华文章,带你走进科技与传统结合的命名世界。无论是新手父母还是商业创业者,都能在这里找到最新的、功能强大的软件工具,助你轻松打造独特而寓意深远的名字。一文在手,取
谷歌和百度的SEO优化有什么区别?
这个问题是客户或者外贸SEO新手们最常问的热门问题之一,可大部分的时候我们得到的答案就像:百度和谷歌SEO基本没有什么区别;只要专注于内容,做好链接,完善用户体验,排名自然会上去。可是别人会继续追问:“那为什么我的网站在谷歌排名
美国域名申请可以去哪些平台?申请美国域名要注意什么?
什么是美国域名?如果申请美国域名可以去哪些平台呢?申请美国域名要注意什么?由于一些原因,很多人喜欢申请美国域名去建站,下面小聚就给大家介绍下相关知识。1、什么是美国域名?美国域名,是United States的缩写。分为顶级域名、二级域名,
网站推广工作年度总结
网站推广工作年度总结(通用3篇)  来xx公司已近一年了,并担任seo推广工作。这几个月的时间,在单位领导、部门经理和同事的关心和帮助下,严格要求自己,遵守公司各项规章制度,与同事之间相处融洽;工作上,尽职尽责,除了做好本职工作
解决方案:如何优化百度网站?这七个步骤至关重要
要做网站优化,首先要满足用户和搜索引擎的需求,这样才能让我们的网站有更好的排名。那么如何为百度做网站优化呢?以下七个步骤至关重要!首先,蜘蛛是否包含文章首先看文章的原创性蜘蛛是否包含文章取决于文章的原创性。你有没有发现蜘蛛
成都网站优化网:揭秘高效SEO秘籍,助您网站排名飙升!(成都网站优化网掌握SEO技巧,让网站流量倍增!)
:成都网站优化网:揭秘网站优化之道,助力企业网络营销随着互联网的飞速发展,越来越多的企业开始重视网络营销,而网站优化作为网络营销的重要组成部分,越来越受到企业的关注。在成都,众多企业纷纷寻求专业的网站优化服务,以提升自身在
有哪些常见的网站域名后缀?
当然,我很乐意为您解答这个问题。在数字世界中,网站域名后缀扮演着非常重要的角色,它们不仅帮助用户识别网站的来源和类型,还是互联网地址系统的重要组成部分。下面,我们就来探讨一下那些常见的网站域名后缀。首先,最为人们熟知的莫过
相关文章
推荐文章
发表评论
0评