做一个爬虫专用的url解析器

   日期:2024-12-29     作者:tcetc       评论:0    移动:http://oml01z.riyuangf.com/mobile/news/12879.html
核心提示:首先是获取三个或以上的url(带参数的url) 然后通过字符串方法将url中的基础url跟参数分离开 通过对比多个url中的同一个参数的值,

首先是获取三个或以上的url(带参数的url)

做一个爬虫专用的url解析器

然后通过字符串方法将url中的基础url跟参数分离开

通过对比多个url中的同一个参数的值,

将参数分成三类

一类为不变的参数,一类为会改变的参数,还有一类是时有时无(可有可无)的参数

最后做成GUI,界面设想如下

在左上方的text窗输入url,点击加入,在右侧列表窗会显示已添加的url,如果存在希望删除的url,点击列表窗中对应的url,点击删除即可从列表窗中移除,点击解析,即对url进行解析

GUI部分

QT界面虽易做,可惜还没时间去研究QT的gui后台代码怎么实现,所以还是用tkinter好了

以下是界面代码

暂时还没有封装成类,界面也一般,不过这次加了定时器,可以定时刷新内容,牛刀小试,每秒刷新一次时间好了

界面看着其实还不赖

 

两个结果窗显示的原理大概就是将加入的url送到后台,解析后得到的结果是一个字典

左边的列表框显示的是字典的键,右边的标签显示的是单一某键对应的键值,一般就是某个参数的结果罗列

通过点击右侧的列表框的具体内容决定右侧标签显示何种内容

在显示结果的标签框 label_result 背后由一个专门存放全部数据的隐藏标签,即是代码中的 label_hidden

需要切换内容的时候即从 label_hidden 中提取出来数据以调用

后端url处理部分

通过前端得到的一个列表

首先分析一下url是否为有?存在的带参url,如果不是,则返回带有错误提示信息的字典

 

然后遍历分析url主体是否一致(为了避免有时手残输错别的url),确定一致了才仅需进行参数解析,但需要注意的是,即便是同一个网站,也会有出现http或https各种开头的情况,为了避免这种状况,url主体只取到https://后面到?前面的部分来进行对比

 

接下来就是参数分析,其实也简单,以&分割参数,获得参数键值对列表,再对参数列表进行遍历,以=分割键与值,将拥有相同键名的键值存放到另一字典中相同键名下的列表里

 

最后将存放参数的字典进行遍历,

第一步分析是否为可缺省参数,键值中的参数列表的长度小于输入url列表的长度即为存在缺省,意味着该参数可缺省,如果是可缺省,continue继续下一次循环

第二步分析是否为不变参数,计算键值中的参数列表的集合长度,如果为1,即为不变参数

否则则是或改变参数

 

最后将分析结果做成字典,输出到前端

 

具体代码如下

结果展示

取了百度贴吧三个搜索结果下的url,分别是python,matlab,c

http://tieba.baidu.com/f?ie=utf-8&kw=python&fr=search

http://tieba.baidu.com/f?ie=utf-8&kw=matlab&fr=search

http://tieba.baidu.com/f?ie=utf-8&kw=c&fr=search

加入到列表框之后,点击""解析""

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号