Python网络爬虫实战——实验2：Python爬虫网络请求与内容解析

日期：2024-12-25 作者：4aw9d 移动：http://oml01z.riyuangf.com/mobile/quote/17250.html

本实验主要通过requests、re与lxml库的使用，采集北京市政府招中标数据。（https://ggzyfw.beijing.gov.cn/index.html）

1、熟悉网页结构、了解网络抓包的技巧；
2、了解requests网络请求库的基本使用；
3、掌握基础的re、xpath语法的使用；

步骤1 观察网址结构
步骤2 获取子页面链接
步骤3 解析子页面，输出json文件

步骤1：观察网址结构

运行main.py，打印子页面链接如下图所示：

部分字段解析代码如下：

S表示匹配任意非空字符，()表示一个捕获组，pattern3这个re表达式可以提取到信息来源后面的文本数据。如果提取到了之后将其赋值给变量informationRelease
/============================================================================================================/

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行