本实验主要通过requests、re与lxml库的使用,采集北京市政府招中标数据。(https://ggzyfw.beijing.gov.cn/index.html)
1、熟悉网页结构、了解网络抓包的技巧;
2、了解requests网络请求库的基本使用;
3、掌握基础的re、xpath语法的使用;
步骤1 观察网址结构
步骤2 获取子页面链接
步骤3 解析子页面,输出json文件
步骤1:观察网址结构
运行main.py,打印子页面链接如下图所示:
部分字段解析代码如下:
S表示匹配任意非空字符,()表示一个捕获组,pattern3这个re表达式可以提取到信息来源后面的文本数据。如果提取到了之后将其赋值给变量informationRelease
/============================================================================================================/