分享好友 最新动态首页 最新动态分类 切换频道
python爬虫实例100例-Python爬虫实例
2024-12-29 08:59

importrequestsfrom bs4 importBeautifulSoupfrom datetime importdatetimeimportreimportjsonimportpandas

news_total=[]

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-{}&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20'url='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1509373193047'

defparseListLinks(url):

newsdetails=[]

res=requests.get(url)

jd= json.loads(res.text.strip().lstrip('newsloadercallback(').rstrip(');'))for ent in jd['result']['data']:

newsdetails.append(getNewsDetail(ent['url']))returnnewsdetailsdefgetNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')[0].text

result['newssource']=soup.select('.time-source span a')[0].text

timesource=soup.select('.time-source')[0].contents[0].strip()

dt1=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['dt'] =dt1.strftime('%Y-%m-%d-%H:%M')

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.strip('责任编辑')

result['comments']=getCommentCounts(newsurl)print('获得一条新闻')returnresultdefgetCommentCounts(newsurl):

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

comments=requests.get(commentURL.format(newsid))

jd=json.loads(comments.text.strip('var data='))return jd['result']['count']['total']for i in range(1,8):print('正在爬取第'+str(i)+'页......')

newsurl=url.format(i)

newsary=parseListLinks(newsurl)

news_total.extend(newsary)print('抓取结束')

df=pandas.DataFrame(news_total)

最新文章
用无人/直播系统,告别传统直播的烦恼? 项目解析玩法分享+APP开/发+无人直/播系统,微三云麦超介绍
用无人/直播系统,告别传统直播的烦恼?项目解析玩法分享+APP开/发+无人直/播系统,微三云麦超介绍前文引言:微三云专注于系统研发,帮助企业转型到线上,目前开发了五大产品线云平台,区/块/链生态系统,云视商,超级APP,供应链,还有很
成品网站1688入口的网页版怎样,当然可以!以下是一些关于成品网站1688的拓展标题示例,每个都不少于10个字:
```html在中国,1688网站作为阿里巴巴集团旗下的重要平台,为中小企业提供了丰富的商品和服务。通过其网页版,用户可以更加便捷地浏览、搜索和购买各种产品。从原材料到成品应有尽有,这使得商家与消费者之间的交易变得高效而直接。
济南专业seo优化技巧(济南专业seo推广服务)
大家好,今天小编关注到一个比较有意思的话题,就是关于济南专业seo优化技巧的问题,于是小编就整理了5个相关介绍济南专业seo优化技巧的解答,让我们一起看看吧。济南seo外贸网站建设找谁好?Seo优化中外链的优化效果该如何提升?网站的排
获取会话记录数据
业务方通过企业微信提供的sdk,可以进行会话记录数据的获取、媒体数据的获取。linux环境 SDK:下载 SDK v2.0 [更新时间:2024-6-6更新特性:修复一些已知问题]windows环境 SDK:下载 SDK v2.0[更新时间:2024-6-6更新特性:修复一些已知问
小佩顿加盟开拓者,开拓者“兽医”,50年来到底耽误了多少人
最终,勇士还是选择留下了小佩顿,即便后者将因为核心肌群伤病休战三个月。道理很简单,勇士十分喜爱他们2022年夺冠功臣小佩顿,也有点儿喜爱小佩顿交易省下的3500万美刀。保留交易归保留交易,勇士同时还保留了对开拓者的上诉权,说对方在
幸福宝推广站长统计网站如何提升网站流量与转化率助力站长成功运营
在如今的互联网时代,网站流量和转化率是每个站长追求的目标。尤其是在推广平台中,如何通过精准的数据统计来提升网站的运营效果,成为了许多站长关注的焦点。幸福宝作为一种流行的推广方式,借助其强大的数据统计功能,能够帮助站长更好地
百度副总裁侯震宇:云计算已进入AI
【环球网科技综合报道】“云计算已经进入到AI-Native的阶段,我们的应用服务要更好的拥抱AI的基础设施,智能计算将成为AI新基建发展的新动能。”近日,百度集团副总裁侯震宇在Qcon全球软件开发大会2021上分享道。据介绍,AI算力和AI需求大
手机网游热度排行游戏推荐-热门网游人气值排行榜前十名
想必很多小伙伴都很喜欢玩热度高的新游,就图个人多的热闹,小编这里准备了手机网游热度排行游戏推荐,类型齐全,并且好玩易上手,各种2022人气超高的游戏尽在18183手游网,快来看看热门网游人气值排行榜前十名吧!《咪噜游戏盒子》咪噜游
python代替shell脚本_python的简洁是shell无法代替的
之前线上服务器分发配置都是用shell和expect脚本分发,脚本写了很长,上周换了ansible,现在自己用python写一个,就30行代码就可以实现需求,之前的shell写了快200行了,蛋疼,代码如下:
提供ins广告投放推广引流
提供ins广告投放推广引流instagram广告投放步骤:创建广告系列在instagram应用中,点击“创建广告系列”,在广告系列名称旁边输入广告系列的名称,或使用显示的默认名称。选择目标与Facebook不同,要创建和投放Instagram广告,只能在以下七
相关文章
推荐文章
发表评论
0评