分享好友 最新动态首页 最新动态分类 切换频道
23个Python爬虫开源项目代码
2024-12-26 20:52

今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快

23个Python爬虫开源项目代码

1、WechatSogou [1]– 微信公众号爬虫。

基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

github地址:https://github.com/Chyroc/WechatSogou

2、DouBanSpider [2]– 豆瓣读书爬虫。

可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

github地址:https://github.com/lanbing510/DouBanSpider

3、zhihu_spider [3]– 知乎爬虫。

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

github地址:https://github.com/LiuRoy/zhihu_spider

4、bilibili-user [4]– Bilibili用户爬虫。

总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

github地址:https://github.com/airingursb/bilibili-user

5、SinaSpider [5]– 新浪微博爬虫。

主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

github地址:https://github.com/LiuXingMing/SinaSpider

6、distribute_crawler [6]– 小说下载分布式爬虫。

使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。

github地址:https://github.com/gnemoug/distribute_crawler

7、CnkiSpider [7]– 中国知网爬虫。

设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

github地址:https://github.com/yanzhou/CnkiSpider

8、LianJiaSpider [8]– 链家网爬虫。

爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。

github地址:https://github.com/lanbing510/LianJiaSpider

9、scrapy_jingdong [9]– 京东爬虫。

基于scrapy的京东网站爬虫,保存格式为csv。

github地址:https://github.com/taizilongxu/scrapy_jingdong

10、QQ-Groups-Spider [10]– QQ 群爬虫。

批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

github地址:https://github.com/caspartse/QQ-Groups-Spider

11、wooyun_public[11]-乌云爬虫。

乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽;爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。

https://github.com/hanc00l/wooyun_public

12、spider[12]– hao123网站爬虫。

以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右

https://github.com/simapple/spider

13、findtrip [13]– 机票爬虫(去哪儿和携程网)。

Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。

https://github.com/fankcoder/findtrip

14、163spider [14] – 基于requests、MySQLdb、torndb的网易客户端内容爬虫

https://github.com/leyle/163spider

15、doubanspiders[15]– 豆瓣电影、书籍、小组、相册、东西等爬虫集

https://github.com/fanpei91/doubanspiders

16、QQSpider [16]– QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。

https://github.com/LiuXingMing/QQSpider

17、baidu-music-spider [17]– 百度mp3全站爬虫,使用redis支持断点续传。

https://github.com/Shu-Ji/baidu-music-spider

18、tbcrawler[18]– 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。

https://github.com/pakoo/tbcrawler

stockholm [19]– 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓19、取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

https://github.com/benitoro/stockholm

20、BaiduyunSpider[20]-百度云盘爬虫。

https://github.com/k1995/BaiduyunSpider

21、Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。

https://github.com/Qutan/Spider

22、proxy pool[22]-Python爬虫代理IP池(proxy pool)。

https://github.com/jhao104/proxy_pool

23、music-163[23]-爬取网易云音乐所有歌曲的评论。

https://github.com/RitterHou/music-163

Python 的迅速崛起对整个行业来说都是极其有利的 ,但“”,导致它平添了许许多多的批评,不过依旧挡不住它火爆的发展势头。

如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
点击这里

① 学习路线

② 路线对应学习视频

③练习题

① 文档和书籍资料

①Python工具包

②Python实战案例

③Python小游戏源码

最新文章
高清美女写真生成工具评测:揭秘AI时代的照片美化神器!
Artbreeder:以其独特的混合图像特性而闻名,用户可以通过调整不同参数,如性别、年龄和情感来生成各种风格的美女画像。这款工具的优点在于高度自由的个性化设置,用户能得出令人满意的作品。劣势是,操作相对复杂,可能对新手用户不够友好
请回答2024丨查博士CEO段学超:发力新能源汽车检测,让消费者放心购买二手车
封面新闻记者 付文超随着新能源汽车保有量的快速提升,新能源二手车市场也迎来了快速发展,正悄然成为“市场新宠”。新能源二手车走俏,主要得益于大众对新能源汽车消费观念的改变和二手车市场性价比的持续改善。段学超:2024年,我深切地
零基础学Python:编程规范
python注释也有自己的规范,在文章中会介绍到。注释可以起到一个备注的作用,团队合作的时候,个人编写的代码经常会被多人调用,为了让别人能更容易理解代码的通途,使用注释是非常有效的。 在说规范之前我
用AI生成美女写真,点击一键体验超逼真生成神器!
在这个数字化时代,科技的进步让我们的生活变得更加丰富多彩。你是否曾经想过,用不真实的头像在社交网络上吸引眼球,甚至在生活中生成您理想中的“美女写真”?无论你是因为工作需要,还是为了展示个人风格,AI绘画工具都能为你提供强大的
seo短视频网页入口引流:快速提升流量神器
```htmlSEO短视频引流入口:快速提升流量神器在当今的数字化时代,短视频已经成为一种强大的营销工具。无论你是品牌、个人创作者还是企业主,利用短视频来提升流量都变得至关重要。特别是对于SEO而言,短视频不仅仅是内容的一种形式,它还
高效管理从这里开始:教培机构如何使用管理软件提高团队协作
一、教育培训行业的工作流程和管理挑战教育培训机构通常涉及到多个课程和项目,每个课程都需要精心设计教学大纲、选择合适的教材、安排授课教师、调度课时等。由于课程内容和要求的多样性,如何在不同课程之间进行高效协调、确保每项工作按
广告信息流(5个搜索引擎信息流广告效果和投放体验)
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室依法管网、依法办网、依法上网的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和
鱼尾纹去哪儿了?揭秘神奇“提拉术”背后的秘密!
想要肌肤紧致如初,鱼尾纹不再扰?"鱼尾纹提拉术"可能就是你的救星!本文带你探索这一逆龄魔法,揭秘背后科技,让你的青春永不落幕。亲爱的小伙伴们,是不是每天对着镜子,看着那些悄悄爬上眼角的鱼尾纹,心里直犯嘀咕:“时间去哪儿了?”
直播礼物排行榜揭秘:谁最受宠汉字魅力如何体现
一、直播礼物排行榜:谁在直播中独领风骚?在现今的直播行业中,礼物排行榜成为了衡量主播人气和受欢迎程度的重要指标。众多直播平台都会根据观众送出的礼物数量和价值,来排定一个礼物排行榜。在这个榜单上,我们可以看到谁是最受宠的主播
蔚来ES6值得入手 细分市场的王炸
外观方面,蔚来汽车es6整体造型非常的时尚大气,前脸采用了家族式的设计语言,中间的镀铬横条将两侧的大灯连接,拉宽了整个车头的横向视觉效果,下方采用了银色的镀铬饰条进行装饰,使得前脸看上去更加精致。车身侧面,整体造型非常的修长
相关文章
推荐文章
发表评论
0评