分享好友 最新资讯首页 最新资讯分类 切换频道
Python爬虫学了几个月感觉没用?过来人的经验总结收好!
2024-12-29 16:38

前几天有刷到一个提问:爬虫学了几个月了却还是不敢上手去接单,爬虫接单靠不靠谱

有些新手心里会犯嘀咕,怕不小心就踩了红线。作为过来人也接过不少单,来浅聊一下我的经验。

这篇所说的经验总结可能更适合爬虫新手,爬虫大佬可以忽略。

首先Python的一些语言基础肯定要有,爬虫大部分是用python写的,基本的语法、数据结构、函数等要熟练。

比如

  • List dict:用来序列化你爬的东西
  • 切片:用来对爬取的内容进行分割、生成
  • 条件判断(if等:用来解决爬虫过程中哪些要哪些不要的问题
  • 循环和迭代(for while:用来循环、重复爬虫动作
  • 文件读写操作:用来读取参数、保存趴下来的内容等

其次Python爬虫主要用到的库就是request库,这个库是必须要学习的,获取到的数据还需要你自行处理,通过数据筛选规则,正则表达式等等技术进行筛选。

还有就是知道如何应付反爬;现在很多网站都开发了属于自己的反爬机制,所以一些常见的反爬措施是需要学习掌握的,否则无法顺利爬取到想要的数据。

需要补充学习的部分

  • 大致了解网络协议:HTTP/HTTPS 协议、tcp-ip协议
  • 了解HTML 、CSS、等前端基础
  • 理解网站的POST GET的一些相关概念,JS的一些基本内容,方便理解动态网页。

总结一下

想要自己写一个Python爬虫程序,必须学会Python基础,包括环境安装、基础语法、字典、正则匹配、还有一些数据处理技术等等。

其次就是模拟请求的库request以及解析库的使用,还有一些反爬技术和前端基础。

其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的,(百度自营的产品除外,如百度知道、百科等)。

网络爬虫作为一门技术,技术本身是不违法的。

但是!记住重点!也不是网站的所有内容想爬就爬!随便你爬的

以下情况需要注意,爬虫有可能违法

(1)爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,也就是非法获取相关信息。

(2)爬取网上公开信息不犯法,但如果大量开启爬虫导致对方服务器崩溃,这属于暴力攻击的范畴了,肯定不可以的。

(3)爬虫采集的信息属于公民个人信息,不能涉及到个人的隐私问题,如果涉及了并通过非法途径收益了,那肯定是违法行为咯。

所以在接单的时候保持适当的严谨是有必要的,哪些单子能接,哪些不能接自己心里得有个判断和分寸。

不要为一些明显是做灰黑产的人或者公司写代码,最好的避免违法的办法就是明显觉得不太好的事情就不要去碰,不要抱侥幸心理。

(1)怎么接单

一般而言,对于刚刚开始接单的人而言,很难接到大单,基本上都是一些比较小的单。

但是没有关系啊,正好可以练手

这些小单是可以提供一个很好的锻炼以及实践的机会,所以不要害怕接。

接单新手基本上接的都是网络爬虫、数据分析等这类的单,当然也可能有一些自动化运维之类的,但是都比较少。

个人做的话不太建议去抢一些几千元一个的项目,难度比较大,交付时间又紧,有些还是团对作战在抢单,这类单子要做的话难度高。

一般我们向甲方提供爬虫、数据分析、数据清洗这样的服务。

一开始也不要想着一口塞进个包子,慢慢来,等到技术提升之后可以去接一些开发之类的活,像APP开发、小程序开发都是几千的单子。

通过接单平台赚外快是个直接快速的方法,不同的任务需求难度不同,报酬在一两百、几千上万都有,具体能赚多少,看自己的技术水平。

接单报价方式

简单公式:项目工时*日薪+紧急程度+报价

小tip:记得留个bug,防止不给尾款

(2)什么单不接

接单的时候自己掂量一下,有的单不建议接,因为可能对你没有太大的好处。

加急单不接

程序在写的时候你也不会清楚会遇到什么样的问题,可能你需要调试好久,调试也需要不少时间,最后做出来客户会不会满意也是个未知数,因此不建议接急单。

不给定金的单不接

定金很重要,一般会要10%左右的总金额最为定金吧,可能因人而异,但是建议是需要给定金的。

私人单尽量少接

因为风险大,正规平台的单相对安全一些,也不是说完全不要接,熟人介绍的有保障的还是可以接,只是说要谨慎,一般陌生私人的单我是不接的。

不接繁杂的单

有些单看上去很简单,但实际上要操作的东西很多,这样的单很耗时间,但是又不会有太多的报酬,比较浪费时间。就是钱少事多,这样的单一定要了解清楚再接。

(3)注意事项

1)文明爬虫,不做违法的爬虫(重点

2)接单时谨慎,避免被骗(重点

3)价钱一定要事先谈好(搞清楚客户所说的价格是税后价格还是税前价格,然后再开始做

4)没有金刚钻,就别揽瓷器活,接单一定要在自己能力范围内接

5)在边学边接单的时候,要注意时间,不能按时完工的单还是不要接

6)需求和要求一定要在做之前跟客户沟通好,了解清楚之后再做

7)对于大项目,可以请求客户先付一部分押金,时间最好跟客户沟通一下留有时间余地,程序修改也很费时间。

8)如果客户让你报价,要适当合理的综合考虑代码复杂程度、完成所需要的时间等等多种因素

9)好好检查你自己的代码和一些操作的算法实现的过程是不是完全正确的,千万不要犯低级的错误,否则会影响顾客对你的评价的。

如果你也想通过python做副业兼职赚钱的话,可以试试我的这份Python学习资料!希望可以帮到你们。

除了上述分享,如果你也喜欢编程,想通过学习Python获取更高薪资,这里给大家分享一份Python学习资料。

这里给大家展示一下我进的最近接单的截图

😝朋友们如果有需要的话,可以点击下方链接领取或者V扫描下方二维码联系领取,也可以内推兼职群哦~

🎁 CSDN大礼包,二维码失效时,点击这里领取👉【学习资料合集&相关工具&PyCharm永久使用版获取方式】

2.Python基础学习

01.开发工具
02.学习笔记
03.学习视频

3.Python小白必备手册

4.数据分析全套资源

5.Python面试集锦

01.面试资料
02.简历模板
因篇幅有限,仅展示部分资料,添加上方即可获取👆
最新文章
Binance Research:区块链支付
来源:Web3小律近期,Binance Research 发布了一篇 Web3 支付的研报,很好地梳理了传统支付、区块链 Web3 支付的现状,并通过结
3Cortex-R实时性能的处理器
ARM是业界领先的微处理器技术供应商,提供最广泛的微处理器内核,可满足几乎所有应用市场的性能、功耗和成本要求。
AI智能创意解决方案:覆创意生成、优化与执行的全方位指南
在数字化浪潮的推动下创意产业正经历着前所未有的变革。智能技术的飞速发展为创意工作者提供了一个全新的工具箱使得创意生成、优
GIT学习——天天都在用Git,那么你系统学习过吗?(学习过程)
学习圣思园张龙老师的Git课程。使用Mac编程的好处,不是因为Mac长得好看如果你还没有用Git,就不要写代码了。GitHub仓库的使用。
2021年天津“五一”文化和旅游活动大菜单
详情请关注天津市文化和旅游局官方微信、微博为让广大市民和游客度过一个欢乐、安全、祥和的“五一”假期,天津市文化和旅游局精
Facebook 代投不限品类:开启全球营销新机遇
不限品类投放与一些传统广告渠道相比,Facebook 代投不限品类,无论是电子产品、时尚服饰、美妆护肤还是食品饮料等,都可以在 Fa
B族智能
B族智能是一个专注于AI提示词交流和生成的平台。该网站提供多种AI工具和服务,包括在线生成Midjourney绘画提示词、AI作品分享、
AIppt制作,利用AI技术打造出色的演示文稿
在今天的数字时代,演示文稿成为了一个非常重要的沟通工具。然而,制作一个引人入胜、富有创意的演示文稿并不是一件容易的事情。
2024年30部恐怖怪物片前瞻,《异形》《变形金刚》《寂静岭》出新
新《异形》《寂静岭》电影将出,《哥斯拉大战金刚2》来袭,2024年有哪些惊悚怪物相关题材电影呢?新的一年已经到来,让我们来看
Acne Studios(成都远洋太古里店)
Acne Studios(成都远洋太古里店)地址位于四川省成都市锦江区中纱帽街8号成都远洋太古里F1,靠近三圣街、天仙桥北路和镋钯街,交