Python爬虫 - 猿人学Python爬虫
从98年google以搜索技术起家开始,互联网至今,以提供内容为主的互联网企业每一家都离不开小爬虫的帮助,大到互联网巨头,小到刚成立没几天的创业公司, 在早期没有足够内容来撑住自家网站和app时,都会采取抓取手段来补充内容,让自家产品显得内容满满。
还有好些公司的商业模式就建立在爬虫技术之上的,比如搜索引擎公司、大数据处理公司、网络舆情监控公司,没有数据,他们的公司就没法运转。
另外现如今互联网公司的获客成本上升,出现了增长黑客这个概念,里面的大量运营技巧都是要依赖于爬虫技术的手段来驱动,这里不是指抓数据,而是模仿用户请求,模仿用户操作,自动发贴等手法来新增和激活用户。
接下来老猿就来浅谈几家在这方面做得成功的公司。
1.提到爬虫,必然会说起搜索引擎,它是直接利用爬虫抓取信息来构建底层服务的。简单粗暴,但是直接有效,而如今世界上最大的两家搜索引擎服务公司(google和百度),已分别是7千亿和600亿美金市值。
2.现在已是国民资讯app的今日头条,早期通过抓取数百家机构的新闻源,然后以技术手段来分发给用户,做到千人千面的阅读体验,现在已是中国互联网公司第三极。
这也是一个在早期直接利用爬虫手段而成功的例子,如果不抓取别人的新闻资讯,今日头条根本不可能成功。
3.做职场社交,获得2亿美金投资的脉脉,早期直接抓取微博用户信息,用来弥补自身用户数量的不足,完成了脉脉早期几百万用户积累,不过脉脉抓取微博用户信息已被法院判决为非法,做社交媒体和舆情监控的估计没几家没抓过微博的数据吧。要小心噢。
当下随着国家知识产权法规越来越完善和严格,这种直接抓取别人信息然后直接商业化的行为够你进去蹲几年了。所以要慎重哦!!!
每个时代都有它所谓的企业原罪,8090年代是企业产权不明,要论互联网时代的原罪估计就是企业早期冷启动时抓取的内容是否应该直接商业化吧。
如果现在再做一个类似搜索引擎和今日头条的产品,不解决版权问题,会随时被请喝茶吧。那么现在爬虫抓取的内容就不能商业化了吗?
也不尽然,比如政府公开的数据是可以直接商用的。
4.在企业工商信息查询领域另辟蹊径的天眼查/企查查。 这两家企业把各个省,市的官方几千万家工商信息抓取出来,结构化整合后提供给用户查询,让人眼前一亮。
这个APP已成为创业者,投资人,老板们的标配APP,查询法人信息,企业股权结构等等一目了然。类似的数据还有商标,专利,法院判决文书等等
另外在电商领域抓取各家电商平台做比价网站一直是一个商业模式,比如即将在A股上市的什么值得买,把各家电商网站的商品和价格抓取过来,把他们的价格差异展示出来,方便用户查看哪家网站的便宜,但是后来各家电商网站都把价格信息图片化之后,解析准确价格的难度就加大了不少。
再比如在纳斯达克上市,后又被私有化的去哪儿网,在早期能够崛起成为一个机票和酒店预定的流量入口,就是他的搜索比价模式,实时抓取各家机票和酒店信息,把价格差异展示出来,而这正击中了用户想要买便宜的需求。
用抓取的数据发展成为一个商业模式的例子还有很多,以上举了几个较为知名的,还有老猿了解的很多个人站长,自由职业者都是靠着抓取和整合数据做出了不错的流量和用户,每年有不菲的收入,在面朝大海,春暖花开的地方,吃着火锅,喝着小酒,以后再为大家一一道来。