想要分析的时候,没有数据,就是巧妇难为无米之炊。以前想找一个数据需要费尽心思再往上去搜,最终还找不到自己想要的数据。通过编程爬虫数据学习成本太高,又不是想要成为爬虫工程师,只是想要拿到数据来分析。那有没有傻瓜式的获取数据方法呢?
下面介绍3种获取数据的方法,选择一种适合你自己的方法就可以。
谷歌推出了一个帮助数据分析、数据科学领域的人查找数据的搜索引擎Dataset Search (需要科学上网后打开,地址:)。
打开这个数据搜索引擎,如果我们想要搜索电商亚马逊的数据,搜出关键词「亚马逊」,就能看到亚马逊相关的数据,在搜索结果里有的数据是要收费的,有的数据是免费的。
【优点】可以直接获取想要的数据
【缺点】需要自己慢慢去查找免费的数据,有的是英文数据
国外平台:kaggle使用办法
国内平台:DC竞赛,泰迪杯
在网站上爬取你感兴趣领域网站的数据
1)工具: 后羿,同时有mac,windows版本
网址:
打开官网后点击下图“教程”的地方有入门教程。
点击“关于我们”有官网qq群,遇到问题可以在群里提问。
2)工具:集搜客,只有windows版本
操作指南只需要看下面红框中的内容就可以,遇到问题在它的官网QQ群提问就可以解决。操作指南地址:
爬取多少数据?
数据量少一般说明不了什么问题,起码的超过几万条数据。
多尝试、思维逻辑要清晰,一定要知道自己做什么,爬取什么样的数据,提前规划好了,整个过程就不会走太多的弯路。
案例:
【优点】可以获取到自己想要的领域数据
【缺点】需要看官网教程来学习,学习过程中遇到问题咨询官网QQ群可以解决