我之前推荐过大家使用,但是经过我多次试验,在爬取任务过多,比如线程数超过几十的时候,会经常崩溃,当然这也和启动的服务器有关。
鉴于的性能不适合普通装备的爬虫爱好者,我重新写了一款的最简爬虫案例,供大家参考。
https://github.com/a252937166/quick-selenium.git
quick-spring
便于在方法中使用和的相关语法,具体介绍详见:https://github.com/a252937166/quick-springselenium
这就不用多介绍了吧,百度一搜就知道了,用来解析网页的框架。
比较重要的文件我都勾画出来了。
ComicCrawler.java
控制每个网页的具体爬虫逻辑。App.java
爬虫启动类。application.properties
一些关键的配置信息,根据你自己的配置修改就行了。chromedriver
我这里上传的是环境的驱动器,如果是你是系统,请到http://npm.taobao.org/mirrors/chromedriver/自己下载。config.ini
网页驱动器的配置文件,比如你要选择哪一种驱动器,我这里选中的是,因为目前根据我的测试,它要比稳定一点。quick-applicationContext.xml
可以自己修改一些连接池的配置。
根据自己的配置,修改好、、的内容。
这些不用管,这是我把爬到的内容上传到七牛云的时候用到的。
找到
修改为自己的的路径。
修改
为自己的的路径,如果使用就不用了,的配置在里面声明。
填写自己的爬虫开始路径。
一定要注意使用,根据我多次的实验,长时间启动多个webDriver,不退出的话,也容易导致驱动器崩溃。
如果你们电脑配置过低,浏览器多次崩溃,不妨取消
这一段的注释,每解析50个网页就启动一个新的驱动器。
没有七牛云的同学,可以把这段代码注释,以免报错。
运行其中sql,初始化数据库,最后启动中的方法就可以了。