分享好友 最新动态首页 最新动态分类 切换频道
如何优雅的扒网站——工具篇
2024-12-26 03:44
 

         在上一篇文章里本人介绍了扒网站的入门知识。可以说是仿站的必备知识。不过,在实战中没必要所有的页面都要全部手动去操作处理,完全可以借助大牛们写好的工具。网上搜索仿站工具或扒站工具能找到一堆,我就不一一介绍了。今天就分为两个部分来讲一讲扒站工具,第一部分是针对单页面的,第二部分是针对整站的。不要以为有了整站下载工具第一部分就可以跳过。目前为止我还没有找到一款完美的整站下载工具,大部分都要很繁锁地处理代码。所以除非页面很多,不然真不如单个页面分别抓取更快捷一些。

如何优雅的扒网站——工具篇

         第一个工具是抓取单网页的。

         每个软件的名称不一样,但是使用方法都是大同小异。我在这里就拿这个仿站工具举例了。首先打开软件,添加要抓取的网页地址,再点击下一步。

         然后,选择好存放站点文件的目录,点击开始下载,等待下载完成即可。

 

         到这一步已经完成,打开选择的存放目录,你需要的文件已经按image,css,js分类好了,其中image是页面引用的图片,picture是css中引用的图片。是不是soeasy.

         第二部分是整站下载

         感觉整站下载是个高大上的手段,能把别人的网站整个剽窃下来。不过下面的步骤可能会令你有些失望。因为我使用的这个工具有太多不尽人意之处,比如说html,css,js没有美观的分类,html命名莫名地冗长,背景图片的无端丢失,还有软件商植入的标签痕迹。带着这些问题点我们要一一解决掉。

         先给这个工具来个特写吧,我是没有花钱直接下载的注册版,估计花钱购买的会更好用一些。

         首先在菜单栏,依次选择文件-新建项目向导,在弹出框里点击下一步。

         然后,还是傻瓜式的操作。填写上要抓的网站地址,当然是写网站首页。链接深度不用管用默认的3就可以,接着点下一步。

         接下来还是下一步,如果有账号密码就填上,没有就忽略。

         一路点完成后,会提示选择存放路径。然后配置步骤就算完成了。然后激动人心的时刻来了,点击工具栏的三角图标。整站下载就开始了,等一两分钟,提示下载完成。

 

         不要以为这就算结束了,这才刚刚开始。你也看到了,所有文件都放在一个目录里。而且我已经按照类型排序,还是如此混乱。幸好是只有两个页面,如果多的话那要乱成什么样子。下面的工作就是处理我一开始说的各种问题,包括统一命名。因为如果有子页面的话,他会用特别长的字符来命名。

1.      按类型分类。

按类型分类是个很好的习惯,强列建议把这一步放在第一位,谨记分类后把页面的引入路径批量调整下。

 

         2.使用正则去掉tppabs标记

                   如果你用的工具没有这种流氓行为那么可以忽略这一步。如果有那么我们就需要使用正则来批量替换了。这应该是特别简单的正则了,具体语句和替换方式请根据使用工具和文本编辑软件来使用,这里以sublime作参考,tppabs="[^"]+"

  3.使用脚本下载css中的背景图片。

          上面提到过了,这个工具会漏掉css文件中的背景图片文件。那么我们就需要单独写个脚本来下载图片了。至于用什么脚本看你擅长什么了。我用的是php,所以用php脚本作参考。同第一步一样,下载好以后,记得把引入的文件路径与实际路径对应上。

  

 

4.批量命名文件

不嫌麻烦的话手动重命名未尝不可,我在这里只是提供一个思路,肯定会有更好的方法。

首先打开cmd,进入存放html文件的目录,使用dir /b>abc.xls  命令把所有文件导出到abc.xls的excel表格里。然后,使用分列,合并等等方法,把每一条内容变成

 

 

类似这样一条命令,再把命令脚本全都放在一个记事本里,保存成bat拓展名的可执行脚本放在Html文件目录,双击执行就ok了。当然还有关键的一步,把html文件中的引入路径,链接路径批量替换一下。

 

 

最新文章
医图顶会 MICCAI‘24 | A2FSeg:用于医学图像分割的自适应多模态融合网络
论文信息 题目:A2FSeg: Adaptive Multi-modal Fusion Network for Medical Image Segmentation A2FSeg:用于医学图像分割的自适应多模态融合网络 源码链接:https://github.com/Zirui0623/A2FSeg.git 论文创新点提出了
用AI绘制超真实美女写真,轻松成为你的数字女友!
搜狐简单AI:作为最近在社交媒体上爆火的工具,搜狐简单AI的操作界面十分友好,即使是新手也可以在短时间内轻松上手。无论是馈赠好友还是自用,生成的效果通常都令人满意。它的缺点在于,有些细节处理上可能不如专业画图工具细致,但绝对算
林肯领航员 2024 款的智能科技系统好用吗?
林肯领航员 2024 款的智能科技系统好用。 它配备了 13.2 英寸悬浮式中控屏以及 12.3 英寸液晶仪表盘,让您轻松掌控车辆各种信息。 智能配置上,第二排充电口升级为双 Type-C 接口,满足智能设备充电需求。 伯爵特别版车型采用红咖棕配色,
误删数据不用愁,五大恢复策略解您忧!
数字化浪潮中,数据宛如我们的虚拟财富,蕴含着无数回忆、灵感与心血。然而,意外删除数据的情况却如影随形,令人懊恼不已。别慌,接下来就为您详细介绍五种高效的数据恢复策略,助您在数据丢失的困境中迅速找回珍贵资料。1. 备份还原法备
百度首页关键词优化:实战经验引领高效SEO策略
在搜索引擎竞争日益激烈的今天,我深知每个关键词都承载着企业的期望与梦想。凭借多年的SEO实战经验,我深刻体会到百度首页关键词优化的重要性。今天,我将从策略到实践,为你揭秘如何精准出击,让目标关键词跃居百度首页。一、关键词策略
王菲获奖记录(1989-2015)王菲音乐成就
2004年新加坡金曲奖流行音乐大奖颁奖组委会评价王菲:爱唱、会唱、能唱的全方位艺人,亚洲华语乐坛的第一天后。 全球华语音乐榜中榜为王菲颁发十全十美奖。 从1989年到2000年,十余年间,20张唱片,港台、日本、新加坡地区可统计的正版粤语
本月新闻:北京毛囊炎医院十佳排行榜单
  2024新推荐:北京毛囊炎医院十佳排行榜单-北京德胜门中医院皮肤科荣登前十,北京治疗毛囊炎医院较新排名出炉:1.北京德胜门中医院皮肤科,2.北京某医院皮肤科,3.北京另一医院皮肤科。面对毛囊炎的困扰,选择一家专业且口碑良好的医院
使用idea 创建 推送docker镜像 并创建运行容器
Intellij IDEA快速实现Docker镜像部署的方法步骤编辑vim /lib/systemd/system/docker.service添加-H tcp://0.0.0.0:2375 此处如果打包的jar包没有包含依赖,需要增加如下常规做法如果需要读取外部的配置文件 3)、在宿主机下新
篮球巨星詹姆斯的新里程碑数据汇总
篮球巨星詹姆斯再创辉煌,最新数据汇总展现其新里程碑。他在赛场上展现出无与伦比的实力,不断刷新个人记录,成为篮球界的一大亮点。他的出色表现和卓越成就,为球迷们带来了无尽的惊喜和骄傲。自从踏入NBA的那一刻起,詹姆斯便以卓越的篮
皇冠热水器售后服务电话24小时各地区《今日发布》 多所高校提出使用AI的多个“禁止” 学术论文使用AI边界在哪儿?
皇冠热水器统一维修热线电话《今日汇总》皇冠热水器各热线号码2024已更新(2024已更新)皇冠热水器维修电话:(1)400-965-8692(点击咨询)(2)400-965-8692(点击咨询)皇冠热水器24小时热线(1)400-965-8692(点击咨询)(2)400-965-8692
相关文章
推荐文章
发表评论
0评