分享好友 最新动态首页 最新动态分类 切换频道
wget 下载整个网站(扒站)及如何避开 robots.txt 限制下载
2024-12-26 08:51
wget -c -r -p -np -k http://xxx.com/xxx

其中
-c, --continue (断点续传) 接着下载没下载完的文件
-r, --recursive(递归) specify recursive download.(指定递归下载
-p, --page-requisites(页面必需元素) get all images, etc. needed to display HTML page.(下载所有的图片等页面显示所需的内容
-np, --no-parent(不追溯至父级) don't ascend to the parent directory.
-k, --convert-links(转换链接) make links in downloaded HTML point to local files.(将下载的HTML页面中的链接转换为相对链接即本地链接

 

wget -r -p -k -np [网址]
参数说明
-r : 递归下载
-p : 下载所有用于显示 HTML 页面的图片之类的元素
-k : 在转换文件 X 前先将它备份为 X.orig。
-np: 不追溯至父目录

$ wget -r -np -nd http://example.com/packages/

这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,-np 的作用是不遍历父目录,-nd 表示不在本机重新创建目录结构。

$ wget -m -k (-H) http://www.example.com/

该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。

 


与上一条命令相似,但多加了一个 –accept=iso 选项,这指示 wget 仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名,只需用逗号分隔即可。


此命令常用于批量下载的情形,把所有需要下载文件的地址放到 filename.txt 中,然后 wget 就会自动为你下载所有文件了。


这里所指定的 -c 选项的作用为断点续传。


该命令可用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。-l, –level=NUMBER 最大递归深度 (inf 或 0 代表无穷)。

最后一条就是用来镜像一个网站的,简单有效,速度超快,镜像下来网站文件结构,代码都完整无须修改。

 

脚本如下

 
 

或者使用:

 
 

如果有些站点禁止了SEO 收录,那么有可能下载的只能下载一个robots.txt 文件,此时,我们可以使用 -e 参数,即脚本

 
 

有些网站限制了WGET 访问,此时我们可以使用参数 -U ,即使用 –user-agent=AGENT 使用 AGENT 取代 Wget/VERSION 作为识别代号

 
 

 

找到你站点的Nginx配置文件地址(使用yum,apt-get安装的Nginx,通常会在/etc/nginx/conf/ 或 /usr/local/nginx/conf/)

添加以下配置

server {
    listen 80;
    server_name 你的域名.com www.你的域名.com;
    rewrite ^(.*)$ http://你的域名.com$1permanent;
    location / {
    if ($http_user_agent ~* (wget|ab) ) {
    return 403;
    }
    if ($http_user_agent ~* LWP :: Simple|Wget) {
    return 403;
    }
}
}

亦可设置成 return 444;   这样对方不会收到403错误信息,只会像网站缓慢无法链接.

编辑完保存后,执行

service nginx restart    重启Nginx

至此,Nginx配置防扒完成。

 

很多人玩linux差不都会用wget来下载一些文件来配置或者安装软件,当然也有人会用它来递归下载的你的网站内容,下面介绍一下如何配置Nginx实现防止别人通过wget下载你的网站内容和如何破解因为Nginx或Apache设置禁止wget或curl。

防止Wget递归下载

假设Nginx默认配置文件所在目录
wget的默认User Agent是GNU/Linux,wget,因此我们只需要阻止该UA的访问并返回403即可。

Nginx配置如下

 
 

扩展
Nginx中有一个独特的HTTP 444状态,如果配置return 444,那么对方就不会收到错误信息,看起来就像是网站服务器打开缓慢导致无法连接一样。

破解禁止wget或curl下载

某些网站设置了网站服务器或者iptables的参数禁止wget/curl的访问,让我们不能愉快地扒站了怎么办?其实大部分只是禁止了wget/curl的User Agent,我们只需要给他们设置一个正常的浏览器UA即可。

临时变更wget的UA

在wget前加上参数 ,代表设置User Aagent

 
  
 
永久变更Wget的UA

添加以下代码到/etc/wgetrc

 
  
 
变更curl的UA

使用以下参数

 
 

同时,curl也可以传递refer信息来跳过某些防盗链设置

 
 

这代表从Google跳转到我们的网站.

最新文章
什么是淘宝sku双图技术?
什么是淘宝sku双图技术?淘宝各种图片,标题,转链接,客服,综合技术过排除查防排查如有不懂请咨询下面请忽略淘宝SKU双图技术是指在淘宝电商平台上,针对同一个商品的不同款式或颜色,提供两张不同的主图进行展示的一项技术。这一技术的引
正在阅读:王者荣耀地区排名怎么弄 地区排名设置方法王者荣耀地区排名怎么弄 地区排名设置方法
  王者荣耀地区排名怎么弄?很多玩家都不知道荣耀战区怎么去看地区排名,接下来小编就带大家来了解下,赶紧来看看。  王者荣耀地区排名怎么弄?  【荣耀战区开启与进入】  只要开启排位赛即可默认激活荣耀战区玩法,排位赛入口增加
卧底QQ自杀群:轻松加入 每天随时有人约死
  20岁的湖南大学生小伟通过QQ群和网友相约去峨眉山跳崖,小伟父亲李朝晖假扮女网友卧底该QQ群,成功救下另一名轻生者,但第二天,李朝晖就收到警方消息:小伟已另约他人在长沙双双跳楼身亡。  这起悲剧,揭开了一个不为人知的群体:相
盘点十大豪华跑车,探寻最具驾驶乐趣的顶级豪车盛宴
1、Hennessey Venom GT:Hennessey Venom GT是美国改装厂Hennessey推出的一款超级豪华跑车,全球限量发行仅10台,享有“世界上最快的跑车”之美誉,其参考价格约在7000万元人民币左右。2、法拉利:作为世界顶级跑车品牌,法拉利以生产高性
救援金?:华文云聊app新型骗术出炉不能提出!男子步步沦陷直到倾家荡产
某天晚上,柳先生玩手机,浏览到一个网站,里面弹出一个链接被骗!不可信!细节回想就是猫腻揭开!!,在好奇心的驱使下,柳先生下载了被骗!不可信!细节回想就是猫腻揭开!!,进入之后,有被骗!不可信!细节回想就是猫腻揭开!!平台的客服来联系柳
谷歌SEO中,有合法的Back Link工具吗?
在SEO的浩瀚宇宙中,Back Link(反向链接)如同星辰般璀璨,它们不仅是网站权重传递的桥梁,更是提升谷歌搜索排名的关键。作为一名长期奋战在SEO前线的战士,我深知合法且高效的Back Link工具对于优化工作的重要性。今天,就让我们一起揭开
探访数智新重庆:5G与AI赋能产业升级的前沿实践
【环球网科技综合报道】高质量的5G网络、强大的AI能力作为新质生产力的重要组成部分,将有效赋能包括制造业在内的千行万业数字化化、智能化、绿色化转型升级,推动融合应用新业态、新模式蓬勃兴起,促进经济社会高质量发展。近日,环球网记
甘肃司法鉴定机构都有哪些?
在诉讼案件中如果涉及专业性问题,如伤残等级,就需要将相关的鉴定资料交由有资质的司法鉴定机构进行鉴定,由司法鉴定机构提供公平科学、真实可靠的鉴定结果。而想要申请司法鉴定除了要知道如何申请司法鉴定外,还必须对当地司法鉴定机构的
甘肃司法鉴定机构都有哪些?
在诉讼案件中如果涉及专业性问题,如伤残等级,就需要将相关的鉴定资料交由有资质的司法鉴定机构进行鉴定,由司法鉴定机构提供公平科学、真实可靠的鉴定结果。而想要申请司法鉴定除了要知道如何申请司法鉴定外,还必须对当地司法鉴定机构的
一键root工具有用吗?这款强力root工具带你一键root操作
如今智能手机当道,一键 root 工具饱受争议。我对其了若指掌,无人能及。它似双刃剑,是开启潜能的神器,还是潜藏危机的雷区?我将凭深厚认知,为你深度剖析其真相。一、一键 root 有用吗?直接对手机进行 root 权限设置的软件存在诸多风险
相关文章
推荐文章
发表评论
0评