wget 整站下载 批量下载(递归下载至本地)

有个小资料站想整站下载保存,想起 wget 能胜任,Google 找来方法,wget 确实好用。

wget 是一个从网络上自动(可以在用户退出系统的之后在后台执行,直至任务完成)下载文件的自由工具,支持 HTTP,HTTPS 和 FTP 协议,可以使用 HTTP 代理。

wget 镜像/下载整站

使用 wget 镜像/下载整站出现 error 403 forbidden,可尝试在 wget 加上参数 -U 设置User Agent,如:

wget ooxx.com -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"

wget -m 镜像站点

wget -m --no-check-certificate www.example.com

-m —— 镜像 (–mirror 等价于 -r -N -l inf -nr) --no-check-certificate —— 不检查 SSL 证书

以递归的方式下载整站,并将页面中链接转换为本地链接

wget -r -p -np -k http://www.example.com

说明:

  • -r, –recursive(递归)
  • -k, –convert-links(转换链接、将 HTML 页面中的链接转换为相对链接即本地链接)
  • -p, –page-requisites(下载所有的图片等页面显示所需的内容)
  • -np, –no-parent(不追溯至父级)
  • –restrict-file-names=nocontrol 用来解决中文乱码问题(需要可以试试)

使用 wget 同步网站镜像

wget -m -L –reject = http://www.***.com/***/

来源:(原创)使用wget同步网站镜像的方法

下载整个 example.com 网站

wget --random-wait -r -p -e robots=off -U mozilla http://example.com

wget 其他使用技巧

来源:wget 使用技巧

wget -r -np -nd http://example.com/packages/

下载 http://example.com 网站上 packages 目录中所有文件。其中,-np 作用是不遍历父目录,-nd 表示不在本机重新创建目录结构。

wget -r -np -nd --accept=iso http://example.com/centos-5/i386/

与上一条命令相似,但多加一个 --accept=iso 选项,这指示 wget 仅下载 i386 目录中所有扩展名为 iso 的文件。也可以指定多个扩展名,只需用逗号分隔即可。

wget -i filename.txt

常用于批量下载,把所有需要下载文件的地址放到 filename.txt 中,然后 wget 就会自动下载所有文件。

wget -c http://example.com/really-big-file.iso

这里所指定的 -c 选项的作用为断点续传。

wget -m -k (-H) http://www.example.com/

用来镜像一个网站,wget 将对链接进行转换。如果网站中的图像是放在另外的站点,那么可以使用 -H 选项。

wget -nd -r -l1 --no-parent http://ooxx.com/packages/

下载 packages 目录下所有文件:-nd 不创建目录;-r 递归下载;-l1只下载当前目录下的文件;–no-parent 不下载父目录中的文件。

wget -nd -r -l1 --no-parent -A.ipk -A.gz http://ooxx.com/packages/

只下载 http://ooxx.com/packages/ 当前目录下 .ipk 后缀文件和 .gz 后缀文件。

wget -c -r -np -k -L --reject=html http://mirrors.rit.edu/rpi/images/ -e robots=off

下载网站目录下除 html 外的文件和目录,且不遵守 robots.txt 限制。

wget 各种选项分类列表

来源:博客教主 - (整理)wget 参数用法详解

启动

-V, –version 显示wget的版本后退出
-h, –help 打印语法帮助
-b, –background 启动后转入后台执行
-e, –execute=COMMAND 执行 `.wgetrc' 格式的命令,wgetrc 格式参见 /etc/wgetrc 或 ~/.wgetrc

记录和输入文件

-o, –output-file=FILE 把记录写到FILE文件中
-a, –append-output=FILE 把记录追加到FILE文件中
-d, –debug 打印调试输出
-q, –quiet 安静模式(没有输出)
-v, –verbose 冗长模式(这是缺省设置)
-nv, –non-verbose 关掉冗长模式,但不是安静模式
-i, –input-file=FILE 下载在FILE文件中出现的URLs
-F, –force-html 把输入文件当作HTML格式文件对待
-B, –base=URL 将URL作为在-F -i参数指定的文件中出现的相对链接的前缀
–sslcertfile=FILE 可选客户端证书
–sslcertkey=KEYFILE 可选客户端证书的KEYFILE
–egd-file=FILE 指定EGD socket的文件名

下载

–bind-address=ADDRESS 指定本地使用地址(主机名或IP,当本地有多个IP或名字时使用)
-t, –tries=NUMBER 设定最大尝试链接次数(0 表示无限制).
-O –output-document=FILE 把文档写到FILE文件中
-nc, –no-clobber 不要覆盖存在的文件或使用.#前缀
-c, –continue 接着下载没下载完的文件
–progress=TYPE 设定进程条标记
-N, –timestamping 不要重新下载文件除非比本地文件新
-S, –server-response 打印服务器的回应
–spider 不下载任何东西
-T, –timeout=SECONDS 设定响应超时的秒数
-w, –wait=SECONDS 两次尝试之间间隔SECONDS秒
–waitretry=SECONDS 在重新链接之间等待1…SECONDS秒
–random-wait 在下载之间等待0…2*WAIT秒
-Y, –proxy=on/off 打开或关闭代理
-Q, –quota=NUMBER 设置下载的容量限制
–limit-rate=RATE 限定下载输率

目录

-nd –no-directories 不创建目录
-x, –force-directories 强制创建目录
-nH, –no-host-directories 不创建主机目录
-P, –directory-prefix=PREFIX 将文件保存到目录 PREFIX/…
–cut-dirs=NUMBER 忽略 NUMBER层远程目录

HTTP 选项

–http-user=USER 设定HTTP用户名为 USER.
–http-passwd=PASS 设定http密码为 PASS.
-C, –cache=on/off 允许/不允许服务器端的数据缓存 (一般情况下允许).
-E, –html-extension 将所有text/html文档以.html扩展名保存
–ignore-length 忽略 `Content-Length’头域
–header=STRING 在headers中插入字符串 STRING
–proxy-user=USER 设定代理的用户名为 USER
–proxy-passwd=PASS 设定代理的密码为 PASS
–referer=URL 在HTTP请求中包含 `Referer: URL’头
-s, –save-headers 保存HTTP头到文件
-U, –user-agent=AGENT 设定代理的名称为 AGENT而不是 Wget/VERSION.
–no-http-keep-alive 关闭 HTTP活动链接 (永远链接).
–cookies=off 不使用 cookies.
–load-cookies=FILE 在开始会话前从文件 FILE中加载cookie
–save-cookies=FILE 在会话结束后将 cookies保存到 FILE文件中

FTP 选项

-nr, –dont-remove-listing 不移走 `.listing’文件
-g, –glob=on/off 打开或关闭文件名的 globbing机制
–passive-ftp 使用被动传输模式 (缺省值).
–active-ftp 使用主动传输模式
–retr-symlinks 在递归的时候,将链接指向文件(而不是目录)

递归下载

-r, –recursive 递归下载--慎用!
-l, –level=NUMBER 最大递归深度 (inf 或 0 代表无穷).
–delete-after 在现在完毕后局部删除文件
-k, –convert-links 转换非相对链接为相对链接
-K, –backup-converted 在转换文件X之前,将之备份为 X.orig
-m, –mirror 等价于 -r -N -l inf -nr.
-p, –page-requisites 下载显示HTML文件的所有图片

递归下载中的包含和不包含(accept/reject)

-A, –accept=LIST 分号分隔的被接受扩展名的列表
-R, –reject=LIST 分号分隔的不被接受的扩展名的列表
-D, –domains=LIST 分号分隔的被接受域的列表
–exclude-domains=LIST 分号分隔的不被接受的域的列表
–follow-ftp 跟踪HTML文档中的FTP链接
–follow-tags=LIST 分号分隔的被跟踪的HTML标签的列表
-G, –ignore-tags=LIST 分号分隔的被忽略的HTML标签的列表
-H, –span-hosts 当递归时转到外部主机
-L, –relative 仅仅跟踪相对链接
-I, –include-directories=LIST 允许目录的列表
-X, –exclude-directories=LIST 不被包含目录的列表
-np, –no-parent 不要追溯到父目录
wget -S –spider url 不下载只显示过程

参考资料

wget进行整站下载(递归下载至本地) - A BOX OF CHOCOLATE

[参考]wget下载整站 - bbsmax

除非注明,垃圾站文章均为网络收集,本文地址 https://cyhour.com/628/,转载时烦请以链接形式注明原始出处。
声明:我们不销售主机,任何VPS主机均有跑路风险且需定期备份,防止数据丢失。信息以实际为准,评测仅供参考不代表权威!
🍄:Netflix 奈飞 YouTube 合租

WordPress 5.0+ 禁用 Gutenberg & WordPress 5.8+ 禁用 Widget 块编辑器

2018.12.06,WordPress 5.0 发布,代号 Bebo。最大的亮(黑)点就是正式引入新的基于块(block-based)的编辑器 —— Gutenberg 编辑器,以及新的默认主题 —— Twenty Nineteen。 WordPress 5.0+ 禁用 Gutenberg 编辑器 第一时间升级,打开文章编辑,一股说不出的杯具感在心头……变化太大,心累…
浏览: 162 标签:  ,  ,  , 

Adobe Flash Player 去helper(Win10 完美恢复)

Adobe 在2020年12月31日后将不再支持 Adobe Flash Player,从2021年1月12日开始,阻止 Flash 内容在 Flash Player 中运行。截图 虽然不喜欢 Adobe Flash Player,但是有些网站目前仍然离不开 Adobe Flash Player,过渡解决方法是:安装中国特供版 Adobe Flash Player 或者安装网友修改 Adobe Flash…

升级新版 Google AdSense 代码提升广告效果

2021年7月19日,Google AdSense 最近发布了新版 AdSense 代码。通过新版 AdSense 代码,AdSense 可以更早触发优化功能,从而提升网站上广告效果。新广告代码适用于自动广告和广告单元。 如何获取 Google AdSense 新版代码? 无需采取任何措施。在下次登录 AdSense 后,您将拥有对新广告代码的访…

利用 Google Analytics 追踪 WordPress 站内搜索关键词

Google分析(Google Analytics)是一个由 Google 所提供的网站流量统计服务。Google 分析(Analytics)现在是互联网上使用最广泛的网络分析服务。 利用 Google Analytics 追踪 WordPress 站内搜索关键词 优化内容 如果网站/博客在 Google Analytics 流量统计,利用 Google Analytics 追踪 W…
浏览: 31 标签:  ,  ,  ,  ,  ,  , 

Comments:0

发表留言

Vultr 送$100,搬瓦工年付最低$49,优惠码 BWH3HYATVBJW,更多推荐VPS信息