整站网页doc下载wget (转)

首页 > 代码库 > 整站网页doc下载wget (转)

2024-07-25 14:41:40 222人阅读

wget很厉害，你如果想把某个网站上的一系列的文档，通常是api文档扒下来可用下列命令：
wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://网址为了让这个命令行的各选项意义更加明确，它还可以写成：wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude /upload/ http://网址使用wget拷贝网站时的一些选项下面对其中的各选项简要说明，做备忘之用。‘-e command’‘--execute command’用来执行额外的.wgetrc命令。就像vim的配置存在.vimrc文件中一样，wget也用.wgetrc文件来存放它的配置。也就是说在wget执行之前，会先执行.wgetrc文件中的配置命令。一个典型的.wgetrc文件可以参考：用户可以在不改写.wgetrc文件的情况下，用-e选项指定额外的配置命令。如果想要制定多个配置命令，-e command1 -e command2 ... -e commandN即可。这些制定的配置命令，会在.wgetrc中所有命令之后执行，因此会覆盖.wgetrc中相同的配置项。这里robots=off是因为wget默认会根据网站的robots.txt进行操作，如果robots.txt里是User-agent: * Disallow: /的话，wget是做不了镜像或者下载目录的，使用-e robots=off参数即可绕过该限制。-w seconds--wait=seconds为了不给被拷贝的镜像网站带来太大的访问压力，页面请求之间停下等待seconds时间。-x--force-directories创建与镜像网站对应的目录结构。 http://example/robots.txt这个文件下载下来时，会等到对应的www.example.com/robots.txt。与之相反的是-nd，即--no-directories，-np--no-parent只下载给定的目录下的文件，不下载它的上级目录中的文件，即使有些页面中存在上级目录中文件的连接。这个比较必要，如果不限定的话，本来只想下载www.example.com/blog/中的博客文章，最后很有可能将整个www.example.com都下载下来了。-p--page-requisites下载能显示整个页面需要的所有资源，包括内嵌的image以及css样式文件。-m--mirror它会打开镜像相关的选项，比如无限深度的子目录递归下载。-k--convert-links这个选项会在整个网站下载完成后修HTML、CSS、Image等资源的链接关系，让它们都指向下载下来的本地文件，从而适合本地浏览。-t times--tries=times如果某个资源下载失败，这个选项指定了重试下载的次数。.wgetrc默认的是20次。我们在下载网站时可以将其放小，一则减少下载时间，二则减轻镜像站点的压力。-X /some/dir--exclude /some/dir可以用这个参数指定不需要下载的目录，如果有多个需要排除的目录，可以用逗号隔开，比如-X /some/dir1;/some/dir2

整站网页doc下载wget (转)

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 整站网页doc下载wget (转)

整站网页doc下载wget (转)

看完仍有疑问？有类似问题直接问程序猿