grep命令和curl命令的使用方法

2024-07-22 08:13:25 219人阅读

今天看了汪海写的python爬虫教程，说实话看不懂。。。于是就用bash下的工具自己开始写了一个抓取糗事百科的糗事的脚本，期间搜索到了grep和curl命令的一些使用技巧。

grep命令，使用grep命令来进行文本的通配，一般只是显示匹配的行，但是使用以下几个参数就可以显示上下文了：

-C [num]    #显示匹配行的上下各num行-A [num]    #显示匹配行的后num行-B [num]    #显示匹配行的前num行

curl这个下载工具，或者已经算不上是下载工具了，因为curl过于强大了，主要用途并不限于下载，这里之介绍它的一种技巧。

因为curl默认下载的数据是直接输出到终端的，可以加上-o file 选项将数据输出到文件中去，譬如下载一个图片文件，直接输出就是乱码，那么我们可以将其输出到文件，后缀取图片的后缀就好，一般是png或是jpg。

一个curl的小技巧是可以使用-A选项将下载器伪装成浏览器，可以自定义参数来伪装。。(wget也可以，但是参数太繁琐，不过也是可以的，但是默认)

伪装参数数示例如下：

curl -A "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)" URL

此时可以伪装成浏览器绕过网站的筛选，譬如来下载糗事百科首页，因为糗事百科可能定义了筛选（好像专业名叫防盗链？），用curl下载的数据总是缺少一部分不是真正浏览器下载的页面（可以参观它的文件）,因此使用伪装就可已完整的下下载界面了。

防盗链的方式有很多，但是糗事百科还没有那么复杂，这些东西结合起来足够抓取了。

有空我会研究一下wget的伪装和抓取的。。

grep命令和curl命令的使用方法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们