首页 > 代码库 > 1. 最基本的爬虫~爬虫简单入门教程

1. 最基本的爬虫~爬虫简单入门教程

一、什么是网络爬虫?

  信息时代,每天我们都在上网,每天我们都在浏览器上访问网站,我们打开一个网页,接着又跳转到另一个网页,看到喜欢的内容,或者是一段幽默的句子,或者是一张美女的图片,我们会选择将其保存下来,当数量很多的时候,我们就会选择用程序来实现这样一个过程,实现自动浏览网页,自动根据我们的要求,保存我们想要的数据。于是,爬虫就应运而生了。所以,简单来说,爬虫就是实现网页自动浏览,数据自动保存,根据我们的需要进行自动化浏览器的操作或者自动化测试的这样一种程序。至于为啥要叫爬虫,因为互联网是一张很大的“蜘蛛网",爬虫就好像是一只蜘蛛在网上爬来爬去。当然,这些完全是我自己的理解,你当作是一段文字来看,并非严谨的定义,爬虫的范畴,越来越大!

二、需要哪些知识来写爬虫?

  1.Http协议:简单而言,就是客户端向服务器发出一条Http请求,服务器收到请求之后会返回一些数据给客户端,然后客户端再对这些数据进行解析和处理。(其实一个浏览器的工作原理也是如此)推荐教程:《计算机网络自顶向下方法》链接:http://pan.baidu.com/s/1eRHC0lc 密码:cc55

  2.Html:网页的编写,超文本标记语言,要求能看懂一些网页源代码

  3.正则表达式:完整的字符串规则,查找、替换等,推荐学习:正则表达式30分钟入门教程

  4.一门编程语言:能写爬虫的语言很多,看自己的喜好,Python、C#、Java是我比较推荐的,当然C/C++也是可以的,需要自己构造协议,推荐高手使用,运行效率很高,开发起来复杂。其实写爬虫现在python比较多了,因为他的开发效率比较高,然后运行时候其实不需要很高的效率,有时候还需要自己控制爬取网站的速度,你想啊,你的爬虫肯定比普通浏览器访问快了很多吧,真的让人怀疑啊。所以Python是首选,熟悉Java和C#写爬虫也很好,C推荐大牛使用。

三、一段简单的伪代码:

1.构造Http请求协议,包括网址等信息封装

2.发送htttp请求,服务器返回http报文

3.对接受到的报文进行下一步解析处理

1. 最基本的爬虫~爬虫简单入门教程