crawler_浅谈网络爬虫

首页 > 代码库 > crawler_浅谈网络爬虫

2024-07-29 00:23:00 218人阅读

题记:

　　1024,今天是个程序猿的节日，哈哈，转为正题，从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。

提纲：

1：是什么

2：能做什么

3：怎么做

　 4：综述

1：是什么

　　　　wiki释义：网络蜘蛛（Web spider）也叫网络爬虫（Web crawler）^[1]，蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

网络爬虫始于一张被称作种子的统一资源地址（URLs）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张＂待访列表＂，即所谓＂爬行疆域＂（crawl frontier）。此疆域上的统一资源地址将被按照一套策略循环访问。

白话语：网络爬虫，是一个（组，套，集群）能够自动访问网络资源，并抽取目标数据的程序。类比模拟人工点击访问百度首页，右键打开源码并对源码抽取分析的过程，转化为自动化，并主动发现新连接继续重复的过程。

案例：百度搜索引擎的数据支持主要由百度爬虫提供。

2：能做什么

　　得数据者得天下，网络爬虫应用于搜索引擎是大家都知道的，除此之外，还常应用于，比价，电商，舆情，内容聚合网站等。比价比较有名的惠惠助手。还应用于模拟表单提交，自动登录，自动发送邮件，转发内容等等。一般数据源从互联网公开信息获取，主要由门户，垂直网站，sns，论坛。数据分类可参照下图

　 3：怎么做

　　　　开源爬虫，java有 nutch,heritrix 。python 有 Scrapy ，c的，php的也都有。

　　　　结合业务端，一般公司做法是自己研发一套适应自己业务的爬虫，架构部分未完待续。。。。

　　4：综述

crawler_浅谈网络爬虫

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > crawler_浅谈网络爬虫

crawler_浅谈网络爬虫

看完仍有疑问？有类似问题直接问程序猿