首页 > 代码库 > 爬取当当网的图书信息之工作流程介绍
爬取当当网的图书信息之工作流程介绍
前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富
我们是计算机类图书为例子,那么计算机类图书页面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL
当我们进入这个页面可以看到很多计算机类图书,什么都别说了,都抓取下来,然后在进入子品类页面继续抓取信息,我们以程序涉及品类为例
进来之后我们可以看到大量的图书,而且在页面上方我们可以看到100页,可不止这么一点还有99页没有显示出来,我们把这些图书的URL全部抓取下来。我们以《C++ primer plus》为例
这个页面有大量的图书信息,包含图书的价格,图书的作者,出版社等信息,这都是我们需要的信息,都可以抽取出来。
总结
给程序一个图书大类的URL,程序下载这个页面之后发现大量的图书小种类的URL,爬虫去下载小种类图书的信息后,发现页面有很多图书的URL,进入图书的URL可以抓取图书的相关信息
爬取当当网的图书信息之工作流程介绍
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。