使用scrapy爬取网站的商品数据

首页 > 代码库 > 使用scrapy爬取网站的商品数据

使用scrapy爬取网站的商品数据

2024-07-22 12:52:49 220人阅读

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息，包括商品的一级类别，二级类别，商品title，品牌，价格。

搜索了一下，python的scrapy是一个不错的爬虫框架，于是基于scrapy写了一个简易的爬虫。

先分析商品页面，在http://www.muyingzhijia.com/主页面上，有类链接有用的链接，即：http://www.muyingzhijia.com/Shopping/category.aspx?cateID=11和http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID=185&small=1，前者为一级类别，后者为二级类别，这两级类别含有部分商品信息，但是没有包含文章开头所需的五类商品信息。而与http://www.muyingzhijia.com/shopping/productdetail.aspx?pdtID=33158&fromPromType=tttj类似的链接中，上述五种信息，均包含。所以计划以http://www.muyingzhijia.com/Shopping/alllist.aspx，http://www.muyingzhijia.com/Shopping/category.aspx?cateID，http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID三类链接为入口，对http://www.muyingzhijia.com/Shopping/category.aspx?cateID及http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID类链接进行自动抓取，同时遇到http://www.muyingzhijia.com/shopping/productdetail.aspx?类链接，进行页面解析，解析出所需的五类信息。

爬虫实现了自动爬取，item去重，链接去重，取出的数据存入数据库。

代码详见： https://github.com/darlwen/spider

使用scrapy爬取网站的商品数据

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 使用scrapy爬取网站的商品数据

使用scrapy爬取网站的商品数据

看完仍有疑问？有类似问题直接问程序猿