Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

首页 > 代码库 > Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

2024-08-28 13:50:35 217人阅读

一、URL分析

　　通过对“Python机器学习”结果抓包分析，有两个无规律的参数：_ksTS和callback。通过构建如下URL可以获得目标关键词的检索结果，如下所示：

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/44&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=0

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/88&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=44

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/132&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=88

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/176&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=132

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/220&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=176

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/264&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=220

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/308&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=264

https://s.taobao.com/search?data-key=s&data-value=http://www.mamicode.com/352&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=Python机器学习&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=308

二、关键字分析

1、q查询关键词

2、data-value显示记录数

3、s上一页记录数

4、s与data-value的差值即当页显示数量

三、Python抓取数据

#__author__ = ‘Joker‘
# -*- coding:utf-8 -*-

import re
import urllib.request
keyWord1 = "Python机器学习"
keyWord2 = urllib.request.quote(keyWord1)
headers = ("User-Agent","MMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.1708.400 QQBrowser/9.5.9635.400")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
for j in range(1,25):
    try:
        curPage = 44
        prePage = 0
        url = "https://s.taobao.com/search?data-key=s&data-value="http://www.mamicode.com/+ str(
            curPage) + "&ajax=true&_ksTS=1482325509866_2527&callback=jsonp2528&q=" + keyWord2 + "&imgfile=&js=1&stats_click=search_radio_all:1&initiative_id=staobaoz_20161221&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=.44&fs=1&s=" + str(
            prePage)
        data = http://www.mamicode.com/urllib.request.urlopen(url).read().decode("utf-8", "ignore")
        patTitle = ‘"title":"(.*?)","raw_title"‘
        titles = re.compile(patTitle).findall(data)
        patRawTitle = ‘"raw_title":"(.*?)"‘
        rawTitles = re.compile(patRawTitle).findall(data)
        patImage = ‘"pic_url":"//(.*?)","‘
        rawImages = re.compile(patImage).findall(data)
        patPrice = ‘"view_price":"(.*?)","‘
        rawPrices = re.compile(patPrice).findall(data)
        patNick = ‘"nick"(.*?)","‘
        rawNicks = re.compile(patNick).findall(data)
        for i in range(0,len(titles)):
            print("-------------------")
            print("第" + str(j+1) + "页,第" + str(i+1) + "本"  )
            #print(titles[i])
            print(rawTitles[i])
            print(rawImages[i])
            print(rawPrices[i])
            print(rawNicks[i])
            print("-------------------")
        prePage = 44 * j
        curPage = 44 + prePage
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    except Exception as e:
        print(e)

Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）

看完仍有疑问？有类似问题直接问程序猿