首页 > 代码库 > python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url

python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url

如题:python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url

最近因为做《信息检索》homework,需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接,判断前30个是否相关,然后评价该搜索引擎的性能。蛋疼的一个个点进去链接,然后看网页搜索的内容是否和想要查询的query相关,从而进行下一步工作。于是想到解析网页,找到搜索引擎返回的链接的url,等做完了作业才做这个,无碍。目前分析了百度的源代码,进行了分析工作。对于其他搜索引擎的任务再分析

# coding:utf-8
'''
Created on 2014年10月27日
@author: shifeng
'''
import urllib2
import urllib
import string
import re
#------------------------------------------------------------------------------------------
# 将得到的url,进行解析,如http://v.baidu.com/v?s=8word=无限开关fr=ala11
def myurldecode(url):
    list_url_sub = url.split("&")
    s_after_decode = ""
    for i in range(len(list_url_sub)):  # 用&将各个字段隔开
        dict = {}
        # print list_url_sub[i],"+"
        if "=" in list_url_sub[i]:
            list = list_url_sub[i].split("=")
            key = list[0]
            value = http://www.mamicode.com/list[1]>

python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url