python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

首页 > 代码库 > python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

**python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url**

2024-07-29 19:49:45 217人阅读

如题：python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

最近因为做《信息检索》homework，需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接，判断前30个是否相关，然后评价该搜索引擎的性能。蛋疼的一个个点进去链接，然后看网页搜索的内容是否和想要查询的query相关，从而进行下一步工作。于是想到解析网页，找到搜索引擎返回的链接的url，等做完了作业才做这个，无碍。目前分析了百度的源代码，进行了分析工作。对于其他搜索引擎的任务再分析。

# coding:utf-8
'''
Created on 2014年10月27日
@author: shifeng
'''
import urllib2
import urllib
import string
import re
#------------------------------------------------------------------------------------------
# 将得到的url，进行解析，如http://v.baidu.com/v?s=8word=无限开关fr=ala11
def myurldecode(url):
    list_url_sub = url.split("&")
    s_after_decode = ""
    for i in range(len(list_url_sub)):  # 用&将各个字段隔开
        dict = {}
        # print list_url_sub[i],"+"
        if "=" in list_url_sub[i]:
            list = list_url_sub[i].split("=")
            key = list[0]
            value = http://www.mamicode.com/list[1]>

python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url

看完仍有疑问？有类似问题直接问程序猿

**python解析百度网页源代码：取搜索引擎返回的前page_num*10个链接的url**