首页 > 代码库 > python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
如题:python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
最近因为做《信息检索》homework,需要在搜索引擎中搜索某个query,人工查找那些搜索引擎返回的链接,判断前30个是否相关,然后评价该搜索引擎的性能。蛋疼的一个个点进去链接,然后看网页搜索的内容是否和想要查询的query相关,从而进行下一步工作。于是想到解析网页,找到搜索引擎返回的链接的url,等做完了作业才做这个,无碍。目前分析了百度的源代码,进行了分析工作。对于其他搜索引擎的任务再分析。
# coding:utf-8 ''' Created on 2014年10月27日 @author: shifeng ''' import urllib2 import urllib import string import re #------------------------------------------------------------------------------------------ # 将得到的url,进行解析,如http://v.baidu.com/v?s=8word=无限开关fr=ala11 def myurldecode(url): list_url_sub = url.split("&") s_after_decode = "" for i in range(len(list_url_sub)): # 用&将各个字段隔开 dict = {} # print list_url_sub[i],"+" if "=" in list_url_sub[i]: list = list_url_sub[i].split("=") key = list[0] value = http://www.mamicode.com/list[1]>python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。