首页 > 代码库 > python网页抓取练手代码
python网页抓取练手代码
from urllib import requestimport html.parserclass zhuaqu(html.parser.HTMLParser): blogHtml = "" data = [] flag = 0 def getHtml(self): res = request.urlopen("http://www.cnblogs.com") self.blogHtml = res.read().decode(‘utf-8‘) def handle_starttag(self, tag, attrs): if(tag == "a"): for attr in attrs: if(attr[0] == "class" and attr[1] == "titlelnk"): self.flag = 1 break else: pass def handle_data(self, data): if(self.flag == 1): self.data.append(data.strip()) self.flag = 0 else: pass def show(self): print(self.blogHtml)zhua = zhuaqu()zhua.getHtml()zhua.feed(zhua.blogHtml)for item in zhua.data: print(item)
运行结果
C:\Python33\python.exe C:/pythonHtmlParse/zhuaqu.py
团建活动之忆童年
闭包的总结(干货1)
Jetty源码学习-编译Jetty源码二三事
Cesium原理篇:Property
前端制作动画的几种方式(css3,js)
SQL Server-聚焦INNER JOIN AND IN性能分析(十四)
C# 中的委托和事件
Android中Activity运行时屏幕方向与显示方式详解
利用T4模板生成ASP.NET Core控制器的构造函数和参数
JavaScript的因为所以
css居中小结
SharedPreferences 的另一种场景的用法
python wordcloud 对电影《我不是潘金莲》制作词云
怎么调试lua性能
ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
SDWebImage源码解读_之SDWebImageDecoder
struts开发经验汇总
scikit-learn 梯度提升树(GBDT)调参小结
你该知道的-SQL里的这些新语法-函数
希望大牛加入,共同为项目智能化管理jar包而努力
Process finished with exit code 0
python网页抓取练手代码
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。