首页 > 代码库 > python除去html标签

python除去html标签

使用python自带的HTMLParser 实现。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2,re
import time,sys
from HTMLParser import HTMLParser
#设置默认编码
type = sys.getfilesystemencoding()

class MyHTMLParser(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)      

	
def main():
	parser = MyHTMLParser()
	parser.feed('<style type="text/css">#python { color: green }</style>')
	print parser.get_data().strip()
			
if __name__ == '__main__':
	main()
输出:

#python { color: green }

python除去html标签