首页 > 代码库 > python BeautifulSoup基本用法
python BeautifulSoup基本用法
#coding:utf-8 import os from bs4 import BeautifulSoup #jsp 路径 folderPath = "E:/whm/google/src_jsp" for dirPath,dirNames,fileNames in os.walk(folderPath): for fileName in fileNames: if fileName.endswith(".jsp"): soup=BeautifulSoup(open(os.path.join(dirPath,fileName)),"html.parser") if(soup.header is not None): soup.header.extract() #属性选择器。。。只能选择出第一个符合规则的元素 if(soup.find(attrs={‘role‘:‘banner‘}) is not None): soup.find(attrs={‘role‘:‘banner‘}).extract() if(soup.find(attrs={‘class‘:"col-xs-3"}) is not None): soup.find(attrs={‘class‘:"col-xs-3"}).extract() with open(os.path.join(dirPath,fileName),"w+") as file: #pretify()方法返回一个美化过的html 字符串 encode(‘utf-8‘)指定编码-- file.write(soup.prettify(formatter=None).encode(‘utf-8‘))
处理jsp页面会出现bug。。。 所以。。不要使用BeautifulSoup处理 jsp和php等脚本页面。。。需要用正则来写。。。这是我摸索半天得来的结论。。。。。
python BeautifulSoup基本用法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。