Beautifulsoup学习笔记

2024-07-15 22:38:17 213人阅读

1.导入beautifulsoup

from BeautifulSoup import BeautifulSoup

2.实例化一个soup对象

html="<html></html>"soup = BeautifulSoup(html)

html的字符串可以通过打开本地文件或者抓取网络的html来得到

测试用的html是：

3.beautifulsoup对象

会有三种beautifulsoup对象

1）.soup对象

print type(soup)<class ‘BeautifulSoup.BeautifulSoup‘>

2）.Tag对象（标签对象）

print type(soup.html)<class ‘BeautifulSoup.Tag‘>

3）.string对象

print type(soup.div.string)<class ‘BeautifulSoup.NavigableString‘>

4.剖析soup

　　1）.通过标签

soup=BeautifulSoup(htm)print soup.htmlprint soup.bodyprint soup.p

可以直接通过tag获取到html，但是只会返回第一个匹配到的标签，例如有两个<p>标签，用soup.p只会返回第一个

这种方法返回的为Tag对象

　　2）contents,parent

也可以通过contents获取子元素，返回的是list,例如soup.contents[0],返回的是html节点，soup.contents[0].centents 是一个包含head标签和body标签的的列表。

奇怪的是len(soup.contents[0].contents)，是等于5的，除了head标签和body标签外，还会有三个空元素

使用contents向后遍历树，使用parent向前遍历树

　　3）next 返回子元素

print soup.div.nexti am div1

　　4）findAll

搜索提供了两个方法，一个是 find，一个是findAll。这里的两个方法(findAll和 find)仅对Tag对象以及，顶层剖析对象有效，但 NavigableString不可用。

　　findAll(name, attrs, recursive, text, limit, **kwargs)

soup.findAll(‘div‘)[<div id="div1">i am div1</div>, <div id="div2">i am div2</div>]

print soup.findAll(‘div‘,id=‘div1‘)[<div id="div1">i am div1</div>]

print soup.findAll(‘div‘,{‘id‘:‘div2‘})[<div id="div2">i am div2</div>]

可以以字典的形式传入attrs

pat=re.compile(‘div\d+‘)print soup.findAll(‘div‘,{‘id‘:pat})[<div id="div1">i am div1</div>, <div id="div2">i am div2</div>]

也可以用正则匹配

5.修改属性

pat=re.compile(‘div\d+‘)a=soup.findAll(‘div‘,{‘id‘:pat})[0]a[‘id‘]=‘ddd‘print a

修改a标签的id属性

6.访问属性

a[‘id‘]

可以以这种方法去访问属性

参考：http://www.leeon.me/upload/other/beautifulsoup-documentation-zh.html

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们