首页 > 代码库 > 豆瓣电影搜索爬虫程序,爬虫小程序,适合初学者
豆瓣电影搜索爬虫程序,爬虫小程序,适合初学者
最近在学python,之前用Python写过简单的图片爬取,今天想着用python爬一下豆瓣的电影,就有了下面的程序:
#coding:utf-8 #coding:utf-8import reimport sysimport urllibfrom bs4 import BeautifulSoupdef movieSearch():<span style="white-space:pre"> </span>douBanSearchurl = "http://movie.douban.com/subject_search?search_text="<span style="white-space:pre"> </span>data = http://www.mamicode.com/urllib.urlopen(douBanSearchurl+movieName).read()>在调试过程中,遇到了两个头疼的问题:1、beautifulSoup编码与CMD编码不匹配,beautifulSoup得到的网页信息均为Unicode,但是cmd不支持Unicode只有gbk,中文显示就成了很大问题了,所以就用了最笨的办法,通过转码来实现,目前还没找到更好的办法,如果有请指点下。
2、在写正则表达式时,不知道<br\>如何匹配,特别是对于网页文字有换行分段的形式,该如何匹配?
豆瓣电影搜索爬虫程序,爬虫小程序,适合初学者
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。