豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

首页 > 代码库 > 豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

2024-07-29 21:00:16 221人阅读

最近在学python，之前用Python写过简单的图片爬取，今天想着用python爬一下豆瓣的电影，就有了下面的程序：

#coding:utf-8
#coding:utf-8import reimport sysimport urllibfrom bs4 import BeautifulSoupdef movieSearch():<span style="white-space:pre">	</span>douBanSearchurl = "http://movie.douban.com/subject_search?search_text="<span style="white-space:pre">	</span>data = http://www.mamicode.com/urllib.urlopen(douBanSearchurl+movieName).read()>在调试过程中，遇到了两个头疼的问题：
1、beautifulSoup编码与CMD编码不匹配，beautifulSoup得到的网页信息均为Unicode，但是cmd不支持Unicode只有gbk，中文显示就成了很大问题了，所以就用了最笨的办法，通过转码来实现，目前还没找到更好的办法，如果有请指点下。
2、在写正则表达式时，不知道<br\>如何匹配，特别是对于网页文字有换行分段的形式，该如何匹配？

豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

豆瓣电影搜索爬虫程序，爬虫小程序，适合初学者

看完仍有疑问？有类似问题直接问程序猿