手把手教你用python打造网易公开课视频下载软件2-编码相关说明

2024-07-06 19:20:21 226人阅读

函数getdownLoadInfo(url)主要实现核心功能：根据url地址，获取课程信息：课程名(courseTitle),课程数目(courseCount),可下载视频数目(videoCount),视频下载链接(videoUrl)：不过再讲解之前，需要对编码的相关知识进行说明：

#coding:utf-8

关于python编码的问题，的确是个值得研究的问题，因为简直是乱的一塌糊涂，大家可以看一些讲解的文章，这里不做深入讲解，只是给出结论性的东西，方便实际的使用：

1.正因为有了中文，才有了一系列关于编码的问题，如果全是英文，不用考虑编码问题，但是用中文实在是不可避免，例如注释、日志、以及抓取的网页的内容，往往会涉及到中文，所以还是应该了解些编码问题。

2.在eclipse中增加文件的编码声明后（如声明为utf-8）,那么保存后的.py文件，也会相应存储为utf-8的编码，这是IDE自动转化的，可以在eclipse的文件属性中查看，如下：

3.编码声明有多种写法，例如：#coding=utf-8,#coding:utf-8，#-*-coding:utf-8-*-，用哪种呢？结论是哪个都可以！为什么呢？请参看：http://blog.csdn.net/orangleliu/article/details/8755461

4.为什么要说这么多编码声明的知识呢？对于咱们要编写的软件有什么用呢？接下来看下面的代码：

rawhtml=urllib.urlopen(url).read()
htmlencoding=chardet.detect(rawhtml)[‘encoding‘]
html=rawhtml.decode(htmlencoding,‘ignore‘).encode(‘utf -8‘)

（1）其中通过urllib模块，利用urlopen打开具体的一个url地址，然后利用read方法，获取抓取的网页源代码，保存到变量rawhtml中；而rawhtml中就含有中文，至于网页的编码，又会是各种各样；

（2）通过charset模块的detect方法，可以获取原来网页的编码方式，保存到变量htmlencoding中；

（3）知道网页的编码方式后，把rawhtml内容decode（想象成解码）一下，ignore表示忽略其中不规范的东西，之后再encode（想象成编码）成utf-8（我们声明的编码），保存到html中，这样html就是utf-8编码了，后面处理就方便些了。

（4）上面三行代码是我看了很多文章后总结出来的，直接用吧，测试后没有发现出现什么问题，即使不了解编码，也可以保证不会错！

好了，网页代码的编码问题解决了，是不是就可以直接处理了？答案是NO！我们下一篇再讲怎么处理抓到的数据。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们