使用scrapy爬取页面数据到入库遇到的问题

2024-08-06 22:08:07 223人阅读

1.编码问题

页面是gbk的，数据库是utf8的

gbk到utf8的转化得通过unicode编码：gbk 《--unicode--》utf8

具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘)，就变成utf8编码了

入库时发生了数据库中文乱码，原来python再连接mysql的时候需要制定编码格式

db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)

参考http://blog.csdn.net/foyuan/article/details/1711100

2.python mysql链接层

我用的比较简单直接使用python提供的操作函数操作

有第三方orm库SQLAlchemy，另外还有Django框架中的orm库

直接使用db-api 　　http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html

使用第三方库　　http://smartzxy.iteye.com/blog/680740

3.python处理html实体

存入数据库的时候需要把，python抓到的数据进行编码，把一些字符使用html实体尽心编码，如果编码不完全，还需要使用替换功能，直接替换

参考的http://blog.csdn.net/holybin/article/details/23872815

4. md5加密（对比php使用，这个自己还没理解）

参考：http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html

5.日期使用

参考 http://www.jb51.net/article/47957.htm

使用scrapy爬取页面数据到入库遇到的问题

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们