首页 > 代码库 > 使用scrapy爬取页面数据到入库遇到的问题
使用scrapy爬取页面数据到入库遇到的问题
1.编码问题
页面是gbk的,数据库是utf8的
gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8
具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html
scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘),就变成utf8编码了
入库时发生了数据库中文乱码,原来python再连接mysql的时候需要制定编码格式
db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)
参考http://blog.csdn.net/foyuan/article/details/1711100
2.python mysql链接层
我用的比较简单直接使用python提供的操作函数操作
有第三方orm库SQLAlchemy,另外还有Django框架中的orm库
直接使用db-api http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html
使用第三方库 http://smartzxy.iteye.com/blog/680740
3.python处理html实体
存入数据库的时候需要把,python抓到的数据进行编码,把一些字符使用html实体尽心编码,如果编码不完全,还需要使用替换功能,直接替换
参考的http://blog.csdn.net/holybin/article/details/23872815
4. md5加密(对比php使用,这个自己还没理解)
参考:http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html
5.日期使用
参考 http://www.jb51.net/article/47957.htm
使用scrapy爬取页面数据到入库遇到的问题