首页 > 代码库 > 使用scrapy爬取页面数据到入库遇到的问题

使用scrapy爬取页面数据到入库遇到的问题

1.编码问题

页面是gbk的,数据库是utf8的

gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8

具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘),就变成utf8编码了

入库时发生了数据库中文乱码,原来python再连接mysql的时候需要制定编码格式

db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)

参考http://blog.csdn.net/foyuan/article/details/1711100

 

2.python mysql链接层

我用的比较简单直接使用python提供的操作函数操作

有第三方orm库SQLAlchemy,另外还有Django框架中的orm库

直接使用db-api   http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html

使用第三方库   http://smartzxy.iteye.com/blog/680740

 

3.python处理html实体

 存入数据库的时候需要把,python抓到的数据进行编码,把一些字符使用html实体尽心编码,如果编码不完全,还需要使用替换功能,直接替换

 参考的http://blog.csdn.net/holybin/article/details/23872815

 

4. md5加密(对比php使用,这个自己还没理解)

参考:http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html

 

5.日期使用

参考 http://www.jb51.net/article/47957.htm

 

使用scrapy爬取页面数据到入库遇到的问题