首页 > 代码库 > Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
运行环境 CentOS7.3 + Python2.7 + Scrapy1.3 + MongoDB3.4 + BeautifulSoup4.6
编程工具 PyCharm + Robomongo + Xshell
请确保你的 python版本为2.7.5以上 版本
强烈推荐直接【翻 墙 安 装】,简单轻松
yum install gcc libffi-devel python-devel openssl-devel
pip install scrapy
如果提示以下错误
AttributeError: ‘module‘ object has no attribute ‘OP_NO_TLSv1_1‘
说明你的 Twisted 版本过高,请执行
pip install Twisted==16.4.1
然后再安装以下内容
pip install "ScrapyMongoDB"
pip install beautifulsoup4
pip install pymongo
然后执行
scrapy startproject fusnion
就可以创建一个名为 funsion 的项目
附录A:Scrapy Shell 调试
Linux 命令行下输入(以本站点为例)
scrapy shell ‘http://www.cnblogs.com/funsion/‘
进入交互式shell,输入以下内容
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(response.body)
>>> print soup.title
如果能输出 <title>Funsion Wu - 博客园</title> 则代表成功
附录B:参考文档
Scrapy官方中文文档 http://scrapy-chs.readthedocs.org/zh_CN/latest/index.html
BeautifulSoup 中文手册 http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
Scrapy Mongo 说明文档 https://github.com/noplay/scrapy-mongodb
附录C:mongodb安装方法
tar /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4.tgz
cd /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4
mkdir -p /data/{mongodb_data,mongodb_log}
/usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork &
ln -s /usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongo /usr/local/bin/mongo
编辑/etc/rc.local,加入下述代码然后再保存即可。
/usr/local/src/mongodb-linux-x86_64-rhel62-3.4.4/bin/mongod --dbpath=/data/mongodb_data --logpath=/data/mongodb_log/mongodb.log --logappend --fork &
Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案(Chapter 1st)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。