爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

首页 > 代码库 > 爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

2024-08-19 19:56:00 220人阅读

1：IEEE文章摘要爬取
   ①：运行Crawler目录下的IEEE1024.php （16年10月24日）
   ②：运行根目录下的IEEE1025.php（16年10月25日）
   ③：会议->http://ieeexplore.ieee.org/xpl/conhome.jsp?punumber=1000359
   ④：期刊->eg:IEEE Transactions on Image Processing   http://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=7331739&punumber=83 (past issue)

2：Springer文章摘要爬取
   ①：运行Crawler目录下的Springer1025.php(16年10月25日)摘要变化较大
   ②：运行根目录下的Springer1027.php（16年10月27日）

3：ACM文章摘要爬取
   ①：运行Crawler目录下的ACM1101.php（16年11月01日）网站基本未变动
   ②：运行根目录下的ACM1101.php（16年11月01日）
   ③：会议->http://dl.acm.org/proceedings.cfm
   ④：期刊->http://dl.acm.org/pub_series.cfm?id=J774    (table of content)

4: AAAI文章摘要爬取
   ①：运行根目录下AAAI1104.php(16年11月9日)
   ②：AAAI 16年份链接->http://www.aaai.org/Library/AAAI/aaai16contents.php，只替换链接中数字即可(16年11月9日)
   ③：AAAI会议汇总 ->http://www.aaai.org/Library/AAAI/aaai-library.php

注意点：
   ①：rsdb.sql数据库中表paper_page_v2 中 finish 属性中 1为爬取完成的链接 0为未爬取页面 -1为其他情况
   ②：index.php文件为开发过程中 *测试* springer爬取摘要
   ③：PHPJsonDecode.php文件为 *测试* 模拟浏览器得到HTML字符串（16年10月31日）
   ④：ACM（http://dl.acm.org/）对爬虫的应对方案较为完善，谨慎使用否则导致IP被暂时封掉
    <用网站流量统计系统来改进实时反爬虫系统 ><用时间窗口来改进实时反爬虫系统 >（16年11月01日）
    ⑤：AAAI网站每一年的AI会议在一个网页上并没有采用分页，因此爬取的Array非常大开始导致内存溢出，后分批爬取取得效果较好（2016/11/9）
    ⑥：当获取到大量文章题目、摘要、链接插入数据库时，速度较慢，等待一小段时间检测数据库变化（2016/11/9）
    ⑦：遇到内存溢出问题首先应该是检测php程序中没有释放的变量使用unset方法，再次就是修改ini文件的memory-limit=128M
            默认128M可以改大一些（2016/11/9）

爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

爬取IEEE、Springer、ACM、AAAI文章题目.作者.摘要.链接日志

看完仍有疑问？有类似问题直接问程序猿