首页 > 代码库 > Beta版本发布说明

Beta版本发布说明

 

 

测试功能 测试项 效果描述 完成情况
管理页面 处理程序启动 点击“开始”按钮可以让处理程序开始处理  
打开爬虫管理页面 点击“来源配置”弹出爬虫管理页面  
打开输出目标配置页面 点击“输出配置”弹出输出配置页面  
爬虫功能 爬虫爬取信息seed增加 可以在爬虫管理页面手动增加爬取信息来源网站  
爬虫关键词筛选 可以增加关键字在爬取信息的时候筛选内容  
爬虫多线程启动 可以自定义启动几个爬取线程,并且可以看到各个线程的运行情况  
爬虫信息展示 可以看到此处运行爬虫的信息,运行时间、爬取到的文件数  
爬虫爬取网站数量限制 可以自定义爬虫爬取网站数,如果缺省则一致爬下去  
爬虫文件信息保存 从网上爬下的信息可以按照格式保存在数据库里面,可以从数据库看到数据更新  
数据处理功能 数据处理启动控制 可以在网站上管理当前数据处理线程的启动与暂停  
doc数据文本信息获取 从doc文件中提取文本信息出来  
doc关键信息提取 从doc文件中提取关键信息并且保存  
html数据文本获取 从html提取去噪后的文本  
html关键信息提取 从html文件提取关键信息  
pdf数据文本获取 从pdf文件提取文本信息  
pdf关键信息提取 从pdf文件中提取关键词  
问答对网站信息提取 从问答网站提取问题以及优质答案  
拓展功能 配置链接的solr账户 可以手动配置需要链接的solr数据库  
自定义上传 允许用户进行solr索引删除以及重建选项  
提供修改关键词接口 提供修改关键词接口以及访问方法  
登陆账户 提供登陆界面,使用固定账号才可以登陆到管理界面里面  

Beta版本发布说明