首页 > 代码库 > Beta版本发布说明
Beta版本发布说明
测试功能 | 测试项 | 效果描述 | 完成情况 |
管理页面 | 处理程序启动 | 点击“开始”按钮可以让处理程序开始处理 | |
打开爬虫管理页面 | 点击“来源配置”弹出爬虫管理页面 | ||
打开输出目标配置页面 | 点击“输出配置”弹出输出配置页面 | ||
爬虫功能 | 爬虫爬取信息seed增加 | 可以在爬虫管理页面手动增加爬取信息来源网站 | |
爬虫关键词筛选 | 可以增加关键字在爬取信息的时候筛选内容 | ||
爬虫多线程启动 | 可以自定义启动几个爬取线程,并且可以看到各个线程的运行情况 | ||
爬虫信息展示 | 可以看到此处运行爬虫的信息,运行时间、爬取到的文件数 | ||
爬虫爬取网站数量限制 | 可以自定义爬虫爬取网站数,如果缺省则一致爬下去 | ||
爬虫文件信息保存 | 从网上爬下的信息可以按照格式保存在数据库里面,可以从数据库看到数据更新 | ||
数据处理功能 | 数据处理启动控制 | 可以在网站上管理当前数据处理线程的启动与暂停 | |
doc数据文本信息获取 | 从doc文件中提取文本信息出来 | ||
doc关键信息提取 | 从doc文件中提取关键信息并且保存 | ||
html数据文本获取 | 从html提取去噪后的文本 | ||
html关键信息提取 | 从html文件提取关键信息 | ||
pdf数据文本获取 | 从pdf文件提取文本信息 | ||
pdf关键信息提取 | 从pdf文件中提取关键词 | ||
问答对网站信息提取 | 从问答网站提取问题以及优质答案 | ||
拓展功能 | 配置链接的solr账户 | 可以手动配置需要链接的solr数据库 | |
自定义上传 | 允许用户进行solr索引删除以及重建选项 | ||
提供修改关键词接口 | 提供修改关键词接口以及访问方法 | ||
登陆账户 | 提供登陆界面,使用固定账号才可以登陆到管理界面里面 | |
Beta版本发布说明
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。