首页 > 代码库 > Alpha版本发布说明
Alpha版本发布说明
项目名称 | Pipeline |
项目版本 | Alpha版本 |
负责人 | 北京航空航天大学计算机学院 C705团队 |
联系方式 | http://www.cnblogs.com/C705/ |
发布日期 | 2014-11-23
|
更新内容:
1.修复缺陷:
a)中英文分词算法改进
b)提取文档信息改进
c)提取关键词结构优化
d)修复与爬虫数据库数据交互问题
e)修复无法找到文件时出错问题
f)修复错误标签存在的问题
g)修复数据库连接没有close导致崩溃的问题
2.新功能:
a)支持对pdf的信息提取
下面的两个图中,左边是pdf源文件的内容,右边是进行转换后输出的txt文件的内容,可以看出,txt文件保留了pdf的分段、提行信息。
b)支持对word文档的信息提取
下面以数据库课程设计要求文档展示word转换为txt的效果。
这是word中的目录页:
后面的内容:
c)支持对电子表格的信息提取:
转换后,基本上能够保持原表格的结构:
环境要求:
操作系统需求 | Windows操作系统 |
运行环境需求 | 无 |
数据库需求 | 需配置数据库到Windows(或Windows server)数据源中,数据库名为crawler |
安装方法:
直接解压安装,在Pipeline\Pipeline\bin\Debug文件夹中找到Pipeline.exe可以打开程序。
系统已知的问题和限制:
a)爬取文件名和文件所在路径不能过长
b)无效字符的无法处理
c)数据库与文件信息不匹配会出现异常
d)文件中图片信息无法提取
软件的发布方式以及发布地址:
代码发布在服务器219.224.191.25上,可下载使用。
Alpha版本发布说明
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。