首页 > 代码库 > 纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理。
功能:
(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别。
(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中。
(4)页面抽出:从指定文件中,抽出指定页中的文本数据。
(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据。
特点:方便、实用、快捷、及时、准确、完整的找到您想要的信息。
(1)模块化程序设计:采用灵活、合理的模块化程序设计与结构,可以高速化进行文本抽出,对新的文件格式迅速作出模块对应。具备多语言处理的程序模块,且各模块具有可移植性。
(2)支持多平台操作: windows版(暂无WIN7)、sun sparc版solaris2.5以上、 linux(glibc2.1以上)、IBM IX 5L version5.1、powerPC MacOS X
(3)支持多语言:中文(简/繁),英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合,生成标准html文档,适用于各种浏览器。
(4)支持多线程技术:支持server端多道并发操作,方便用户嵌入各种应用系统。
(5)支持数十种数据文件格式:ms office系列、microsoft rtf、adobo pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列(eml,msg)、压缩文件系列(zip,rar,lzh,tar,gzip) 、html、xml等数十种数据文件格式。
(6)提供多种形式的API函数接口:C++/C、COMM、perl的API函数接口。
应用领域:
图书馆(各大图书论坛)、Internet搜索引擎、mail检索系统等大型应用系统中。

了解更多请回复交流