纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

首页 > 代码库 > 纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

2024-07-03 01:13:31 231人阅读

该程序库可以从数十种数据文件格式中，将纯文本数据进行抽出，通过该程序库，用户可以轻松获得各种格式文档的文字信息，方便检索和处理。
功能：
（1）文件自动识别：可识别源生成文件和其版本，文件的识别不是根据文件的扩展名，而是根据文件内部信息进行识别。
（2）文本抽出：从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
（3）属性抽出：从指定文件中，将文件属性抽出到属性结构体中。
（4）页面抽出：从指定文件中，抽出指定页中的文本数据。
（5）加密PDF文件抽出：从设定了安全包保护的PDF中抽出文本数据。
特点：方便、实用、快捷、及时、准确、完整的找到您想要的信息。
（1）模块化程序设计：采用灵活、合理的模块化程序设计与结构，可以高速化进行文本抽出，对新的文件格式迅速作出模块对应。具备多语言处理的程序模块，且各模块具有可移植性。
（2）支持多平台操作： windows版（暂无WIN7）、sun sparc版solaris2.5以上、 linux（glibc2.1以上）、IBM IX 5L version5.1、powerPC MacOS X
（3）支持多语言：中文（简/繁），英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合，生成标准html文档，适用于各种浏览器。
（4）支持多线程技术：支持server端多道并发操作，方便用户嵌入各种应用系统。
（5）支持数十种数据文件格式：ms office系列、microsoft rtf、adobo pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列（eml，msg）、压缩文件系列（zip，rar，lzh，tar，gzip）、html、xml等数十种数据文件格式。
（6）提供多种形式的API函数接口：C++/C、COMM、perl的API函数接口。
应用领域：
图书馆（各大图书论坛）、Internet搜索引擎、mail检索系统等大型应用系统中。

了解更多请回复交流

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 纯文本抽出通用程序库 让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁！

看完仍有疑问？有类似问题直接问程序猿

首页 > 代码库 > 纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！