首页 > 代码库 > 数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取工具

纯文本抽出程序库DMCTextFilter

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

一、应用案例

在实际的推广和应用中,红樱枫的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。
客户典型应用案例
● 拦截邮件后的内容信息抽取过滤
● 搜索引擎的数据前期格式统一
● 分词信息挖掘系统的数据转换
● 网络数据的过滤
● 舆情系统的信息挖掘
● 企业邮件系统监控
客户案例一:
提到数据格式转换软件,我们从WEB搜索的应用上足可窥其广阔的需求态势。全球最大的搜索网站百度,就采用了高效数据转换技术。以提高搜索引擎的搜索质量和易用性为主要目标,百度将纯文本抽出程序库应用于搜索引擎,进行二次开发和应用,为用户提供了一个既易于操作、又能准确查询的搜索技术平台。文本抽出程序在INTERNET中的二次应用,使搜索网站在专业化进程中更进一步。
客户案例二:
类似WEB搜索引擎,在邮件处理中一样需要纯文抽出程序库来帮忙。为使商业邮件的管理更为有序高效,用户需要找到一个简单快捷的途径,来对邮件进行检索规整。这就相当于要在电脑上建立一个“透视眼”,对目标性信息进行查询。只要键入目标信息,就可以在不打开附件的情况下,找到搜索目标,可获知信件的主要信息,这样既能提高效率又能保证网络安全。

二、产品特点

本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。


本文出自 “hyfsoft” 博客,请务必保留此出处http://hyfsoft.blog.51cto.com/8878038/1409862