首页 > 代码库 > 大数据处理

大数据处理

DMCTextFilter和HTMLFilter数据过滤器


我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度, DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

一、产品特点


1.   多格式数据处理,可以对近百种文件格式进行文本抽取


支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML转换。

2.   对文件的操作不需要安装其他任何第三方软件


文件操作在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。特别是不依赖于原软件的各种文档的Image化、PDF化技术,在网络服务器中的应用非常广泛。这是一项世界上比较流行、且需求量很大的技术。

3.   支持多种操作系统环境、支持服务器并发操作


支持各种操作系统,如:Windows的32位和64位各种版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,并支持单线程或多线程操作,实现了多人共用机制。

4.   无与伦比的运行速度


程序全部用C/C++语言开发,执行速度无与伦比,即使是单线程运行,平均每秒钟处理9个文件,当50个线程时,每秒钟16个文件,随着线程数的增加以及机器***能的提高。是目前世界上处理文档效率最高的软件。

5.   多种语言文字代码的支持


抽出文本时,可以指定以下的字符集合作为文本文件的字符集:GBK、GB18030、Big5、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 1001、ISO-8859-1、ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-16、UTF-8、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004

6.   C/C++、JAVA、.NET等功能强大的接口功能


程序库除提供C/C++函数接口外,还提供了com接口、java接口、perl接口等各种调用方法。函数功能上有:文件格式识别函数、文本抽出函数(文件)、文本抽出函数(流Stream输出)、文件属***抽出函数、页抽出函数、页抽出函数(流Stream输出)、设定User Password的PDF文件的文本抽出函数、设定User Password的PDF文件的页抽出函数、设定User Password的PDF文件属***的抽出函数等。

二 、广泛的应用领域


软件程序库广泛的应用于政府、企业等各个领域的信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、数字图书馆、电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在***能和质量上都得到了用户高度评价。

 

 

■应用举例一: 某公司 中文文本挖掘软件产品


此公司的文本挖掘软件是国内外首推的实用化中文文本挖掘产品,它突破了文本处理机械匹配的基本模式,实现了智能化的信息处理,可有效解决目前普遍存在的信息过量、信息丢失、信息无关等问题。它集成了此公司最新推出的多项中文智能处理技术,为中文文本挖掘应用提供开放的开发工具箱。在红樱枫软件的通用文本抽出程序库的基础上,此软件的下述功能得以实现。

文本挖掘软件由四个逻辑模块组成,即:文本分类、文本摘要、文本聚类和相似***检索模块。文本分类工具可自动地对文档进行分类,赋予文档一个预先定义的类别主题词,实现文档的自动组织,而无需人工干预。文本摘要可以提取文本主题,自动生成文本摘要,为用户快速浏览信息提供快捷有效的方式。文本聚类工具可以自动对文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。相似***检索工具可以帮助用户检索与给定文档相似的文档,可以应用于文档查重等诸多工作领域。

 

■应用举例二:某公司数字图书馆解决方案


数字图书馆的本质就是以分布式海量数据库群为支撑的信息服务系统,图书馆内拥有大量的期刊、杂志和图书、图片等馆藏资源信息。因此,对数据的解析能力也是图书馆系统的一个重要衡量标志。应用了红樱枫软件文本抽出程序库软件的此公司图书馆管理系统实现了对海量数据信息的存储与检索,完成了数字信息资源的生产、加工、存储、检索、传递、保护、利用、归档、剔除等全过程。此图书馆解决方案所提供强大功能组件,建立起包括数字化进行资源建设与收集,数字资源的存储和管理,全文搜索引擎,分布式框架机制和安全信任机制等功能数字图书馆系统体系。利用iBASE DMC数据管理中心提供的方便快捷的建库功能,用户的图书馆建立起自己特色专业数据库,同时还利用iBASE DMC完成对原有的书目数据库、文摘数据库、全文数据库以及光盘数据倒入iBASE数据库中,统一了数据格式,为资源共享和数据交换奠定基础。

三.产品价值


在实际的推广和应用中,我公司的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在***能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,***能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。

目前主要突出体现出如下应用价值:

1.  为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;

2.  可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。

3.  在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。

4.  为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。

5.  可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。