首页 > 代码库 > 数据转换服务-文本抽出技术

数据转换服务-文本抽出技术

  利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。

 

    DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。

  (1)原数据文件的语言
    中国语(简体/繁体),英语,日本语及韩国语。

  (2)文本抽出时可以指定以下的文字集合
    ★中文简体(GB2312、GB18030、GBK)
    ★中文繁体(Big5)
    ★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
    ★韩文(KoreanKSC)
    ★西文(ISO8859-1~15)
    ★Unicode(UTF8、UTF16、UCS4、UCS8)

  (3)原数据文件格式的种类
    ·Microsoft Word95/97/98/2000/2003/XP
    ·Microsoft Excel95/97/2000/2003/XP
    ·Microsoft PowerPoint95/97/2000/2003/XP
    ·Adobe PDF 1.2/1.3/1.4/1.5
    ·Adobe PageMaker 6.0/6.5
    ·Microsoft RTF
    ·Lotus 1-2-3 R5/97/98/2000
    ·Works 2000 WP/DB/SS
    ·一太郎 7/8/9/10/11/12/13
    ·OASYS V3/V4/V5/V6/V7/V8 OA2
    ·ClarisWorks 4.0
    ·AppleWorks 6
    ·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
    ·Corel Presentations 9(Slide show 7/8/9)
    ·QuarkXPress 3.3/4
    ·AutoCAD R13/LT95/ R14/LT97 DXF
    ·AutoCAD 2000/2002
    ·DocuWorks Ver.4/5
    ·HTML
    ·XML

  (4)文本抽出时可以指定以下的功能
    ★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
    ★从指定的文件中,将文件的属性信息进行抽出。
    ★从指定的文件中,抽出指定页中的文本数据。
    ★从设定了安全保护的PDF文件中抽出文本数据。