首页 > 代码库 > 数据转换服务-文本抽出技术
数据转换服务-文本抽出技术
利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。
DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。
(1)原数据文件的语言
中国语(简体/繁体),英语,日本语及韩国语。
(2)文本抽出时可以指定以下的文字集合
★中文简体(GB2312、GB18030、GBK)
★中文繁体(Big5)
★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
★韩文(KoreanKSC)
★西文(ISO8859-1~15)
★Unicode(UTF8、UTF16、UCS4、UCS8)
(3)原数据文件格式的种类
·Microsoft Word95/97/98/2000/2003/XP
·Microsoft Excel95/97/2000/2003/XP
·Microsoft PowerPoint95/97/2000/2003/XP
·Adobe PDF 1.2/1.3/1.4/1.5
·Adobe PageMaker 6.0/6.5
·Microsoft RTF
·Lotus 1-2-3 R5/97/98/2000
·Works 2000 WP/DB/SS
·一太郎 7/8/9/10/11/12/13
·OASYS V3/V4/V5/V6/V7/V8 OA2
·ClarisWorks 4.0
·AppleWorks 6
·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
·Corel Presentations 9(Slide show 7/8/9)
·QuarkXPress 3.3/4
·AutoCAD R13/LT95/ R14/LT97 DXF
·AutoCAD 2000/2002
·DocuWorks Ver.4/5
·HTML
·XML
(4)文本抽出时可以指定以下的功能
★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
★从指定的文件中,将文件的属性信息进行抽出。
★从指定的文件中,抽出指定页中的文本数据。
★从设定了安全保护的PDF文件中抽出文本数据。