Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2108
  • 博文数量: 1
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 20
  • 用 户 组: 普通用户
  • 注册时间: 2014-04-28 10:50
个人简介

数据格式处理专家

文章分类
文章存档

2014年(1)

我的朋友
最近访客

分类: 大数据

2014-04-28 11:25:31

我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度,
DMCTextFilter和HTMLFilter是由红樱枫软件(HYFsoft)研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

一、技术特点

1.  多格式数据处理,可以对近百种文件格式进行文本抽取
支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML转换。
2.  对文件的操作不需要安装其他任何第三方软件
文件操作在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。特别是不依赖于原软件的各种文档的Image化、PDF化技术,在网络服务器中的应用非常广泛。这是一项世界上比较流行、且需求量很大的技术。
3.  可以支持多种操作系统环境、支持服务器并发操作
支持各种操作系统,如:Windows的32位和64位各种版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,并支持单线程或多线程操作,实现了多人共用机制。
4.  无与伦比的运行速度
程序全部用C/C++语言开发,执行速度无与伦比,即使是单线程运行,平均每秒钟处理9个文件,当50个线程时,每秒钟16个文件,随着线程数的增加以及机器性能的提高。是目前世界上处理文档效率最高的软件。

5.  多种语言文字代码的支持

抽出文本时,可以指定以下的字符集合作为文本文件的字符集:GBK、GB18030、Big5、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 1001、ISO-8859-1、ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-16、UTF-8、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004
6.  C/C++、JAVA、.NET等功能强大的接口功能
程序库除提供C/C++函数接口外,还提供了com接口、java接口、perl接口等各种调用方法。函数功能上有:文件格式识别函数、文本抽出函数(文件)、文本抽出函数(流Stream输出)、文件属性抽出函数、页抽出函数、页抽出函数(流Stream输出)、设定User
Password的PDF文件的文本抽出函数、设定User Password的PDF文件的页抽出函数、设定User
Password的PDF文件属性的抽出函数等。

二 、广泛的应用领域

软件程序库广泛的应用于政府、企业等各个领域的信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、数字图书馆、电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。
客户典型应用案例
●  拦截邮件后的内容信息抽取过滤
●  搜索引擎的数据前期格式统一
●  分词信息挖掘系统的数据转换
●  网络数据的过滤
●  舆情系统的信息挖掘
●  企业邮件系统监控
阅读(719) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:没有了

给主人留下些什么吧!~~