您的位置:首页 > 编程语言 > ASP

用Aspose在Hadoop上处理Binary文件格式

2013-11-04 09:52 309 查看
Apache Hadoop有通过其灵活的分布式文件系统(HDFS)跨节点奖大数据归档的强大能力。这个大数据解决方案还有着MapReduce Framework的技术支持,使开发人员能通过其APIs分析已归档的大数据。大数据可能是结构化或者非结构化的,并且可能以任意文件格式呈现。请记住,Aspose
for Hadoop project的第一个版本已经发布,它让开发人员能够处理若干文件格式。以下就是初始版本所支持的文件格式:

Microsoft Word (DOC)
WordprocessingML (DOCX, XML)
Rich Text Format (RTF)
HTML, XHTML and MHTML
OpenDocument (ODT)
Microsoft Excel (XLS)
SpreadsheetML (XLSX, XML)
OpenDocument Spreadsheet (ODS)
PresentationML (PPTX, XML)
Outlook Emails (MSG)

使用Aspose for Hadoop project,Hadoop开发人员能够任意上述格式中解析文本,接下来文本可以被用于MapReduce分析算法或者取决于用户事件的任意目的。

com.aspose.hadoop.core——提供Aspose for Java wrapper类来从上述格式中解析文本。包裹包含几个类来覆盖Hadoop输入格式,从而使二进制序列文件可以被创建。
com.aspose.hadoop.examples——为创建和转换二进制序列文件提供映射实例。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: