用Aspose在Hadoop上处理Binary文件格式
2013-11-04 09:52
309 查看
Apache Hadoop有通过其灵活的分布式文件系统(HDFS)跨节点奖大数据归档的强大能力。这个大数据解决方案还有着MapReduce Framework的技术支持,使开发人员能通过其APIs分析已归档的大数据。大数据可能是结构化或者非结构化的,并且可能以任意文件格式呈现。请记住,Aspose
for Hadoop project的第一个版本已经发布,它让开发人员能够处理若干文件格式。以下就是初始版本所支持的文件格式:
Microsoft Word (DOC)
WordprocessingML (DOCX, XML)
Rich Text Format (RTF)
HTML, XHTML and MHTML
OpenDocument (ODT)
Microsoft Excel (XLS)
SpreadsheetML (XLSX, XML)
OpenDocument Spreadsheet (ODS)
PresentationML (PPTX, XML)
Outlook Emails (MSG)
使用Aspose for Hadoop project,Hadoop开发人员能够任意上述格式中解析文本,接下来文本可以被用于MapReduce分析算法或者取决于用户事件的任意目的。
com.aspose.hadoop.core——提供Aspose for Java wrapper类来从上述格式中解析文本。包裹包含几个类来覆盖Hadoop输入格式,从而使二进制序列文件可以被创建。
com.aspose.hadoop.examples——为创建和转换二进制序列文件提供映射实例。
for Hadoop project的第一个版本已经发布,它让开发人员能够处理若干文件格式。以下就是初始版本所支持的文件格式:
Microsoft Word (DOC)
WordprocessingML (DOCX, XML)
Rich Text Format (RTF)
HTML, XHTML and MHTML
OpenDocument (ODT)
Microsoft Excel (XLS)
SpreadsheetML (XLSX, XML)
OpenDocument Spreadsheet (ODS)
PresentationML (PPTX, XML)
Outlook Emails (MSG)
使用Aspose for Hadoop project,Hadoop开发人员能够任意上述格式中解析文本,接下来文本可以被用于MapReduce分析算法或者取决于用户事件的任意目的。
com.aspose.hadoop.core——提供Aspose for Java wrapper类来从上述格式中解析文本。包裹包含几个类来覆盖Hadoop输入格式,从而使二进制序列文件可以被创建。
com.aspose.hadoop.examples——为创建和转换二进制序列文件提供映射实例。
相关文章推荐
- 用Aspose在Hadoop上处理Binary文件格式
- hadoop处理lzo格式的压缩文件报错
- Hadoop 实例15 MultipleInputs实战2:多种自定义文件格式的文件输入处理
- 利用Hadoop Streaming处理二进制格式文件
- 如何处理 mka 格式的音频文件
- Hadoop中CombineFileInputFormat详解——处理大量小文件
- Hadoop-- 海量文件的分布式计算处理方案
- “System.BadImageFormatException”类型的未经处理的异常在 PurchaseDevices.Access.dll 中发生 其他信息: 未能加载文件或程序集“System.Data.SQLite, Version=1.0.66.0, Culture=neutral, PublicKeyToken=db937bc2d44ff139”或它的某一个依赖项。试图加载格式不正确
- Hadoop 处理小文件
- 用Excel打开csv文件时,如何处理数字内容展现会自动转换格式的问题
- caffe:把pb格式的文件均值(mean.binaryproto)转换成numpy格式的文件均值(mean.npy)
- android Ubuntu adb: cannot execute binary file: 可执行文件格式错误
- hadoop streaming python 处理 lzo 文件遇到的问题
- FileSystem以标准输出格式显示Hadoop文件中的文件
- 文章20:NGINX配置文件格式及处理流程
- 【总结】spark按文本格式和Lzo格式处理Lzo压缩文件的比较
- Hadoop之自定义格式分隔文件测试笔记
- hadoop用mutipleInputs实现map读取不同格式的文件
- hadoop编程小技巧(5)---自己定义输入文件格式类InputFormat
- Hadoop中使用压缩文件格式