数据序列化框架Apache Avro

Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase和Hive的Client端与服务端的数据传输也采用了这个工具，Avro可以做到将数据进行序列化，适用于远程或本地大批量数据交互。在传输的过程中Avro对数据二进制序列化后节约数据存储空间和网络传输带宽。Avro还可以做到在同一系统中支持多种不同语言，也有点类似Apache的另一个产品：Thrift，对于Thrift不同的是Avro更加具有灵活性，Avro可以支持对定义的数据结构(Schema)动态加载，利于系统扩展。摘自： Avro入门1–序列化与远程通信

【官方主页】

【下载地址】

网友留言/评论

我要留言/评论

相关开源项目

Apache Chemistry: Apache Chemistry是Content Management Interoperability Services (CMIS) 规范的一个开源实现。该项目当前由以下子项目组成：
OpenCMIS - CMIS Java客户端和服务器端类库
cmislib - CMIS Python客户端类库
phpclient - CMIS PHP客户端类库
DotCMIS - CMIS .NET客户端类库

Apache Directory Studio: Apache Directory Studio是一个LDAP工具平台，支持连接到任何 LDAP服务器并进行管理和开发工作，但主要还是设计用于Apache Directory Server。功能包括：LDAP浏览器、LDIF编辑器、Schema编辑器、嵌入式 ApacheDS、ACI编辑器。

MEDOR:MEDOR管理分布式对象请求的中间件.
MEDOR与JORM结合为JOnAS J2EE应用服务器提供CMP2.0。
MEDOR与JORM结合为Speedo提供JDO支持。

Apache UIMA: Apache UIMA 是UIMA定义的Apache开源实现。UIMA是一个用于分析非结构化内容（比如文本、视频和音频）的组件架构和软件框架实现。这个框架的目的是为非结构化分析提供一个通用的平台，从而提供能够减少重复开发的可重用分析组件。 UIMA 架构允许您轻松插入定制的分析组件，并将它们与其他组件合并。您的 UIMA 应用程序不需要知道分析组件共同合作生成结果的细节。集成和组织多个分析组件是 UIMA 框架的工作。 UIMA 应用程序可能分析纯文本并识别人员、位置和组织；它也可能识别关系，比如为谁工作或在什么地方工作。应用程序通常可以拆分成组件。例如 “语言识别” => “特定于语言的部分” => “句子范围检测” => “实体检测（人员/位置的名称等等）”。

Apache SSHD: Apache SSHD是一个100%纯Java类库用于在基于Java开发的客户端与服务器提供SSH协议支持。这个类库采用Apache MINA开发，它是一个可扩展和高性能的异步IO类库。

云计算客户端开发包：Libcloud: Apache 网站的顶级项目，Libcloud是一个通用的云计算客户端开发包，Libcloud是许多流行的云服务提供商的标准客户端库，有Python和Java两种版本。以下是当前Java版对各云服务提供商的情况：

Enhydra Octopus:Octopus是一个基于Java的ETL工具(数据抽取:Extract、转换:Transform、装载:Load)。它可以连接任何JDBC数据源并通一个XML文件完成数据转换。一个loadjob生成器提供从现存的数据库中生成Octopus loadjob构架.多种不同的数据可以被混合在一起(MSSQL, Oracle, DB2, QED, JDBC-ODBC with Excel and Access, MySQL, CSV-files, XML-files,..) Octopus自带三个特殊的JDBC驱动用来支持通过JDBC访问CSV-files (CSV-JDBC), MS-SQL (FreeTDS)和XML. Octopus支持用Ant和Junit创一个数据库/表并能在构建或测试过程中可以抽取/装载数据.

Enhydra Kelp:Enhydra Java/XML应用服务器的IDE插件和开发工具。目前支持在Windows and Linux平台上的开发工具如：Eclipse, Netbeans, JBuilder 和JDeveloper

Apache Tika: Apache Tika是一个Java工具包用于利用现有的解析类库，从不同格式的文档中（例如HTML，PDF，Doc)，检测和提取出元数据和结构化内容。功能包括： 1.检测文档的类型，字符编码，语言，等其他现有文档的属性。2.提取结构化的文字内容。3.该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。目前支持的文档格式和对应的解析类库如下：　

文档格式
相应的解析类库

HTML
TagSoup

XML
自定义

微软的Office文档
Apache POI

OpenDocument format (ODF)
自定义

PDF
Apache PDFBox

EPUB
自定义

Rich Text Format (RTF)
自定义

压缩文件格式(如 ar, cpio, tar, zip, gzip, bzip2等）
Apache组织的Commons Compress

Txt
ICU

音频格式
主要采用Java的标准图像处理包javax.sound

图像格式
Java的标准图像处理包javax.imageio，以及 metadata-extractor软件包。

视频格式
目前只支持Flash格式。

Java类文件
自定义

邮件mbox文件格式
自定义

OpenCCM:OpenCCM是CCM (CORBA Component Model)的一个开源实现. OpenCCM允许你设计,实现,编译,打包,聚集,部署,安装,配置,执行和管理基于分布式CORBA组件的应用程序.