评论删除后,数据将无法恢复
Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
系统架构:
核心优势:
主要功能:
企业应用:
Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。
团队成员:
Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。
Apache 基金会正式宣布 Griffin 毕业成为顶级项目
Apache 软件基金会12月12日正式宣布 Apache Griffin 毕业成为 Apache 顶级项目。 Apache Griffin 是一个强大的开源大数据质量解决方案,适用于任意规模的分布式数据系统。它提供了一个统一的...

没有更多内容
加载失败,请刷新页面
没有更多内容
@leslytt 你好,想跟你请教个问题: 我本地搭建了Apache Griffin,但是 1、HDFS的/griffin/persist目录下没有统计结...
@九州暮云 你好,想跟你请教个问题:Apache Griffin这个开源项目还有人维护吗?什么时候更新到1.0版本 目前正式发行版还没有?
Griffin 是一个应用于分布式数据系统中的开源数据质量解决方案,在 Hadoop、Spark、Storm 等分布式系统中,提供了一整套统一的流程来定义...

没有更多内容
加载失败,请刷新页面
没有更多内容
