fq - 二进制数据解析工具
fq 是一个用于检查二进制数据的工具和解析器。 在大多数情况下,fq 的工作方式与 jq 相同,但它不是读取 JSON,而是读取二进制数据。结果是一个 JSON 兼容的结构,其中每个值都有一个位...
fq 是一个用于检查二进制数据的工具和解析器。 在大多数情况下,fq 的工作方式与 jq 相同,但它不是读取 JSON,而是读取二进制数据。结果是一个 JSON 兼容的结构,其中每个值都有一个位...
Debezium 是一个为捕获数据更改 (Change Data Capture, CDC) 提供低延迟的流式处理平台,利用 Kafka 和 Kafka Connect 实现了持久性、可靠性和容...
实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑,并致力于实时计算平台建设。 Dinky 基于 Apache Flink 实现 Dlink ,增强 F...
seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。 为什么我们需要 seatunnel seatun...
Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...
Gamestonk Terminal 是一个股票和加密市场的投资研究终端,为投资研究提供了一个基于 Python 的现代集成环境,允许交易者使用最先进的数据科学和机器学习技术。 作为一个现代的基...
Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。 Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的...
基于卡方检验的大数据抽样工具 介绍 抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准...
该项目提出了一种有效的基于组合设计工具 PBD (Pairwise Block Design) 的数据布局 PDL,以加快混合 EC 分布式存储系统中单节点故障的数据修复。 由于减少了机架间的通...
CacheLib 是用于扩展高性能缓存服务的可插拔缓存引擎,其包含一个 C++ 库,提供进程内高性能缓存机制。并提供了一个线程安全的 API 来构建高吞吐量、低开销的缓存服务,同时并具有透明地利...
OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。 OpenMetadata 包括以下内容: 元数据模式- 定义元数据的核心抽象和词汇表,其中包含类型、实体、实体...
Databend 是一个具有云原生架构的现代实时数据处理和分析 DBMS,旨在简化数据云。 Principles Fearless 没有数据竞争,没有不安全,最大限度地减少未处理的错误 高性能 ...
Tuplex 是一个并行的大数据处理框架,它以编译代码的速度运行用 Python 编写的数据科学管道。Tuplex 具有与Apache Spark或Dask类似的 Python API ,但与调...
iceoryx 是一个适用于各种操作系统的进程间通信(IPC)中间件(目前已支持 Linux、macOS 和 QNX)。它起源于汽车行业,当涉及到驾驶辅助或自动驾驶系统时,大量的数据必须在不同的...
ZNBase 是浪潮打造的一款分布式数据库产品,具备强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性,自研的原生分布式存储引擎支持完整 ACID,支持 PostgreSQL 协...
UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数...
HStreamDB 是一款专为流式数据设计的, 针对大规模实时数据流的接入、存储、处理、分发等环节进行全生命周期管理的流数据库。 它使用标准 SQL (及其流式拓展)作为主要接口语言,以实时性作...
Apache Daffodil 是 DFDL 规范的开源实现,该规范使用 DFDL 数据描述将固定格式的数据解析为信息集。通常将此信息集转换为 XML 或 JSON,以允许通过公认的 XML 或...
这是华为分析服务(HUAWEI Analytics Kit)与app集成的示例代码,可实现对分析服务开放能力的API调用,其演示了如何通过收集预定义事件和自定义事件以提高用户参与度和用户偏好。 ...
Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构...
没有更多内容
加载失败,请刷新页面