studaeo
本站致力于IT相关技术的分享
构建从 ZeroMQ 到 Apache Hudi 的近实时数据管道:一个 Node.js 实现的复盘 构建从 ZeroMQ 到 Apache Hudi 的近实时数据管道:一个 Node.js 实现的复盘
技术痛点:从分钟级到秒级的延迟鸿沟我们的业务场景中,大量微服务(清一色的 Node.js 技术栈)持续不断地产生用户行为事件——点击、浏览、加购等。最初的架构简单粗暴:应用将事件日志以 JSON Lines 格式写入本地文件,一个定时任务每
2023-10-27
基于Kotlin与GitLab CI实现数据湖仓Iceberg表格式的自动化模式演进 基于Kotlin与GitLab CI实现数据湖仓Iceberg表格式的自动化模式演进
团队一次代价惨痛的生产事故,源于一次简单的模式变更。在向数据湖核心事实表中添加一个新字段时,一位工程师手动执行 DDL 脚本时引入了一个微小的拼写错误。这个错误直到下游的报表任务在凌晨批量失败时才被发现,导致了数小时的数据延迟和业务决策中断
2023-10-27
基于CDC、Hudi与Consul Connect的全链路实时数据架构实现 基于CDC、Hudi与Consul Connect的全链路实时数据架构实现
我们面临一个棘手的需求:构建一个运营仪表盘,它必须同时展示来源于生产SQL数据库的最新交易记录(例如,最近5分钟内的订单状态变更),以及沉淀在数据湖中的用户历史聚合指标(例如,用户生命周期总价值LTV)。初期的方案是在前端React应用中发
2023-10-27
使用 eBPF、C# 与 Apache Hudi 构建 SQL Server 的无侵入实时数据捕获管道 使用 eBPF、C# 与 Apache Hudi 构建 SQL Server 的无侵入实时数据捕获管道
我们面临一个棘手的工程问题:需要将一个核心生产环境的 SQL Server 数据库的实时变更数据同步到一个数据湖中,但DBA团队基于稳定性和性能的考虑,明确拒绝了所有常规的CDC(Change Data Capture)方案。这意味着我们不
2023-10-27