当前大数据架构发展

目前主流的大数据技术架构呈现出以下几个关键趋势和对应的技术选型:

1. 架构理念演进:从 Lambda 到 Kappa,再到湖仓一体与存算分离

2. 存储层 (对应 HDFS)

虽然 HDFS 在本地部署的 Hadoop 集群中仍然广泛使用 [5][6],但其地位已受到挑战,尤其是在云环境中:

3. 数仓层 (对应 Hive)

Hive 仍然是数据仓库工具,但其底层架构和使用方式发生了变化,并涌现出更多高性能的数仓解决方案:

4. 计算引擎 (对应 Spark)

Spark 依然是大数据计算领域的重要玩家,但其生态更加丰富,并出现了专注于实时处理的强大对手:

总结

您过去熟悉的 HDFS + Hive + Spark 仍然是许多企业大数据平台的基础,但其演进方向是:

总而言之,当前主流的大数据架构更加强调实时性、灵活性、成本效益和云原生能力,通过 湖仓一体、存算分离和流批一体 等理念,结合 对象存储、数据湖表格式、MPP 数据库和 Spark/Flink/Presto 等计算引擎,构建更高效、更适应业务需求的数据平台。


Learn more:

  1. 大数据(二)大数据架构发展史- 只会一点java - 博客园
  2. 大数据技术的发展趋势-腾讯云开发者社区
  3. 挑战Spark和Flink?大数据技术栈的突围和战争| 年度技术盘点与展望 - InfoQ
  4. 从小数据到大数据,架构经历了怎样的演变 - 腾讯云
  5. 2024数据工程开源技术跟踪- 天戈朱 - 博客园
  6. 2024 开源数据工程生态系统全景图- Ji_Lei - 博客园
  7. 数据平台竞技场2024:AI 或成为必杀技,但面临三个致命挑战 - InfoQ
  8. 「火山引擎」数智平台VeDI 数据中台产品双月刊VOL.07 - 文章- 开发者社区
  9. 主流的数据仓库有哪些,数据仓库类型 - SelectDB
  10. 开源大数据计算引擎有哪些 - 帆软
  11. “后Hadoop时代”,大数据从业者如何应对新技术趋势带来的挑战? - InfoQ