分布式存储引擎对比。

选型 对象存储(S3) + 文档型存储(MongoDB) 数据仓库(Hive) 数据湖解决方案
场景 对象存储S3定位于分布式海量数据的存取,S3提供标准的对象存储服务,支持图片/音频/视频/文本/大文件等数据格式。应用场景包括社区、论坛、电商、短视频等各类形式规模的网站,APP应用、软件应用、游戏、物联网应用开发及大规模数据存储需求场景 数仓主要用于处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合 数据湖能处理所有类型的数据(包括结构化数据、非结构化数据、半结构化数据)和任何格式(包括图像、音频、视频等二进制数据)。数据湖存储数据源系统的原始数据格式。
目的 S3用于存储急剧增加并且孤立的大量数据,解决碎片化存储带来的挑战 数仓处理结构化数据,将它们转化为多维数据,或者报表,以满足后续的高级报表及数据分析需求,如:BI分析、批处理报告和可视化 数据湖适合于深度分析,拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用,供机器学习、预测分析、数据发现和分析等
特点 S3适合内容存储和分发场景; MongoDB适合文档化格式数据(特别是大尺寸、低价值数据)的存储和查询。 高性能、可重复性、持续使用 弹性、存储计算独立扩展、统一的存储引擎、多模式计算引擎
扩展性 S3 存储提供了更好的可扩展性,提供了更高的可靠性(尤其是在提供大文件时); MongoDB 中通过 Shard 支持服务器水平扩展,通过 Replication 支持高可用(HA) 数据仓库的核心是展现层和提供优质的服务,依赖于合理的ETL 及其规范、分层 数据湖是较新的技术,拥有不断演变的架构,每家公司的数据湖架构都有所不同,数据湖存储任何类型的原始数据。
使用成本 - - 业界使用较多的是Hudi、Iceberg、Databricks Delta

参考