分布式存储引擎对比。

选型	对象存储（S3） + 文档型存储（MongoDB）	数据仓库（Hive）	数据湖解决方案
场景	对象存储S3定位于分布式海量数据的存取，S3提供标准的对象存储服务，支持图片/音频/视频/文本/大文件等数据格式。应用场景包括社区、论坛、电商、短视频等各类形式规模的网站，APP应用、软件应用、游戏、物联网应用开发及大规模数据存储需求场景	数仓主要用于处理历史的、结构化的数据，而且这些数据必须与数据仓库事先定义的模型吻合	数据湖能处理所有类型的数据（包括结构化数据、非结构化数据、半结构化数据）和任何格式（包括图像、音频、视频等二进制数据）。数据湖存储数据源系统的原始数据格式。
目的	S3用于存储急剧增加并且孤立的大量数据，解决碎片化存储带来的挑战	数仓处理结构化数据，将它们转化为多维数据，或者报表，以满足后续的高级报表及数据分析需求，如：BI分析、批处理报告和可视化	数据湖适合于深度分析，拥有足够强的计算能力用于处理和分析所有类型的数据，分析后的数据会被存储起来供用户使用，供机器学习、预测分析、数据发现和分析等
特点	S3适合内容存储和分发场景； MongoDB适合文档化格式数据（特别是大尺寸、低价值数据）的存储和查询。	高性能、可重复性、持续使用	弹性、存储计算独立扩展、统一的存储引擎、多模式计算引擎
扩展性	S3 存储提供了更好的可扩展性，提供了更高的可靠性（尤其是在提供大文件时）； MongoDB 中通过 Shard 支持服务器水平扩展，通过 Replication 支持高可用（HA）	数据仓库的核心是展现层和提供优质的服务，依赖于合理的ETL 及其规范、分层	数据湖是较新的技术，拥有不断演变的架构，每家公司的数据湖架构都有所不同，数据湖存储任何类型的原始数据。
使用成本	-	-	业界使用较多的是Hudi、Iceberg、Databricks Delta

存储引擎选型

文章目录

参考