湖仓一体引擎以云原生架构为基础,融合数据仓库和数据湖的优势,将所有结构化、半结构化、非结构化数据统一入湖,实现了对数据进行高性能管理与灵活应用的完美平衡,可以使一套数据服务于多种业务场景。通过统一接口支持实时查询、OLAP分析,确保了数据高效与敏捷的共享。引擎还具备ACID特性,支持数据上传、修改、查询等操作,提升事务性处理能力,使其成为适应各类复杂业务需求的卓越选择。
采用对象存储与Kubernetes技术构建了大数据存算分离架构,解耦存储与计算,实现了数倍存储资源的节省。按需扩展计算和存储节点,提高系统灵活性,有效满足大规模数据处理需求,进而实现更高性能和可扩展性。助力企业资源优化与降低成本的同时,增强数据的安全性和隔离,提高企业的应变能力与竞争力。
引入Flink Operator与Spark Operator,实现计算资源的自动弹性伸缩,根据数据潮汐效应灵活动态分配资源,避免离在线任务抢占,确保最佳计算资源利用。支持智能调整应用程序按需申领资源,以保障高效利用,为企业提供在需求波动中的灵活响应,实现最大化计算资源效益。
统一元数据通过全面收集和展示数据元信息,实现高效的数据搜索和发现,使用户能快速准确地找到所需的数据资源。支持血缘追踪、数据质量监控和修复,提升数据的可信度、可追溯性、一致性和准确性。通过元数据分类和标记,增强对敏感信息的管控,有效降低潜在的合规风险。
采用Apache Celeborn作为RSS工具,有效解决大数据量Flink和Spark作业中常见的磁盘写满、网络不稳定以及随机IO等运行稳定性问题。计算引擎更为稳定,同时在大数据量Shuffle方面取得显著性能提升,加速计算任务的执行速度和提高任务运行质量。
湖仓一体引擎以云原生架构为基础,融合数据仓库和数据湖的优势,将所有结构化、半结构化、非结构化数据统一入湖,实现了对数据进行高性能管理与灵活应用的完美平衡,可以使一套数据服务于多种业务场景。通过统一接口支持实时查询、OLAP分析,确保了数据高效与敏捷的共享。引擎还具备ACID特性,支持数据上传、修改、查询等操作,提升事务性处理能力,使其成为适应各类复杂业务需求的卓越选择。
业务痛点
主流数仓架构需要同时支持实时和离线两种计算模式,以及相应的存储方式。但是实时计算层与离线计算层、实时存储层与离线存储层之间并不统一,存在割裂。这使得企业需要投入更多硬件资源和精力来维护代码。
业务价值
简化管理:简化数据湖和数据仓库的管理与维护。
专注开发:无需关注数据转换,专注数据开发,提升业务洞察力。
降本增效:存算分离架构,使用对象存储,能够更加高效的利用存储资源。
业务痛点
主流数仓架构需要同时支持实时和离线两种计算模式,以及相应的存储方式。但是实时计算层与离线计算层、实时存储层与离线存储层之间并不统一,存在割裂。这使得企业需要投入更多硬件资源和精力来维护代码。
业务价值
简化管理:简化数据湖和数据仓库的管理与维护。
专注开发:无需关注数据转换,专注数据开发,提升业务洞察力。
降本增效:存算分离架构,使用对象存储,能够更加高效的利用存储资源。