产品介绍
本手册主要介绍DingoDB 多模向量数据库的功能特点及应用场景等。
随着人工智能和机器学习技术的快速发展以及数据爆炸式增长。在传统的关系型数据库中,数据一般只包含标量或标量类型的组合,难以处理大规模的、高维度、复杂多样的数据类型,例如图像、视频、声音、自然语言等,因此传统的基于关系型数据库的解决方案逐渐失去优势;而多模态向量数据库则可以高效地处理这些多样化的数据类型,并且能够为这些数据提供有力的表达和分析工具。
未来,多模态向量数据库将会有更广泛的应用场景,可以预期它们将更加注重对多样化数据的高效处理和管理,以及实现自动化分析、数据挖掘和机器学习等功能。并且随着这些技术的不断创新和突破,也将逐步提高性能和可靠性,成为数据存储和处理领域的重要工具,能够有效地应用于许多领域,例如智能搜索、推荐系统、图像识别、自然语言处理等。这些应用场景不仅大大拓展了多模态向量数据库的需求和应用范围,也促进了它们的技术创新和发展。总之,多模态向量数据库是当前人工智能和机器学习领域中的一个重要技术方向,具有广阔的发展前景和应用价值。
DingoDB 分布式的多模向量数据库将数据湖和向量数据库的功能融合在一起,允许存储任意类型、任意大小的数据(如键值、PDF、音频、视频等)。使用 DingoDB,您可以构建自己的 Vector Ocean(DataCanvas 提出的下一代数据架构,继承了数据仓库和数据湖的特点),从而通过一个单一的 SQL 实时查询和分析结构化和非结构化的数据并实现极低的延迟。
作为一个分布式数据库,DingoDB被设计成由多个组件组成。这些组件之间相互通信,形成一个完整的DingoDB系统。架构如下:
Ø 兼容MySQL相关方言
DingoDB基于流行的Apache Calcite SQL引擎,可以解析、优化和执行标准SQL语句,并能够运行TPC-H和TPC-DS查询的一部分。还可以与MySQL Shell和MySQL-JDBC-Driver客户端兼容,能够实现与Web服务、BI工具等无缝集成。
Ø 全方位数据存储
DingoDB支持多种数据类型的存储,包括但不限于音频文件、文本、视频、图像、PDF和注解等。
Ø 混合搜索机制
DingoDB支持混合搜索机制,通过结合向量搜索和元数据搜索,能够更精确地找到符合条件的结果数据,从而提供更好的用户体验。
Ø 实时索引构建
DingoDB与传统向量数据库的索引构建方式有所不同,它支持实时数据写入和实时索引构建,以更好地满足市场对高时效性和准确性的需求。
Ø 智能执行引擎
DingoDB在兼容SQL标准协议的基础上,进一步扩展了SQL语法,支持一套协议下的多模态SQL优化引擎,以实现最优计划的SQL执行。
Ø 多副本存储策略
DingoDB通过多副本机制提高了数据的高可用性和并发分析的吞吐能力,从而突破了传统向量计算通常采用的单机模式的局限性。
Ø 存算分离
DingoDB在形态上采用一个存储引擎、一个计算引擎;同时支持多种协议模式,实现了结构化与非结构化数据的融合,并提供实时决策和向量检索的多模态能力。
Ø 统一数据服务
DingoDB实现分析服务一体化,支持多模态数据查询、交互式分析;提供⾼并发的极速数据查询、秒级数据响应;提供7*24⼩时服务能⼒。
v 融合指标计算
实时指标服务的核心是辅助业务做出实时决策。为满足更多场景需要,DingoDB提供内置多种高效计算操作类型,针对不同的场景提供最优的计算操作,从而能够为特定领域服务提供更多有价值的信息。
v 建设企业知识库技术
DingoDB是一种结构化与非结构化数据相融合的底层存储和计算平台,旨在为企业知识库提供向量化存储,并与大规模模型相配合。它的目标是帮助构建智能化的知识库,全面提升知识分享的能力。通过DingoDB,企业能够极大地提高员工的工作效率,减少其在搜寻信息方面的时间消耗。此外,DingoDB还能增强企业的决策能力,为企业的持久发展提供强大的数据智能支持。
DingoDB 具备高性能和低延迟的特性,使用户能够在秒级时间内处理和分析大规模数据,并支持实时风控决策。它采用数据复制和故障转移机制,提供高可用性,同时通过持久化技术确保数据不丢失。此外,DingoDB还支持根据业务需求进行计算资源和存储资源的水平扩展,以满足不断增长的数据处理需求。
v 结构化与非结构化融合分析
DingoDB 通过整合和分析不同的结构化数据,能够得到更全面、准确和可靠的结果数据。这种融合分析方法有助于提高数据的利用效率,并解决单一结构化数据所面临的限制和问题。通过采用融合分析,DingoDB能够更好地支持决策、预测和告警等任务。
² 业务分析实时化
n 助力业务实时决策调控,毫秒级把批和流式数据转换成易于理解分析的结果。
n 统一的实时多维交互式查询分析提升了大数据实时即席分析性能。
² 提升业务洞察能力
n 有助实现全渠道、全触点、全洞察、全链路数据打通。
n 提升了数据分析需求的“随机洞察和应变能力”。
n 实时洞察业务运营进展、网络运维状态,快速做出业务反应。
² 降本增效
n 统一存储和计算,减少异质性,减少额外ETL工作。
n 不需要学习多个系统,使用人员可快速上手,降低学习成本,提升开发效率。
n 减少运维多套系统的成本。
