YashanDB多模数据融合管理技术探索与实践_模型_存储

随着数字化技术的发展，IT系统的数据处理能力越来越强，数据量呈爆炸式增长且类型愈发繁杂多样。如今，除结构化数据外，半结构化数据与非结构化数据的处理需求也日益凸显，这促使传统关系型数据库不断拓展边界，陆续增加对多模型的支持能力，以更好地适应复杂多变的数据环境。

我们先看两个典型的多模数据应用场景。

新场景与新挑战

智慧城市大规模时空数据管理

在智慧城市的建设过程当中，各类平台和场景应用都依赖时空数据库系统作为数字底座提供支撑。这其中数据种类和模型是多样的，包括多源、多类、多维、海量、多时态、多主题以及多细节层次表达等空间数据。如何将这些海量的、多模态的数据融合管理，已成为当前智慧城市建设面临的关键难点之一。

其主要挑战体现于以下方面：

时空数据类型繁多，且缺乏统一的标准与规范，致使数据难以融合；
烟囱式处理模式难以保证数据处理的实时性、高效性和可靠性；
开源数据库的性能，难以支撑CIM/BIM平台的规模建设与应用；
大尺度GIS信息与精细化建模BIM数据的高精度匹配问题亟待解决；
面向同一实体对象的不同模态数据的融合处理存在诸多困难。

AI大模型大规模数据管理

大模型训练中使用的向量维度可能从几百到上万维不等，向量的数量级可能达到数十亿甚至数万亿。这一新兴领域背后主要的挑战包括：

挑战一：海量训练数据管理，大规模高维向量数据处理

由于大模型训练使用的维度和数量级较高，存储向量所需的存储空间已达PB级别，如何对大规模多模数据和向量数据进行管理，成为当下关键问题。

挑战二：数据日新月异而模型滞后,决策难以“数据驱动”

因为大模型知识有时效性局限，不能根据昨天的数据做出决策；且大模型训练成本较高，难以应付高时效性的需求，因此，实现大模型知识的实时更新成为新的迫切需求，其中索引技术是核心关键。

挑战三：多模态数据管理,大模型未来发展的基石与障碍

大模型训练所需的数据种类繁多，包括结构化、半结构化和非结构化数据，数据类型丰富多样，需要其具备多模态学习能力；具身模型、世界模型是未来的重要发展方向，多模态数据管理与跨模计算的需求日益凸显。

数据库架构

在深入探讨多模数据管理之前，我们先看一下YashanDB在数据库架构层面的一些考虑。

传统的智慧城市数据平台，难以凭借一个平台、一个数据库来实现整体的数据存储与管理，普遍采用数据库混合存储架构设计，分别使用分布式文件数据库、关系型数据库、非关系型数据库、空间数据库、时序数据库、图数据库、索引数据库等多种类型数据库进行协同管理。

存算分离架构

对于大规模的多模数据管理，鉴于其数据量庞大、计算复杂，亟需一种将数据存储和计算资源分开管理的数据库架构，以满足数据的爆炸性增长和复杂业务需求。可以通过将数据存储和计算功能分离，实现资源的独立扩展和灵活配置，适配不同规模业务的多样化需求。YashanDB V23.3版本分布式数据库上已实现了存算分离架构，感兴趣的可以到官网（download.yashandb.com）下载试用。YashanDB在分布式数据库的MPP架构基础上，扩展出一种新的计算节点——PN节点。通过PN组对PN节点进行管理，在一个集群内可以部署多个PN组，供用户按需灵活配置使用，并通过在PN节点的本地缓存加速机制，可以实现与存算一体架构相同的性能表现。在存储数据方面，YashanDB可以实现数据冷热分离，冷数据可以存储在对象存储等低成本的存储设备中；从应用的角度看，存算一体或是存算分离架构对上层应用而言是透明无感知的。

联邦查询

除了把数据存储在YashanDB中管理，实际业务中也有不少异构数据库跨库访问的场景。以智慧城市建设为例，跨地区、跨单位、跨部门等的数据交互需求必不可少，然而传统的数据查询方式难以直接满足这些需求，且不同数据库系统之间的数据格式、查询语言等都存在差异，直接进行异构数据库跨库访问十分困难。

YashanDB通过database link提供无需迁移数据即可直接查询异构数据库的能力：

支持Apache Hive、Iceberg、Hudi等数据湖上的异构数据，支持多种存储系统，包括HDFS、S3以及OSS等，支持Oracle等关系型数据库；
支持多种开放文件格式，包括CSV、Parquet、ORC等；
实现统一的联邦查询，支持对多种异构数据库和数据湖的链接能力，对这些数据源的海量数据进行统一分析、加工、转换以及存储等处理；
具备查询加速功能，YashanDB提供有界计算加速、并行实时计算、原生HTAP混合负载等能力，可对异构数据库中的数据进行查询加速。

多模数据管理

管理目标：实现多模融合统一

对于多模数据的管理目标，YashanDB旨在实现对多模数据的融合统一管理。具体包括：提供统一的存储引擎，为各类数据提供集中化存储方案；针对特定模型数据的提供索引加速机制，提升数据检索效率；在一套SQL查询引擎上实现跨模融合查询，打破模型隔阂；借助存算分离架构实现资源的灵活配置和降低成本；通过联邦查询连接不同数据孤岛，实现生态对接。

空间数据：提供双形态空间能力

YashanDB在去年已正式发布了YashanDB for GIS，提供空间数据平台引擎、原生空间数据引擎双形态空间能力，并已经在客户场景上线。GIS技术不只在智慧城市、城市规划等场景有应用，在金融领域的网点选型、动产抵押等场景也发挥着重要作用。YashanDB未来也将继续投入资源，进一步提升GIS功能和性能表现。

BIM数据：一套系统全量解析及存储管理

BIM数据在智慧城市中占据重要地位，但其数据格式复杂且数据量巨大，传统的做法大多是将其解析后分解成关系数据、半结构化数据并使用不同的数据库存储。YashanDB的思路是通过一套数据库统一管理各种类型的BIM数据，达到高性能、简化运维、降低成本、提高数据一致性和可靠性的目标。

图数据：无缝集成与关系数据的跨膜查询

图数据也是目前比较重要的一种数据类型，在特定场景中的对关系的查找、匹配等操作，使用图模型相对关系模型在查询性能上有比较大的优势。目前YashanDB也在探索支持图数据的建模，并在SQL上扩展支持属性图查询语法PGQL，已初步实现图数据和关系数据的跨模融合查询。

向量数据：高效检索和精准查询

在向量数据管理方面，YashanDB正从两方面展开探索：一是在工程上，基于YashanDB实现向量数据的管理和检索操作，支持向量数据的增删改查功能，以及通过向量索引技术加速检索过程，提高数据查询效率；二是在学术上，深入探索关系和向量混合查询时的效率和准确性问题，基于属性和向量的映射关系来减少相似性计算，从而在保证准确度的同时实现查询时间与数据量无关。

未来，YashanDB也将持续深耕技术研发，优化多模数据管理策略，以更先进的技术、更完善的解决方案，推动多模数据融合管理迈向新高度，加速释放各领域数据价值，为构建智慧、高效、可持续发展的未来贡献力量。返回搜狐，查看更多