随着数字化技术的发展,IT系统的数据处理能力越来越强,数据量呈爆炸式增长且类型愈发繁杂多样。如今,除结构化数据外,半结构化数据与非结构化数据的处理需求也日益凸显,这促使传统关系型数据库不断拓展边界,陆续增加对多模型的支持能力,以更好地适应复杂多变的数据环境。
我们先看两个典型的多模数据应用场景。
新场景与新挑战
智慧城市大规模时空数据管理
在智慧城市的建设过程当中,各类平台和场景应用都依赖时空数据库系统作为数字底座提供支撑。这其中数据种类和模型是多样的,包括多源、多类、多维、海量、多时态、多主题以及多细节层次表达等空间数据。如何将这些海量的、多模态的数据融合管理,已成为当前智慧城市建设面临的关键难点之一。
其主要挑战体现于以下方面:- 时空数据类型繁多,且缺乏统一的标准与规范,致使数据难以融合;
- 烟囱式处理模式难以保证数据处理的实时性、高效性和可靠性;
- 开源数据库的性能,难以支撑CIM/BIM平台的规模建设与应用;
- 大尺度GIS信息与精细化建模BIM数据的高精度匹配问题亟待解决;
- 面向同一实体对象的不同模态数据的融合处理存在诸多困难。

AI大模型大规模数据管理
大模型训练中使用的向量维度可能从几百到上万维不等,向量的数量级可能达到数十亿甚至数万亿。这一新兴领域背后主要的挑战包括:
挑战一:海量训练数据管理,大规模高维向量数据处理
由于大模型训练使用的维度和数量级较高,存储向量所需的存储空间已达PB级别,如何对大规模多模数据和向量数据进行管理,成为当下关键问题。
挑战二:数据日新月异而模型滞后,决策难以“数据驱动”因为大模型知识有时效性局限,不能根据昨天的数据做出决策;且大模型训练成本较高,难以应付高时效性的需求,因此,实现大模型知识的实时更新成为新的迫切需求,其中索引技术是核心关键。
挑战三:多模态数据管理,大模型未来发展的基石与障碍大模型训练所需的数据种类繁多,包括结构化、半结构化和非结构化数据,数据类型丰富多样,需要其具备多模态学习能力;具身模型、世界模型是未来的重要发展方向,多模态数据管理与跨模计算的需求日益凸显。

数据库架构
在深入探讨多模数据管理之前,我们先看一下YashanDB在数据库架构层面的一些考虑。
传统的智慧城市数据平台,难以凭借一个平台、一个数据库来实现整体的数据存储与管理,普遍采用数据库混合存储架构设计,分别使用分布式文件数据库、关系型数据库、非关系型数据库、空间数据库、时序数据库、图数据库、索引数据库等多种类型数据库进行协同管理。
存算分离架构
对于大规模的多模数据管理,鉴于其数据量庞大、计算复杂,亟需一种将数据存储和计算资源分开管理的数据库架构,以满足数据的爆炸性增长和复杂业务需求。可以通过将数据存储和计算功能分离,实现资源的独立扩展和灵活配置,适配不同规模业务的多样化需求。YashanDB V23.3版本分布式数据库上已实现了存算分离架构,感兴趣的可以到官网(download.yashandb.com)下载试用。YashanDB在分布式数据库的MPP架构基础上,扩展出一种新的计算节点——PN节点。通过PN组对PN节点进行管理,在一个集群内可以部署多个PN组,供用户按需灵活配置使用,并通过在PN节点的本地缓存加速机制,可以实现与存算一体架构相同的性能表现。在存储数据方面,YashanDB可以实现数据冷热分离,冷数据可以存储在对象存储等低成本的存储设备中;从应用的角度看,存算一体或是存算分离架构对上层应用而言是透明无感知的。
联邦查询
除了把数据存储在YashanDB中管理,实际业务中也有不少异构数据库跨库访问的场景。以智慧城市建设为例,跨地区、跨单位、跨部门等的数据交互需求必不可少,然而传统的数据查询方式难以直接满足这些需求,且不同数据库系统之间的数据格式、查询语言等都存在差异,直接进行异构数据库跨库访问十分困难。
YashanDB通过database link提供无需迁移数据即可直接查询异构数据库的能力:
- 支持Apache Hive、Iceberg、Hudi等数据湖上的异构数据,支持多种存储系统,包括HDFS、S3以及OSS等,支持Oracle等关系型数据库;
- 支持多种开放文件格式,包括CSV、Parquet、ORC等;
- 实现统一的联邦查询,支持对多种异构数据库和数据湖的链接能力,对这些数据源的海量数据进行统一分析、加工、转换以及存储等处理;
- 具备查询加速功能,YashanDB提供有界计算加速、并行实时计算、原生HTAP混合负载等能力,可对异构数据库中的数据进行查询加速。

多模数据管理
管理目标:实现多模融合统一
对于多模数据的管理目标,YashanDB旨在实现对多模数据的融合统一管理。具体包括:提供统一的存储引擎,为各类数据提供集中化存储方案;针对特定模型数据的提供索引加速机制,提升数据检索效率;在一套SQL查询引擎上实现跨模融合查询,打破模型隔阂;借助存算分离架构实现资源的灵活配置和降低成本;通过联邦查询连接不同数据孤岛,实现生态对接。

空间数据:提供双形态空间能力
YashanDB在去年已正式发布了YashanDB for GIS,提供空间数据平台引擎、原生空间数据引擎双形态空间能力,并已经在客户场景上线。GIS技术不只在智慧城市、城市规划等场景有应用,在金融领域的网点选型、动产抵押等场景也发挥着重要作用。YashanDB未来也将继续投入资源,进一步提升GIS功能和性能表现。
BIM数据:一套系统全量解析及存储管理
BIM数据在智慧城市中占据重要地位,但其数据格式复杂且数据量巨大,传统的做法大多是将其解析后分解成关系数据、半结构化数据并使用不同的数据库存储。YashanDB的思路是通过一套数据库统一管理各种类型的BIM数据,达到高性能、简化运维、降低成本、提高数据一致性和可靠性的目标。
图数据:无缝集成与关系数据的跨膜查询
图数据也是目前比较重要的一种数据类型,在特定场景中的对关系的查找、匹配等操作,使用图模型相对关系模型在查询性能上有比较大的优势。目前YashanDB也在探索支持图数据的建模,并在SQL上扩展支持属性图查询语法PGQL,已初步实现图数据和关系数据的跨模融合查询。
向量数据:高效检索和精准查询
在向量数据管理方面,YashanDB正从两方面展开探索:一是在工程上,基于YashanDB实现向量数据的管理和检索操作,支持向量数据的增删改查功能,以及通过向量索引技术加速检索过程,提高数据查询效率;二是在学术上,深入探索关系和向量混合查询时的效率和准确性问题,基于属性和向量的映射关系来减少相似性计算,从而在保证准确度的同时实现查询时间与数据量无关。
未来,YashanDB也将持续深耕技术研发,优化多模数据管理策略,以更先进的技术、更完善的解决方案,推动多模数据融合管理迈向新高度,加速释放各领域数据价值,为构建智慧、高效、可持续发展的未来贡献力量。返回搜狐,查看更多