12 月 21 日,OceanBase 社区联合多点、TuGraph、蚂蚁数据和 DB-GPT 在成都共同举办了主题为《DB for AI:探索数据库智能运维与 AI 深度应用》的城市交流会。此次活动邀请了来自多点、青岛雨诺、厦门科拓、书声科技、蚂蚁集团和 OceanBase 等企业的技术专家,他们与现场和线上的小伙伴分享一线实践经验,并就数据库与 AI 的未来进行深入交流与讨论。活动特别邀请了【胖头鱼的鱼缸】公众号的主理人尹海文担任主持人。
让我们一起来看看精华总结吧~
OceanBase 开源生态技术部总经理封仲淹在致辞中,对分享嘉宾和到场用户表示了诚挚感谢,并传达了社区“开源开放,生态共赢”的理念。他表示,希望通过这一平台帮助更多用户解决问题并创造价值,欢迎来自社区的各种声音,无论是正面反馈还是建设性的批评,都是推动产品不断进步的动力源泉。
令人鼓舞的是,截至目前,OceanBase 社区版的去重后集群部署数量已增长至 33000 套,而且 OceanBase 的普及速度还在不断增加,年底增长速度是年初的 3 倍,预计今年的增长率将达到 6.5-7 倍之间。
此外,封仲淹还表达了对 Data 与 AI 深度融合的技术趋势的看法。他认为,技术和行业之间的界限正在变得越来越模糊,尤其是在数据处理与人工智能这两个领域内。
例如,Open AI 通过收购 Rockset 加强了自己的实时数据分析能力;Databricks 也在积极转型,从传统的大数据服务商转变为更加注重 AI 信息处理的企业级解决方案提供商。Oracle 在其最新版本中同样展示了对于深度整合数据管理和机器学习功能的兴趣。
这些变化表明,数据与 AI 的结合已经成为不可逆转的趋势,这也是 OceanBase 未来发展的方向之一。面对日新月异的技术变革,OceanBase 将继续秉持开放合作的态度,与广大开发者及合作伙伴共同探索无限可能!
多点谈数据库未来发展与选型方向:携手 OceanBase 简化技术栈实现降本提效
多点 Dmall 的资深 DBA 杨家鑫分享了在使用 OceanBase 方面的实践经验。他表示,我们生活在一个信息爆炸的时代,每天接收的信息量巨大。根据相关数据,每个活跃的成年人每天接收的信息数据大约在 34GB 左右,包括社交媒体、娱乐媒体以及短视频等。随着技术的发展,未来的技术栈将会更加收敛和简化,以提高效率。因此,简化技术栈和提效将成为主旋律。
(一)未来的数据库需求
未来的数据库需要能够同时支持关系型和非关系型的数据存储。目前最流行的关系型数据库是 MySQL,而灵活扩展的非关系型数据库则以 Redis 为代表。OceanBase 正在不断进化,从 4.0 版本开始支持单机分布式一体化,到 4.2 版本正式支持 OBKV-Redis,进一步增强了其非关系型数据处理能力;再到最近的 4.3 版本支持向量化引擎和列存,这些功让 OceanBase 可以提供一个强大的数据库解决方案,共同推动了 OceanBase 在企业级应用中的广泛采用,特别是在高并发、大数据量的场景下表现尤为出色。
(二)实践案例
杨家鑫提到,之前有一个从 MySQL 迁移到 OceanBase 的场景。在 MySQL 中,单副本的大小是 2.1T,而在迁移到 OceanBase 后,单副本只有 252GB,压缩率接近90%。这得益于 OceanBase 的通用压缩和数据编码技术。由于 MySQL 是一主一从两副本,而 OceanBase 是三副本,整体成本节省了 80% 以上。这不仅体现在存储成本上,还包括运维成本。对于 DBA 来说,维护相同规模的数据库,在 MySQL 中至少需要 40 套系统,每一套就是一个 TB,而迁移过程中会有损连接,需要耗费大量人力。但在 OceanBase 中,因为它是动态扩缩容且无损变更的,可以实现无缝迁移。
(三)技术优势
OceanBase 基于 Paxos 协议,能够实现数据强一致性和安全性。
OCP 管理平台提供了备份告警的可视化和良好的可观测性,包括 TopSQL 和 SlowSQL 功能。
目前,多点 Dmall 生产环境中有两套 OceanBase 业务集群,使用规模接近 20T。此外,还有 5 个业务库,包括物流管理系统(WMS)、计费结算虚拟银台等重要系统。其中最大的租户 TPS 接近 1500,整个 QPS 最高也有近 3000。杨家鑫强调,OceanBase 的响应时间接近 1 毫秒,性能几乎与单机 MySQL 相当。这意味着它能够在保证高性能的同时,提供稳定可靠的服务。通过这些实践,可以看到未来数据库的发展趋势:简化技术栈、提高效率,以及支持多种类型的数据存储。
青岛雨诺医药行业实践经验:OceanBase 查询速度提升 20 倍
青岛雨诺网络信息股份有限公司新零售产品研发部总监张红霞分享了医药行业经历的 3 次重要商业模式变革。如今在 3.0 时代的背景下,医药行业不仅需要关注用户的精细化服务,还需要解决数据处理中的各种挑战,以更好地支持新零售场景下的业务发展。
(一)数据挑战与问题总结
在医药零售会员服务场景中,数据量庞大且复杂,主要体现在以下几个层面:
性能问题:在复杂场景下进行用户筛选时,查询速度慢或无法完成查询。
效率问题:对于大表操作,如变更表结构时,效率低下。
成本问题:随着数据量的增长,存储成本持续攀升。
及时性问题:企业对数据的实时性要求越来越高,需要快速响应业务变化。
(二)典型问题及解决方案
问题一:资源配置灵活度不足
原有的 MySQL 数据架构不够灵活,无法支撑企业的 SaaS 应用。中小企业客户体量不同,资源需求各异,但现有的数据库架构不支持这种灵活配置,导致各租户之间资源抢占,影响了整个 SaaS 应用的稳定性。
解决方案:
OceanBase 采用分布式集群架构,每个域内有服务节点,每个节点下有对应的 Unit 资源管控单元。这样可以根据客户的体量灵活分配资源,小客户分配较少资源,中大型客户分配较多资源,甚至可以实现资源独享或共享,从而解决了资源配置的问题。
问题二:查询速度缓慢
为了提供精准的会员服务,企业需要通过标签画像体系来筛选出特定的会员群体。然而,在千万级会员数据中进行精准筛选面临巨大挑战。例如,哪些会员需要跟进用药效果,哪些用户需要复购提醒,哪些是高价值用户等。这些问题在传统数据库中难以高效解决。
解决方案:
OceanBase 显著提升了查询速度。以一个多组织集团化的企业为例,通过组织、会员消费情况等多个维度进行筛选,OceanBase 能够在 0.7 秒内完成查询,而 MySQL 则需要 18 秒。查询速度提升了 20 倍,大幅提高了业务效率。
问题三:存储成本攀升
随着客户数量和订阅时间的增长,业务数据量迅速增加,导致存储成本不断攀升。特别是对于长期订阅的客户,数据不能轻易删除,因为需要进行行业趋势分析和用户同比环比分析。
解决方案:
OceanBase 具有出色的压缩率,基本达到 60%。这意味着同等数据量下,存储空间大大减少,显著降低了存储成本。例如,某工业企业使用 OceanBase 进行大数据量存储,搭配 PG 系统后,极大地压缩了存储空间,节约了成本。
最后张红霞表示通过引入 OceanBase,青岛雨诺不仅解决了资源配置、查询速度和存储成本三大难题,还显著提升了业务效率和用户体验。OceanBase 的分布式架构和高效的资源管理能力,为医药零售行业的精细化服务提供了强有力的支持。
OceanBase 助力厦门科拓 ERP 系统升级
厦门科拓成都研发分中心数据中台研发经理张居开,在分享永策 PRO(科拓停车管理公司或集团的 ERP 系统)的技术设计时,详细阐述了他们在选择数据库时的主要考虑因素。
(一)技术选型要点
1、支持多租户
科拓需要支持多个集团业务,每个集团的数据量非常大。例如,一个索引一年内会达到 20-30 亿条记录。通过多租户的方式对数据进行拆分,可以有效管理不同集团的数据。多租户能力确保各个集团业务之间的资源隔离,相互不影响。
2、与 MySQL 的语法兼容
为了满足更高的业务需求和事务处理要求,系统需要支持复杂的查询操作,包括分区表关联查询。这样即使面对大规模数据,也能高效处理,减少对其他系统的依赖。
3、分布式数据库
初始上线时,接入的集团可能较少,集群规模不需要太大,避免资源浪费。随着客户不断接入,集群资源可以弹性扩展,以适应不断增长的需求。
4、弹性资源
租户的数据量和业务规模会随着时间变化,因此需要具备弹性扩展能力,以应对不同阶段的需求。
(二)OceanBase 预研与验证
在数据库选型过程中,团队最终选择了 OceanBase,并进行了详细的预研和验证:
1、单机部署与集群部署
验证了单机和集群部署的稳定性,以适应不同的应用场景。在某些场景下,如私有化部署,单机部署也能保证数据安全。
2、多租户功能验证
验证了多租户能力、租户资源的扩缩容以及扩展副本等功能。
3、SQL 兼容性验证
对常见的 DDL 和 DML 操作进行了验证,确保与 MySQL 的高度兼容。
4、查询性能验证
主要验证了大表查询性能以及分区表局部索引的查询性能。当数据分散到多个 OB server 上时,查询性能有所下降,但整体仍能满足需求。
5、数据安全验证
验证了备份恢复及回收站功能,确保误操作后能恢复数据。
张居开表示自去年年底上线以来,永策 PRO 系统已经成功支撑了 30 个 SaaS 租户,其中单表最大数据量达 2 亿。此外,还支撑了十五六个私有化项目,部分集团车场数量超过 200 个。OceanBase 的多租户能力和压缩能力,以及其在查询性能方面的优势,使得永策 PRO 系统从 1.0 版本顺利升级到 PRO 版本。整个系统复杂度较低,能够灵活应对不同规模的集团业务需求,无论是 10 个车场还是 500 个车场,都能用一套技术方案整体解决。
开源数据库变更管控系统选型指南
成都书声科技有限公司的全栈工程师冯浩认为,随着数据安全要求的提高和数据库生态系统的不断变化,数据库变更的管控变得越来越重要。随后他和大家深入探讨了数据库变更管控系统的需求分析、核心能力以及产品选型策略。
(一)数据库变更管控需求分析与决策逻辑
在选择数据库变更管控解决方案之前,应进行详细的需求分析,明确面临的问题、解决途径和必要功能点,并考虑解决方案的未来扩展性和发展契合度。决策逻辑主要分为三类:
生态闭环:关注解决方案与现有或预期生态系统的集成能力。
安全可控:强调数据安全和合规性。
轻量低成本:适用于追求成本效益和易于部署维护的企业。
最终目标是确保调研方向与企业需求一致,避免决策与实际需求脱节,寻求一个平衡点。
(二)企业级数据库管理系统的核心功能与应用场景
数据库变更管控软件的基本功能包括登录认证、数据变更管控、SQL 审核、审批流程和数据库可视化查询等。企业级功能则涵盖多人多团队的协同工作能力、安全相关的能力以及对基础功能的深入强化。同时现代企业级数据库管理系统的关键能力包括角色基础的访问控制(RBAC)、认证与审计、统一认证能力、动态权限管理、敏感信息管理以及支持多环境部署的发布能力。这些功能不仅保证了数据安全和用户权限的精细化控制,还适应了复杂的数据环境。
企业级 SQL 审核功能特点与优势:企业级 SQL 审核功能强调效率提升,核心能力包括细致的 SQL审核能力、动态的 SQL 审核能力以及分场景自定义审核策略。这些功能覆盖 DDL、DML 等方面,提供全面灵活的审核规则,适应不同企业的多样化需求。
审批流程的复杂性和优化要求:在企业级场景中,审批流程因涉及众多团队和复杂的流程规范而变得尤为重要。审批决策组应支持静态或动态决策组创建,多条审批流的触发,以及自定义审批流内容和节点。移动审批对高级别领导尤为重要,审批中需提供足够的决策信息。
查询功能的重要性:在实际使用中,查询功能的使用频率远高于变更操作,因此系统需要为研发等团队提供高效的数据查询入口。系统应具备查看数据库对象原数据、执行 SQL(包括 DDL、DML等)、可视化编辑查询结果的能力。
(三)软件选型的关键维度分析
功能模块:最复杂的部分。
部署方式:SaaS 与私有化。
定制化需求:无需、轻度与重度定制化。
授权与服务支持:商业付费与开源。
最后冯浩认为,产品选型的重点在于多个维度,特别是生态闭环、预算、部署方式以及授权方式对决策的影响。商业授权产品虽文档齐全且有公司支持,但决策成本高,选择需要谨慎对待。对于 SaaS 类产品,可根据云服务提供商选择不同产品。开源免费产品通过功能评分比较不同开源产品的优势,如 ODC 在 SQL 窗口功能的领先。
AI 时代下的数据库发展趋势与向量数据库的应用
随着人工智能生成内容(AIGC)的迅速崛起,数据生成方式发生了显著变化,非结构化数据量急剧增加。这给数据库处理能力带来了新的挑战。OceanBase 的高级技术专家蔡飞志分享了在这一背景下,数据库的发展趋势以及向量数据库的应用。
(一)检索增强生成(RAG)技术:提升生成式 AI 的准确性和实用性
截至今年 6 月,全球已有 3.5 亿人接触过生成式 AI,其中 2.3 亿人实际使用,主要用于回答问题,占比超过 60%。然而,大语言模型存在信息过时、答案不准确、推理过程不透明等问题。检索增强生成(RAG)技术作为一种解决方案,通过先搜索相关材料再回答问题,有助于提供最新信息和专业知识,改善大语言模型的局限。
RAG 技术通常基于向量检索,将问题转化为向量并与知识库中的向量匹配,从而为用户提供更准确的回答。文本嵌入技术是这一过程的关键,它将文本转化为高维向量,以提高数据处理效率和质量。向量检索基于文本嵌入,在高维向量空间中找到与输入文本最接近的向量,实现语义上的精准匹配,有效提升回答质量。
蔡飞志以蚂蚁集团的一个名为“百宝箱”的项目为例,展示了 OceanBase 在解决基于地理位置的推荐系统中的复杂查询问题方面的优势。原本需要使用多种技术栈的架构,在迁移到 OceanBase 后,用一套数据库就解决了这些问题。
(二)OceanBase 在向量处理领域的关键特性
完全复用了 OceanBase 的内核能力:确保用户可以继续使用已经习惯的特性,包括多租户支持,可以根据用户知识库的大小灵活分配资源。
提供多样化的访问接口:用户可以通过 MySQL 协议兼容接口或 SDK 直接与 OceanBase 交互;同时,该数据库也深度整合了 Python 生态系统,方便开发者快速集成。
利用分布式架构优势:基于分布式的架构设计,使得 OceanBase 能够轻松实现水平与垂直方向上的扩展,同时保证了跨分区事务的一致性。
优化性能表现:通过采用 VSAG 算法以及查询剪枝、量化压缩等技术手段,OceanBase 能够在保持较高召回率的同时大幅提升搜索效率。
生态工具:其增删改查操作与其他类型相似,且运维方面能够复用现有的社区工具。
(三)展望未来,OceanBase 持续拓展 AI 领域
未来,OceanBase 将在 AI 领域进行以下内容的拓展:
图数据库集成:计划与蚂蚁集团的 TuGraph 团队合作,将图数据库的能力集成到 OceanBase 中。
JSON 数据处理:JSON 数据在 AI 应用领域有较大潜力,后续会进一步打磨该场景的解决方案。
提供 RAG Service:计划集成一些优秀的算法,并以服务的方式提供。
流图计算引擎 TuGraph Analytics 的概述与实践
来自蚂蚁图计算团队的技术专家姚中强,介绍了流图计算引擎 TuGraph Analytics。图是一种数学结构,用于表示对象及其相互关系。顶点表示实体,边表示关系,能够模拟复杂关系和结构。实际应用中,主要有属性图和 RDF 图模型,其中属性图应用最广泛。属性图允许节点和边携带多种数据类型的属性,描述实体及其关系更加详尽。
图模型与关系模型的区别:
图模型复杂关系表示更加直观;
图模型复杂关系查询更加高效;
图模型具备更高的扩展性;
图模型的数据管理和构建更加灵活。
(一)TuGraph Analytics 概述
TuGraph Analytics 是蚂蚁集团自研图计算引擎,在蚂蚁内部大规模应用于实时风控、知识图谱、关系挖掘等业务场景。产品特性包括:流式图计算、图标混合处理、统一流批图、图原生存储及图 OLAP。
1、流式图计算:
提供高时效、低延迟的图计算模式,包括流式构图、流式图计算、计算结果的后置处理三个步骤。
相较于传统流式计算引擎(如 Flink、Storm),流图系统更加专注于图数据实时处理,支持复杂关系分析计算,比如多度关系实时查找、环路检查等。同时支持图表一体的实时分析处理,能同时处理表数据和图数据。另外流图系统属于后置聚合类别,具有极高的灵活性。相较于离线图计算引擎(Spark GraphX 系统),能提供更好的时效性保证。
在数字营销运营中,流式图计算的流量转化归因模型可以帮助分析用户行为与最终转化的关系,优化营销策略。
2、图数仓系统:
图数仓系统是一种以图形结构存储和管理数据的数仓解决方案。其专门针对图数据进行优化,适合处理复杂的关系网络。
图数仓系统相比传统关系型数仓具有数据计算多模态、支持深度关系探查、支持无 schema 模式和智能化的显著特点。
(二)未来计划
2025 年将继续优化增强 backend、Analytics Service 功能。2026 年争取实现标准 GQL 的全面对接,提供图湖仓一体引擎能力。同时计划向 Apache 基金会捐献相关成果,期待大家共同参与建设。
AI 模型在智慧港口中的深度应用解析
自然语义(青岛)科技有限公司架构师崔志强老师分享了 AI 大模型在智慧港口中的应用,重点介绍了如何利用 TuGraph 图数据库构建港口复杂关系网络,并通过多智能体协同提升港口运营效率和灵活性。
(一)图数据库构建港口复杂关系网络
图数据库在青岛港 AI 客服中的主要应用是货物追踪和查询。我们将货物、车辆、船舶等实体作为节点,将其运输路径、时间和状态作为边,以构建一个完整的物流网络图。用户只需输入货物的关键信息,系统便可迅速定位货物在整个物流关系网络中的位置。此外,图数据库还用于风险预警,对客户、货物和运输路径进行风险评估。
基于 TuGraph 在高可靠性和安全设计、企业业务性能、直观的数据管理和可扩展的应用开发上的优势,我们选择了 TuGraph 作为图数据库的技术方案。
(二)多智能体协同提升港口运营的整体效率与灵活性
多智能体协同工作是指在不同场景中,各智能体能够共同合作,以实现更复杂的问答功能。目标是建设一个综合性的多场景问答系统。
相较于单一智能体,多智能体的功能更为复杂。我们通过定义不同场景和提示词,构建多轮对话,并在过程中跟踪对话状态和执行操作。例如,当用户询问账号登录问题时,智能体会首先要求用户提供手机号,以便进行查询;如果用户未提供,系统将持续询问,直至获得所需信息。
总体而言,在多智能体协同工作的过程中,我们注重对话状态的跟踪、策略的执行和数据处理的创新,以提升用户体验和系统效率。
(三)展望未来
AI 多智能体和图数据库在智慧港口中的应用潜力巨大,数据处理模式的创新和轻量化大模型的发展为智慧港口带来了新的活力。轻量化模型的创新也将推动智慧港口向更高层次发展。随着技术的不断进步,希望能够与更多开源项目如 DB-GPT、TuGraph 合作,进一步推动 AI 技术应用于港口行业。
DB-GPT 架构与智能运维应用实践
蚂蚁数据部高级技术专家、DB-GPT 项目发起人陈发强为大家详细的介绍了 DB-GPT 项目。DB-GPT 是一款开源的 AI 原生数据应用开发框架,目的是构建大模型领域的基础设施,具备开发多模型管理(SMMF)、Text2SQL 效果优化、RAG 框架以及优化、Multi-Agents 框架协作、AWEL(智能体工作流编排)等多种技术能力。
在本次分享中,陈发强展开阐述了 DB-GPT 的整体设计框架:
SMMF(服务化多模型管理框架)模块:即 Service-oriented Multi-model Management Framework,该模块支持海量模型支持,包括开源、API 代理等几十种大语言模型,拥有良好的拓展性与稳定性 ,同时能够做到可管理、可监控、可观测。
Multi-Agent 模块:支持长期记忆,支持多种协作模式,固定编排、动态规划、预编排等,同时能够做到易集成、数据驱动。
RAG 模块:拥有统一的多模存储接口,支持对象、KV、向量、图等存储的拓展,更方便接入各类存储产品,同时支持多维数据加工,可以通过 AWEL 编排 Pipeline,简化 RAG 构建流程,同时支持按特定场景的调优。
AWEL 模块:一套专为大模型应用开发设计的智能体工作流表达语言,整体基于 DAG 的编排范式,能够做到分层设计、灵活可扩展、编排简单、具备高性能,同时能够无缝接入 RAY、ETL 等。
第二部分详细阐述了蚂蚁集团基于 DB-GPT 打造的一款先进工具——数据运维智能助理 Kevin,旨在为用户提供全面、专业的数据库服务。Kevin 具备多项强大功能,包括但不限于智能问答、在线问题诊断、SQL 语句分析以及运维效率提升,还能通过实时诊断功能帮助用户及时发现并解决线上出现的问题,有效预防数据损失和业务中断的情况发生。
最后,陈发强对 DB-GPT 项目进行了后续的规划:持续打磨准确率及核心场景、构建领域资产,在 API 资产的管理与维护、面向 Agent 的领域模型与 Schema 定义等应用场景持续优化,同时在基础技术方面,包括 RAG 往引擎层下沉、Index 统一化、Workflow SOP 化、Runtime 等领域持续打磨。同时希望通过 DB-GPT 帮助企业快速构建、部署智能 AI 数据应用,通过智能数据分析、洞察、决策等核心能力,实现企业数字化转型与业务增长。
AI 动手实战营:基于 OceanBase+DB-GPT 打造属于你的智能体平台
在这个环节中,OceanBase 技术专家单海康亲自演示了如何基于 OceanBase 和 DB-GPT 构建智能体平台。为了使教学更加生动有趣,现场直接邀请参与者作为演示嘉宾,带领大家一步步高效地完成平台建设。
现场参与度极高,每位开发者都积极投入。我们还评选出了最快完成 Demo 演示以及最具创意的 Demo 的开发者,并为获奖者准备了惊喜礼品。此外,所有在现场成功搭建 AI 应用的参与者,不仅获得了由 OceanBase 社区颁发的“AI 动手实战营”证书,还得到了多点、TuGraph、DB-GPT 等专属周边礼品。
现场的火爆氛围更是让每一位参与者都感受到了对社区的热情与对 OceanBase 的喜爱,非常感谢成都地区用户的关注、支持与参与!让我们一起期待下一次活动,为大家带来更精彩丰富的分享!