@兹拉坦 在 OceanBase 社区公众号上,曾用一篇 《AI 时代的数据库进化论 —— 从向量到混合检索》简单介绍了混合搜索的含义,以及数据库行业引入混合搜索的必要性。
推荐大家在学习本期课程之前,先行阅读上面这篇公众号文章~
引言
混合搜索这个东西,一两句话解释不清楚。与其给出定义,不如直接举个例子来的方便。
比如基于蚂蚁百宝箱搭建的一个餐饮推荐 AI Agent 系统,会把用户的自然语言提问,转换成对知识库的搜索。
在上面这个提问中:
- 距离五百米以内,是基于空间位置(GIS)的查询。
- 人均消费 25 元,评价 4.5 分以上,是基于传统标量的查询。
- 不用排队,是基于用户对店铺的评价,基于向量的语意检索。
如果数据库不支持混合搜索,会有什么坏处?简单来说,如果数据库没有向量 / 标量 / 全文的混合检索的能力,就需要通过多种组件分别获得多种检索的结果,然后对多种检索的结果进行多路归并,可以看作是对每一路单独局部排序再汇总。
标量、向量、全文分别通过不同的组件进行查询计算,然后再多路归并,相比全局排序,会损失精度,影响召回率,进而影响 AI 应用的效果。
过度依赖向量检索可能会漏掉关键结构化数据(如日期范围、类别标签)、降低召回率。召回率低则会导致智能体缺乏充足的数据支持,可能导致生成看似合理但事实上错误或虚构的信息(幻觉),会进一步严重影响 AI 智能体的可信度和可靠性。
边学边练,效果拔群
在本期实战营课程中,会由负责研发 OceanBase 混合搜索的两位技术专家 —— 舸灏(视频)、雨川(文档)为大家介绍如何在 OceanBase 中使用混合搜索。
在线体验的实验《使用 SQL 快速实现 OceanBase 混合搜索》,就是根据这篇课程文档改编的,大家正好可以边看这期课程文档,边在实验环境中进行体验。
-
在线实验地址:《使用 SQL 快速实现 OceanBase 混合搜索》
说明1 :
实验里 “步骤三” 只为说明可以使用 OceanBase 的 ai function 进行向量生成(embedding)。
为了降低实验难度,在步骤四的导入数据部分,已经为大家准备好了通过 ai function 生成好的向量数据,所以实验中的 “步骤三” 被标记成了 “可选”,可以直接跳过 ,算是为下一期的 OceanBase ai function 进行一个预告。
说明 2:
如果大家要自行体验通过 ai function 进行 embedding 生成向量数据,并通过自己的向量数据进行后续实验步骤,还需要配置一些大模型的参数:
- 获取 API KEY 的方法可参考文档:OB官网 - AI Function。
- 也可以直接去注册一个硅基流动的账号,使用在线体验实验里的免费模型 api.siliconflow.cn/v1/embeddings。
-
课后小测地址:【DBA 实战营】OceanBase 混合搜索
-
在第三季的活动中,每通过一个课后练习,就会自动获得 10 个社区积分,并获得一次抽奖的资格。抽奖时有机会获得实体礼物或更高额的积分奖励。
-
第三季课后小测,为了避免您等待人工审核,在最后一道问答题中,需要复制黏贴一个您在实验环境中通过
obclient -h127.0.0.1 -P2881 -uroot@mysql_tenant -A -Dtest链接到数据库后,执行select now(), GetKey('你的论坛用户名');后获取的字符串。 -
例如您的社区用户名叫作兹拉坦,需要复制黏贴到最后一道问答题中的字符串就是:
02095F4E60B29E8B709DB2773B18FDCB6E1365817C(不要截图,只需要复制黏贴字符串后上传到最后一道题的答题区域中即可)。obclient [test]> select GetKey('兹拉坦'); +--------------------------------------------+ | GetKey('兹拉坦') | +--------------------------------------------+ | 02095F4E60B29E8B709DB2773B18FDCB6E1365817C | +--------------------------------------------+ 1 row in set (0.001 sec)小提示:
- 需要先登录 OceanBase 账号,才能初始化屏幕右边的实验环境进行实验。
- 在实验环境里,干什么都可以。大家不要受限于屏幕左边的实验手册,可以天马行空地做一些你感兴趣的事情,或者验证一些你对 OceanBase 官网文档的疑问、以及自己的猜想等等。
- 欢迎大家平时在学习 OceanBase 的过程中,也都能充分利用在线体验页面为您提供的一些实验环境,来体验 OceanBase 中您感兴趣的新特性。
-
希望大家都能够积极参与上面的在线体验,并通过课后小测。这是 OceanBase 社区能够持续为大家更新《DBA 实战营(第三季)》课程内容的最大动力~


















