【积分 + 福利】实战营(第三季)第八期 —— OceanBase 混合搜索(12.4 更新)

@兹拉坦 在 OceanBase 社区公众号上,曾用一篇 《AI 时代的数据库进化论 —— 从向量到混合检索》简单介绍了混合搜索的含义,以及数据库行业引入混合搜索的必要性。

推荐大家在学习本期课程之前,先行阅读上面这篇公众号文章~

引言

混合搜索这个东西,一两句话解释不清楚。与其给出定义,不如直接举个例子来的方便。

比如基于蚂蚁百宝箱搭建的一个餐饮推荐 AI Agent 系统,会把用户的自然语言提问,转换成对知识库的搜索。

在上面这个提问中:

  • 距离五百米以内,是基于空间位置(GIS)的查询。
  • 人均消费 25 元,评价 4.5 分以上,是基于传统标量的查询。
  • 不用排队,是基于用户对店铺的评价,基于向量的语意检索。

如果数据库不支持混合搜索,会有什么坏处?简单来说,如果数据库没有向量 / 标量 / 全文的混合检索的能力,就需要通过多种组件分别获得多种检索的结果,然后对多种检索的结果进行多路归并,可以看作是对每一路单独局部排序再汇总。

标量、向量、全文分别通过不同的组件进行查询计算,然后再多路归并,相比全局排序,会损失精度,影响召回率,进而影响 AI 应用的效果。

过度依赖向量检索可能会漏掉关键结构化数据(如日期范围、类别标签)、降低召回率。召回率低则会导致智能体缺乏充足的数据支持,可能导致生成看似合理但事实上错误或虚构的信息(幻觉),会进一步严重影响 AI 智能体的可信度和可靠性。

边学边练,效果拔群

在本期实战营课程中,会由负责研发 OceanBase 混合搜索的两位技术专家 —— 舸灏(视频)、雨川(文档)为大家介绍如何在 OceanBase 中使用混合搜索。

在线体验的实验《使用 SQL 快速实现 OceanBase 混合搜索》,就是根据这篇课程文档改编的,大家正好可以边看这期课程文档,边在实验环境中进行体验。

  • 在线实验地址:《使用 SQL 快速实现 OceanBase 混合搜索》

    说明1 :

    实验里 “步骤三” 只为说明可以使用 OceanBase 的 ai function 进行向量生成(embedding)。

    为了降低实验难度,在步骤四的导入数据部分,已经为大家准备好了通过 ai function 生成好的向量数据,所以实验中的 “步骤三” 被标记成了 “可选”,可以直接跳过 ,算是为下一期的 OceanBase ai function 进行一个预告。

    说明 2:

    如果大家要自行体验通过 ai function 进行 embedding 生成向量数据,并通过自己的向量数据进行后续实验步骤,还需要配置一些大模型的参数:

  • 课后小测地址:【DBA 实战营】OceanBase 混合搜索

    • 在第三季的活动中,每通过一个课后练习,就会自动获得 10 个社区积分,并获得一次抽奖的资格。抽奖时有机会获得实体礼物或更高额的积分奖励。

    • 第三季课后小测,为了避免您等待人工审核,在最后一道问答题中,需要复制黏贴一个您在实验环境中通过 obclient -h127.0.0.1 -P2881 -uroot@mysql_tenant -A -Dtest 链接到数据库后,执行 select now(), GetKey('你的论坛用户名'); 后获取的字符串。

    • 例如您的社区用户名叫作兹拉坦,需要复制黏贴到最后一道问答题中的字符串就是:02095F4E60B29E8B709DB2773B18FDCB6E1365817C (不要截图,只需要复制黏贴字符串后上传到最后一道题的答题区域中即可)。

      obclient [test]> select GetKey('兹拉坦');
      +--------------------------------------------+
      | GetKey('兹拉坦')                            |
      +--------------------------------------------+
      | 02095F4E60B29E8B709DB2773B18FDCB6E1365817C |
      +--------------------------------------------+
      1 row in set (0.001 sec)
      

      小提示:

      1. 需要先登录 OceanBase 账号,才能初始化屏幕右边的实验环境进行实验。
      2. 在实验环境里,干什么都可以。大家不要受限于屏幕左边的实验手册,可以天马行空地做一些你感兴趣的事情,或者验证一些你对 OceanBase 官网文档的疑问、以及自己的猜想等等。
      3. 欢迎大家平时在学习 OceanBase 的过程中,也都能充分利用在线体验页面为您提供的一些实验环境,来体验 OceanBase 中您感兴趣的新特性。

希望大家都能够积极参与上面的在线体验,并通过课后小测。这是 OceanBase 社区能够持续为大家更新《DBA 实战营(第三季)》课程内容的最大动力~

OB-min

4 个赞

实战营(第三季)课程 传送门

OceanBase 混合搜索 在线体验 传送门

小提示:

  1. 需要先登录 OceanBase 账号,才能初始化屏幕右边的实验环境进行实验。
  2. 在实验环境里,干什么都可以。大家不要受限于屏幕左边的实验手册,可以天马行空地做一些你感兴趣的事情,或者验证一些你对 OceanBase 官网文档的疑问、以及自己的猜想等等。
  3. 欢迎大家平时在学习 OceanBase 的过程中,也都能充分利用在线体验页面为您提供的一些实验环境,来体验 OceanBase 中您感兴趣的新特性。

混合搜索 课后小测 传送门

现在第三季实战营课程的课后小测,为了避免大家等待人工审核,开始逐步改成系统自动阅卷了,目前已经处于灰度测试阶段,欢迎大家来帮忙看看是否可以正常 work~

发现问题的同学,受上赏,@兹拉坦 个人奖励每人 100 积分~

4 个赞

本期活动福利

通过本次课后小测的用户

  • 会自动获得 OceanBase 社区为大家提供的 10 积分奖励,并会自动获得一次抽奖机会。

  • 在本期课程在上线一周之后,我们将在通过这期课后小测的用户中,随机抽取 5 位,分别获得:

    • OceanBase 专属正版乐高积木 * 1。



    • POP MART(泡泡玛特)作为 OceanBase 的早期用户,今年通过 Labubu 这个 IP 大火了一把,加之以 @EINTR 为首的一批课程学习者,日常在交流群里污蔑实战营的抽奖机制有 BUG,所以本期课程的福利是:Labubu x 淘宝联名纪念款蟑螂衣 BUG 版淘公仔 —— 螂的诱惑。外加“淘宝特价版” 的吉祥物 —— 萝卜特手办 * 1(两个礼物,独宠一名通过课后小测的幸运用户)~


      image

    • OceanBase 专属马克杯 * 1。



    • 《OceanBase 源码解析》电子书兑换码 * 1(电子版)。



    • 200 社区积分 * 1。
      image

  • 更多惊喜福利:

    • 因为恰逢 @兹拉坦 在《实况足球》抽中了系列游戏有史以来能力值最强的球员 —— 11 ~ 12 赛季米兰时期的茲拉坦。

      又恰逢 @兹拉坦 还接连抽到了两位米兰传奇球员 —— 古利特、加图索。

      又又恰逢阿里巴巴成为即将举办的米兰冬奥会的官方赞助商。

      所以本期课程只要通过课后小测的人数超过 100,就额外加抽一个阿里巴巴 x 米兰冬奥会联名的车载香薰。


      如果本期课程通过课后小测的人数超过 150,就额外加抽一件阿里巴巴 x 国际奥组委联名的运动外套。


      中奖结果公布后,中奖者请添加 OB 社区小助手微信:OBCE666,并说明中奖信息。OB 社区小助手在 7 个工作日内会将礼物为您寄出。如果 7 个工作日内没有找小助手领取,视为自动放弃本次的奖品。

      OceanBase 社区会保证本次活动抽奖流程的公平公正,“因为信任,所以简单”。

      手办盲盒因为是盲盒,所以款式随机,望大家理解。

通过结课考试福利

通过第三季全部十期课后小测的同学,会自动获得参加结课考试的资格。

  • 通过结课考试后,可以获得 OceanBase DBA 实战营(第三季)的结课证书。获取社区教程证书后,系统还会自动为您增加 60 积分。即完成第二季实战营课程,您可以获得 160 积分!

  • 除此以外,前 100 位通过本次结课考试,并获取课程结课证书的的同学,可以获得 OBCA 考试券 * 1 / OBCP 2.5 折折扣券 * 1(二选一)。


7 个赞

实战营(第三季)课程 传送门

OceanBase 混合搜索 在线体验 传送门

小提示:

  1. 需要先登录 OceanBase 账号,才能初始化屏幕右边的实验环境进行实验。
  2. 在实验环境里,干什么都可以。大家不要受限于屏幕左边的实验手册,可以天马行空地做一些你感兴趣的事情,或者验证一些你对 OceanBase 官网文档的疑问、以及自己的猜想等等。
  3. 欢迎大家平时在学习 OceanBase 的过程中,也都能充分利用在线体验页面为您提供的一些实验环境,来体验 OceanBase 中您感兴趣的新特性。

混合搜索 课后小测 传送门

现在第三季实战营课程的课后小测,为了避免大家等待人工审核,开始逐步改成系统自动阅卷了,目前已经处于灰度测试阶段,欢迎大家来帮忙看看是否可以正常 work~

发现问题的同学,受上赏,@兹拉坦 个人奖励每人 100 积分~

7 个赞

社区论坛里的各路实况足球玩家,欢迎添加 @兹拉坦 的 PSN 好友,多多切磋交流~

7 个赞

学习

5 个赞

感谢分享

5 个赞

AI原生是未来

4 个赞

混合搜索好用

4 个赞

拉坦哥辛苦了

3 个赞

欢迎新的一期到来

2 个赞

顶顶顶