在当今数字化时代,AI 的应用浪潮正以前所未有的速度席卷各行各业。企业纷纷投身其中,试图借助 AI 技术重塑自身的产品体系与业务流程。然而,在 AI 的三大核心要素中,数据这一关键要素在许多企业内部却面临着困境。
一方面,企业内部的数据往往缺乏有效的治理,数据管理混乱无序,数据存储分散,缺乏统一的标准和规范,导致数据的检索、调用和共享变得困难。另一方面,数据质量参差不齐,使得数据的准确性和可靠性大打折扣。这些都导致企业无法充分挖掘数据中蕴含的价值,大量有价值的数据资产被闲置浪费。这些问题最终限制了 AI 效果的发挥。
如今越来越多的企业认识到数据对于 AI 的重要性。他们开始积极探寻能够让数据高效、成本可控地服务于 AI。为了满足大家在这一领域的需求,Data for AI Meetup 活动应运而生。我们邀请到了业内领先的数据和 AI 公司,以及权威的研究机构,围绕如何更好地实现 Data for AI 这一主题展开深入的探讨与交流,旨在为大家提供切实可行的解决方案和思路,助力企业在 AI 时代充分释放数据的巨大能量,实现数字化转型的可持续发展。
主办单位:蚂蚁开源,Datastrato
协办单位:LF AI & DATA,OceanBase,ProtonBase,腾讯大数据
活动时间:2024年11月24日(周日)13:30-17:30
活动地点:浙江省杭州市黄龙国际中心E座4F
活动议程
13:00-13:30 签到
13:30-13:40 Openning
13:40-14:20 蚂蚁自研向量索引库 VSAG 介绍及其业务落地实践
演讲者: 王翔宇(祥予) 蚂蚁向量引擎专家
王翔宇,蚂蚁数据部技术专家。2023 年加入蚂蚁集团,主要负责蚂蚁向量检索算法研发以及千亿规模向量数据库在蚂蚁业务场景落地。 对向量检索算法与系统有丰富经验。 同时也是开源向量数据库 Milvus 的核心开发者,BigANN 21 Track 2 第一名团队成员。曾在 Zilliz 负责存储和 GPU 算法相关开发工作。
演讲内容:
本次分享将重点介绍蚂蚁集团自研向量索引库涉及的关键技术和在业务场景中的落地实践。
向量检索在信息检索、推荐系统和语义匹配等领域发挥着重要作用。随着近两年 LLM 的发展和 RAG 架构的普及,向量检索技术面临着更多新的挑战。我们将围绕这些背景,介绍开发 VSAG 索引库的动机、设计目标和实现方式。内容涵盖了算法选择、索引结构、快速搜索技术和性能优化策略。此外,我们还将分享如何应对高维度向量、超大规模数据集和超高精度等挑战。
通过本次分享,希望能够提供参与者对 VSAG 的深入理解,并探讨在面对实际场景中的应用时可能遇到的技术挑战和解决方案。无论你是 RAG 开发者、向量数据库工程师或对向量检索技术感兴趣的研究人员,这次分享都可能为你带来有益的经验和见解。
让我们一起探索向量检索的魅力和挑战!
14:20-15:00 Gravitino 统一权限与非结构化数据管理介绍
演讲者:李明皇,Datastrato 工程师,Apache Gravitino PPMC & Committer
2020 年福州大学硕士毕业后从事 OLAP 引擎开发,先后参与了 Presto、ClickHouse、Apache Druid 和 StarRocks 的引擎开发,2023 年加入 Datastrato,目前主要参与 Gravitino 的内核研发。
演讲内容:
随着大数据和AI的迅猛发展,企业面临着管理分布于不同来源、类型和地域的海量数据的挑战,如何实现高效的元数据管理和统一的权限控制,已成为数据治理中的关键问题。Apache Gravitino 作为一款高性能、跨地域的联邦式元数据湖,可以直接管理多源异构的数据元信息,为用户提供统一的元数据访问接口,支持数据和 AI 资产的高效整合。
本次分享将详细介绍 Gravitino 在统一权限和非结构化数据管理的原理和应用,以及项目当前的进展和发展规划。
15:00-15:40 OceanBase 加速 AI 应用落地
演讲者:蔡飞志(谷渐),OceanBase 技术部高级专家
毕业于北京大学,14 年进入 OceanBase 团队后,先后从事 OceanBase 数据库代理、数据库驱动、分布式存储的研发,目前是 OceanBase 开源生态的研发负责人。对于 LLM、AI Agent 比较感兴趣,是个喜欢聊天的 i 人。

演讲内容:
在本次分享中,我将深入解析当前数据行业的发展动态,并结合自身观察,为大家呈现全面的行业图景。数据行业作为信息化时代的重要支柱,正在快速变革,数据的种类和复杂度日益增加,如何高效地管理和应用这些数据成为业界关注的焦点。我将详细介绍 OceanBase 数据库在处理结构化、半结构化和非结构化数据中的方案设计。面对这三种类型的数据,OceanBase 数据库通过独特的架构设计和强大的技术支持,实现了高效的存储、检索和分析能力,满足了不同业务场景的需求。此外,我将探讨 OceanBase 数据库在人工智能应用中的作用,探讨数据库功能在 AI 应用上提供的价值,加速 AI 应用的落地。
15:40-15:50 中场休息
15:50-16:30 分布式 Data Warebase - AI 时代的数据底座
演讲者: 胡月军 ProtonBase 技术副总裁
现任 ProtonBase 技术副总裁,从事存储与计算引擎的设计与研发工作,致力于打造 AI 时代云原生一体化的数据存储,计算和管理系统。曾任阿里巴巴计算平台事业部资深技术专家,发起和参与了阿里巴巴交互式分析引擎 Hologres 的研发。在此之前,从事5年搜索和广告引擎的设计与开发,负责过阿里巴巴淘宝、天猫、1688、Sourcing 和 AliExress 的搜索与广告在线引擎系统,主导过阿里巴巴国际搜索和广告引擎在离线的一体化升级改造。

演讲内容:
随着 AI 的发展,数据从信息的载体越来越成为智能的燃料,这也为数据系统提出了更高的要求。本演讲将分享一种全新的 Data Warebase 技术理念,它吸收融合了数据库和大数据领域的核心技术,通过一个系统来满足简单读写,实时数仓,数据湖和搜索等场景的传统需求,同时能够支持向量检索和特征召回等AI场景的新需求,为AI时代的智能应用提供了完备的数据底座,助力企业的数智化业务发展。
大纲
-
数据智能化背景
-
当前典型数据系统架构和痛点
-
AI对数据系统的新需求
-
分布式Data Warebase的核心技术
-
实践案例与展望
16:30-17:10 | Data+AI场景下的分布式引擎探索与实践
演讲者:李志方 腾讯大数据基础架构高级研发工程师
博士毕业于华东师范大学,从事数据库方向研究,曾发表 PPoPP/ICDE 等多篇顶会论文。毕业后加入腾讯湖仓团队,负责 Ray/Iceberg 内核,以及 Data+AI 场景的深度优化。
演讲内容:
以 Spark/Flink 为代表的基于 JVM 的经典引擎在 BigData 领域获得了巨大成功,随着大模型等 AI 技术的崛起,经典引擎在 Data+AI 融合场景下的支持仍然稍显不足,存在开发难度大和资源利用率低等诸多问题。因此一方面,腾讯大数据团队在经典的 Spark 引擎基础上升级了湖上的向量查询能力,充分发挥其在可伸缩性上的优势。另外一方面,也围绕 Python 生态和 Ray 引擎,进行了新链路的探索。最初是基于 PyIceberg 与湖仓底座进行单机多卡的模型推理与训练。随着项目迭代,借助 Ray 灵活而强大的分布式异构编程能力,进而拓展实现了高性能的数据科学链路,包括分布式 pandas-like 数据分析,加速因果推断等多个业务场景。
17:10-17:30 自由讨论和交流
嘉宾及主题信息
热烈欢迎在杭州对活动分享内容感兴趣的小伙伴线下参与,扫描海报下方二维码即可参与报名~
本帖回复区留言海报中你想听的某一个/多个主题或想在本次 Meetup 讨论的话题即可获得 10积分&成长值哦~
留言获积分活动截止时间:本周六(11月23日)18点整
本次参与留言互动的用户积分将于 11月25日发放至账户~