这个夏天,OceanBase 又双叒叕参加了开源之夏,并带着两个项目和大家见面啦!期待同学们来一起参与共建!
活动介绍
开源之夏是由中国科学院软件研究所 “开源软件供应链点亮计划” 发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。
开源之夏联合国内外开源社区,针对重要开源软件的开发与维护提供项目任务,面向全球高校学生开放报名。中选学生们能够利用暑期时间在项目资深开发者(项目导师)的指导下参与到开源项目的建设,零距离体验顶级开源项目,提高个人技术能力、了解开源、结识开源圈的前辈。此外,对于成功入选并完成结项的同学,还有价值丰厚的现金奖励与荣誉证书!
OceanBase 自 2021 年 6 月开源以来,通过开源社区发布了多个数据库相关研发项目,涵盖数据库内核、周边工具、AI 融合等各个领域。本次 OceanBase & 开源之夏的项目任务,由 OceanBase 技术部和 OceanBase 社区技术委员会(TOC)共同规划,并由资深开发者担任导师,如:自治服务与创新应用团队的研发负责人吴英昊(丰坚)、数据传输与集成团队的研发负责人纪勇(竹箐)等。这些导师均来自 OceanBase 的核心研发团队,具备丰富的分布式数据库及相关平台工具的开发经验。
OceanBase 每年都会通过开源之夏活动,发布多个技术项目并提供导师资源,持续推动分布式数据库技术的创新与实践,助力高校学生深度参与开源贡献。在今年的开源之夏活动中,OceanBase 继续作为数据库领域的核心社区参与其中,延续了其在国产分布式数据库领域的技术引领者角色。
项目介绍
OceanBase 在 2025 年的开源之夏活动中,发布了两个与 ODC(OceanBase Developer Center)以及 AI 相关的项目。
OceanBase 开发者中心(OceanBase Developer Center,ODC)是数据库图形化开发工具,也是数据研发和生产变更管控协同平台。
ODC 刚刚开源一年多,开源之旅才刚刚开始。相对于 OceanBase 数据库内核 500 万行 C++ 代码,ODC 的技术架构是基于 WEB 的,从编程语言角度来说,Java 和 JS 也相比 C++ 更容易上手,所以更适合让学生轻松参与到社区贡献中来。
OceanBase 开源社区和 ODC 团队都希望让 AI 不仅仅只作为功能增强组件,而是能够成为未来重塑开发者体验的核心。这种变革与 OceanBase 的战略高度协同,可以在培养开源人才的同时,为 AI 时代的海量多模数据处理需求奠定基础。
所以今年,基于对 OceanBase 在 AI 与数据库工具链融合方向上的战略布局,我们围绕 ODC(OceanBase Developer Center)设计了以下两个和 AI 技术密切相关的项目。希望能够让学生通过 AI 技术与数据库工程实践的融合,重构传统数据库工具的智能化能力,零距离体验开源。
基于 AI 的数据库模拟数据生成工具
在数据库测试和开发场景中,模拟数据生成是重要的工具,用于帮助开发人员验证代码逻辑和功能。已有的工具(ODC 的模拟数据功能等)能够根据列的数据类型(如字符串、整数、日期等)生成随机模拟数据,但这些数据往往无语义性,无法贴近实际业务场景。例如生成的随机字符串 abcd1234 或 XyZ89 无法体现字段语义属性,例如 name 列应表示真实姓名,而 address 列应生成真实地址。
此项目旨在通过结合 AI 技术对字段语义进行自动理解和推断,实现数据生成的业务化、智能化:
-
AI 语义推断能力:根据字段的列名等信息自动理解字段语义,生成更加贴近实际应用的数据。例如,基于词向量、语言模型等技术实现 name 字段生成真实姓名数据、address 字段生成真实地址。
-
灵活的生成规则配置:支持用户覆盖默认的生成规则,定义如数据范围、数据长度、格式等生成逻辑。
-
无缝集成到现有工具:扩展功能需无缝集成到现有的 ODC 模拟数据模块中,借助现有的基础架构,保持向下兼容,同时提升工具的智能化和业务适配能力。
最终目标是通过 AI 赋能,使工具能够生成契合业务场景的模拟数据,帮助开发者快速验证代码功能,提升项目效率。
项目导师:彭一诺(乐别)
联系邮箱:yinuo.pyn@oceanbase.com
项目难度:基础
技术领域:AI
LLM
Linux
编程语言:Java
Python
SQL
项目详情:https://summer-ospp.ac.cn/org/prodetail/25e200048?list=org&navpage=org
数据库敏感列智能识别工具
随着数据隐私法规(如 GDPR、CCPA)的普及,企业需对数据库中的敏感信息(如身份证号、手机号、地址等)进行精准识别与管理。当前 ODC 产品已具备数据脱敏功能,能够基于用户配置的敏感列识别规则对数据库敏感列进行扫描进行数据脱敏,但依赖用户对敏感列进行人工标注,存在效率低、误判率高的问题,亟需自动化工具提升识别准确性与效率。
此项目旨在通过结合 AI 技术 对字段语义进行自动理解和推断,实现敏感列识别的智能化:
-
AI 语义推断能力:结合深度学习语言模型(如 BERT、GPT)自动理解列名语义,并推断敏感信息的风险等级。
-
灵活的识别规则配置:支持用户自定义敏感列规则,并灵活配置规则匹配与 AI 推断能力的优先级。
-
无缝工具整合:功能需能与现有 ODC 数据脱敏模块无缝集成,升级工具智能化能力,同时保持兼容性与稳定性。
最终目标是通过 AI 赋能,使工具能够生成自动识别敏感列信息,帮助数据库管理员高效的管理数据库,提升数据安全。
项目导师:郭文龙(天客)
联系邮箱:guowenlong.gwl@oceanbase.com
项目难度:基础
技术领域:Natural Language Processing (NLP)
Database
AIOps
编程语言:Java
Python
SQL
项目详情:https://summer-ospp.ac.cn/org/prodetail/25e200049?list=org&navpage=org
项目申报
04/04 ~ 05/09 项目任务发布阶段,项目任务上线官网,学生可以通过项目详情的导师邮箱与导师进行沟通。
05/09 ~ 06/09 项目申报阶段,学生可挑选项目,与导师沟通并准备项目申请材料、提交项目申请,每位同学可以申请一个项目。
04/30 起,学生可在系统注册账号并填写个人资料提交审核。资料审核通过的学生 05/09 起可在系统提交项目申请书。
学生报名 & 项目申请书提交截止时间:06/09 18:00 UTC+8
对上述两个项目感兴趣的同学,欢迎通过邮箱直接沟通导师。
项目申请入口:https://summer-ospp.ac.cn/org/projectlist?lang=zh&orgName=OceanBase
推荐阅读
- 2024 年参与 OceanBase 开源之夏项目的学生分享《OceanBase 开源之夏 —— 收获颇丰的开源实践》:OceanBase 社区
- OceanBase 项目主仓库地址:https://github.com/oceanbase/oceanbase
- OceanBase 官方文档地址:https://www.oceanbase.com/docs/oceanbase-database-cn
- ODC 项目主仓库地址:https://github.com/oceanbase/odc
- ODC 官方文档地址:https://www.oceanbase.com/docs/common-odc-1000000002072860