1 Star 0 Fork 75

JunJ骏 / 中国开源社区 landscape

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
OpenMLDB社区.md 5.94 KB
一键复制 编辑 原始数据 按行查看 历史
luyuxiao211 提交于 2022-07-27 09:35 . update OpenMLDB社区.md.

OpenMLDB 社区

(一)项目背景

在人工智能工程化落地过程中,企业的数据和工程化团队 95% 的时间精力会被数据处理、数据校验等相关工作所消耗。为了解决该痛点,1% 的头部企业会花费上千小时自研构建数据与特征平台,来解决诸如线上线下一致性、数据穿越、高并发低延迟、高可用等工程挑战;其他 99% 的企业则采购昂贵的 SaaS 工具和数据治理服务。

2021年,第四范式正式拥抱开源,将沉淀多年的人工智能操作系统 Sage AIOS 的底层核心技术组件开源,为 AI 产业界贡献了提供正确数据供给的机器学习数据库 OpenMLDB,是业界首个开源的机器学习数据库,旨在通过提供企业级 FeatureOps 全栈解决方案,降低开发者进入 AI 的门槛,闭环解决AI工程化落地的数据治理难题,推动企业高效落地AI应用。

OpenMLDB为第四范式机器学习数据库MLDB的开源版本,开源前在生产环境为诸多金融、零售头部企业(如广发银行、银行、百胜中国等)提供机器学习应用数据供给,落地上百个应用场景(如营销推荐、广告CTR、AIOps、金融交易反欺诈等)。OpenMLDB 优先开源了特征数据治理能力,依托 SQL 开发能力,为企业提供具备全栈功能的低门槛特征数据计算和管理平台。

OpenMLDB于2021年6月底正式开源,在半年内实现了全球代码托管平台 GitHub topics 排名:机器学习数据库、AI数据库 方向best-match第1名, 内存数据库、特征存储方向Top 3 ,累计99位开发者参与做出贡献,累计 PR&Issue 1232个,累计测试用例18000+, 累计代码行数 32W,微信群活跃用户近千人。获评 Gitee 最有价值开源项目、OSCAR尖峰开源项目及开源社区、首批可信开源项目认证。

OpenMLDB社区面向开发者,广泛参与各类全球技术大会并举办技术活动,吸引了如 Akulaku、Advance.ai、华为、京东、新浪、eBay等社区企业用户,以及普渡大学、新加坡国立大学等基于范式开源产品组件进行社区化合作研发的高校研究机构。

在落地场景中,OpenMLDB也有着很好的表现。其中,出海互联网金融公司Akulaku将OpenMLDB应用于其金融科技类场景中,OpenMLDB不仅帮助其提升团队约一倍人效、节约数百万成本,同时OpenMLDB也是相比 Spark、Flink 及其他MPP选型中唯一具备线性scale能力的方案。

(二)OpenMLDB - 线上线下一致的生产级特征平台

MLOps为人工智能工程化落地提供全栈技术方案,FeatureOps作为其中的关键一环,通过特征计算和供给,实现DataOps和ModelOps的高效衔接。一个完整的可工程化落地的 FeatureOps 需要覆盖特征工程的各个方面,包括特征生成、特征计算、特征上线、特征共享、特征服务、灾备和高可用等。OpenMLDB 提供一套全栈 FeatureOps 企业级解决方案,同时拥有低门槛和极简的使用和管理体验,让特征工程开发回归于本质:专注于高质量的特征抽取脚本开发,不再被工程化落地所羁绊。

基于 OpenMLDB 的 FeatureOps 的基本使用流程,从特征开发到上线,只需要三个步骤:基于SQL的特征脚本开发 → SQL脚本一键部署上线,由线下模式切换为线上模式 → 接入实时数据流,进行实时特征供给上线服务。

OpenMLDB通过线上线下一致性、低门槛且功能强大的数据库开发、面向特征计算的定制化性能优化以及企业级特性,在降低开发者使用门槛的同时,带来极致的应用效果。

其一,离线和实时特征计算使用统一的计算执行引擎,线上线下一致性得到了天然保证;

其二,低门槛的数据库开发体验,全流程基于 SQL 和 CLI 进行特征抽取脚本开发以及部署上线;

其三,离线特征计算提供基于 Spark 的高性能批处理优化版本,线上实时特征计算在高吞吐压力下的复杂查询提供几十毫秒量级的延迟,充分满足高并发、低延迟的性能需求;

其四,为大规模企业级应用而设计,整合诸多企业级特性,包括灾备恢复、高可用、可无缝扩缩容、可平滑升级、可监控、企业级异构内存架构支持等。

(三)运营实践

2021年6月发展至今,OpenMLDB开源社区通过内容运营、线上直播、技术布道等多项手段,汇聚开发者,目前越来越多的OpenMLDB支持者正一起走在AI工程化落地的前沿,推动AI产业化落地的进程。

在内容运营层面,输出产品介绍文档、使用说明、实战QA、案例分享等多维度的内容,满足OpenMLDB开发者及应用者不同层次的需求。

在线上直播层面,OpenMLDB开源社区以月为频率召开面向使用者及开发者的社区会议,介绍最新版本产品特性并收集下一版本开发需求,加深用户理解的同时,不断提高OpenMLDB社区的行业影响力。

在技术布道方向,OpenMLDB开源社区核心成员持续参与各类开发者大会,如全球开源技术峰会、OSCAR开源产业大会、开源年会、全球人工智能与机器学习技术大会、全球架构师峰会及各类线上线下开源meetup等,持续面向开发者介绍OpenMLDB的优势、设计理念及技术架构,不断提升OpenMLDB社区的技术影响力。

(四)社区治理

设置面向OpenMLDB开发者的成长路线,通过Contributor、Active Contributor、Reviewer、Maintainer的划分,激励开发者更好的参与OpenMLDB开发工作。 OpenMLDB 社区贡献者体系如下:

Maintainer<---Reviewer<---Active Contributor<---Contributor

社区提供了丰富的方式与开发者进行互动,更符合国内用户的习惯,包括建立微信、邮件列表、GitHub issues/discussions、Slack 和线上/线下社区活动等。

输入图片说明

1
https://gitee.com/Jun13808874743/china-opensource-community-landscape.git
git@gitee.com:Jun13808874743/china-opensource-community-landscape.git
Jun13808874743
china-opensource-community-landscape
中国开源社区 landscape
master

搜索帮助