-
通过标注少量数据训练RM,再强化学习(RHLF) -
通过数据⻜轮精调模型 -
合成数据
-
数据治理,提炼⾏业语料 -
应⽤多模态数据 -
私域数据RAG
-
训练:数据规模⼤,格式多样,质量参差不⻬ -
应⽤(RAG,Agent):客户数据复杂,包括历史数据杂乱,来源多,格式不统⼀,客户数据不能直接应⽤于⼤模型
-
数据不断更新,需要持续做治理,另外数据需要和应⽤联动。典型如:数据⻜轮、在线AI 应⽤等。 -
当前数据产品和⼤模型产品是分散的,客户需要⽐较⾼的成本,串接两者的能⼒。
-
类型复杂,需要 GPU,⾼性能存储。 -
需要更弹性,更灵活。(频率不⾼,利⽤不规整)。
-
结构化数据⼀般按照 ODS-DWD-DWS-ADS 来进⾏分层设计。 -
多模态数据中台⼀般就是原始数据,经过清洗放到数据集(dataset)⾥⾯
-
结构化存储⽅式更多,计算更简单,有 DSL 语⾔。 -
多模态存储⽅式少,但是处理通常需要编码。
-
安全:多模态数据⼀般到路径授权,结构化数据粒度可以做到很细。 -
数据质量:不同的数据类型,数据质量标准不⼀样 -
数据⾎缘,数据资产,数据地图等多模态数据数据可以参考结构化数据的处理。
-
结构化数据是找数据规律。 -
多模态数据本身⽆法直接分析和应⽤,需要先提取特征,然后分析。
-
databricks 原本的业务主要是两块,一块是 spark 生态数仓相关,一块是以 spark 构建AI 小模型工具链。
-
收购了Mosaic AI 补齐了大模型相关工具链。目前大数据相关和大模型平台在逐步融合中。
-
通过收购和补齐 workflow,AI App 等能力,形成完整技术栈。
数据平台作⽤不⽌治理能⼒,还提供结构化、⾮结构化数据联合召回
-
提供 feature 和 function serving 应对结构化数据召回,向量搜索对应非结构化数据召回。
-
Feature and Function Serving 是低时延实时服务服务于结构化数据 serving 场景。可以通过 catalog 里面定义的 python 函数来实现实时数据转换。返回的数据可以用于实时规则引擎,经典的 ML 应用或者大模型应用。
2、Azure 核心理念:all your data in one place
-
统一的SaaS基础:Microsoft Fabric 建立在服务型软件(SaaS)基础上,将 Power BI、Azure Synapse Analytics、Azure Data Factory 等服务的新旧组件合并到一个统一的环境中,为不同的用户角色(如数据工程师、科学家或仓库专业人员)提供定制化的体验。 -
简化的分析需求:使用 Fabric,用户无需组装来自多个供应商的不同服务,而是提供了一个无缝集成的用户友好平台,简化了分析需求。 -
集成的组件:Fabric 将单独的组件集成到一个内聚堆栈中,使用 OneLake 集中数据存储,而不是依赖不同的数据库或数据仓库。AI 功能无缝嵌入 Fabric,无需手动集成,可以轻松地将原始数据转换为商务用户的需要的数据。 -
集中管理和治理:Fabric 无缝集成了数据和服务,实现统一的管理、治理和发现。它确保了项、数据和行级访问的安全性,可以集中配置核心企业功能,权限会自动应用于所有基础服务。 -
OneLake:湖屋的统一:OneLake 是构建所有 Fabric 工作负载的基础,提供统一的位置来存储运行工作负载的所有组织数据。它基于 ADLS (Azure Data Lake Storage) Gen2 构建,为面向专业和平民开发者的数据提供单一 SaaS 体验和租户范围的存储。 -
数据网格体系结构:Microsoft Fabric 使组织和个人能够将大型复杂的数据存储库转变为可操作的工作负载和分析,是数据网格体系结构的一种实现方式。
Fabric 2023 年 11 月底GA,将数据工程、数据湖、数据仓库、机器学习和人工智能整合到一个平台中。
从时间节点来看,阿里的 Openlake 解决方案借鉴了 Azure 的思路,但是做得更大一些。整体理念:从结构化走向多模态数据统一管理和治理。
Openlake 是阿里云 AI 基础技术栈核心位置
通过 Openlake 解决方案,打通计算引擎,数据湖等,实现 Data+AI 统一治理
-
统一元数据和数据湖存储,融合多个计算引擎:支持各种分析引擎,包括向量引擎/数据上层使用的接口;针对底层存储加工提升性能
-
打通百炼,闭环用户模型微调场景:支持用户微调数据准备,然后送到百炼微进一步处理。
-
预置各种数据科学与数据处理算法。