Awesome

AI System（人工智能系统）

本项目为人工智能系统相关技术原理和实战分享。关于大模型相关技术原理以及实战经验分享放置在llm-action；另外，收集的大模型相关技术的全网优质资源放置在llm-resource。

🔥 MLOps 技术栈架构
🐫 MLOps
- 🐼 MLOps杂谈
- 🐰 无代码与以数据为中心的AI平台
🐫 数据管理
- 🐘 数据版本管理
- 🌋 DVC
- 📡 特征存储
🐎 机器学习建模
- 🐎 AutoML
- 🐰 模型实验跟踪
- 🐎 MLflow
🚀 模型运营
- 🐎 模型推理
- 🐰 模型服务
- 🐎 模型推理引擎
- 🐰 模型监控
🐎 可解释机器学习
🐰 模型可视化
🐎 机器学习流水线
🐰 人工智能系统
🐎 大模型
🐰AI系统技术分享
💬 技术交流群
👥 微信公众号
⭐️ Star History

MLOps技术栈架构

MLOps stack architecture

MLOps

MLOps杂谈

全球的MLOps和ML工具概览
聊聊MLOps是什么，它对算法工程师带来了什么
可重复可复现的机器学习在生产中的12个要素
软件工程大师 Martin Fowler 谈机器学习持续交付
谷歌大佬谈 MLOps ：机器学习中的持续交付和自动化流水线
如何测试你的机器学习流水线？
浅述MLOps的价值
AI 产业三大发展趋势（AutoML/MLOps/XAI）将加速企业 AI 应用落地
Algorithmia 首席执行官 Diego 谈从研发到人工智能的投资回报率
机器学习模型在生产中表现不佳的5个原因
- 为什么您的机器学习模型可能表现不佳（现实的变化-概念漂移(真实世界)、工程与数据科学迷失在转化中(应用接口)、应用程序更新(应用接口)、特征处理 Bug(内部数据流水线)、数据 Schema 变化(内部数据流水线)）、使用指示器来检测模型的常见问题（字段删除、类型不匹配、默认值更改、值超出范围、分布漂移、性能指标下降）
如何将 MLOps 用于物联网和边缘设备（Valohai）
降低模型输出风险的三种方法（Valohai）
Arize AI 对顶级 ML 团队调查得出的 3 个结论
- 解决模型问题仍然太痛苦和缓慢（建议：评估并实现一个 ML 可观测性平台，帮助暴露和消除AI盲点。）、ML 团队需要与业务主管更好地沟通（建议：提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来）、可解释性很重要，但它不是一切（建议：不要仅仅依靠可解释性；采取积极主动的方法进行模型性能管理。）
识别人工智能用户场景---一种规格并不适用于所有场景（Noogata）
如何规模化企业人工智能（Noogata）
十大人工智能开发和实施面临的挑战
DataOps 数据开发入门
面向 AI 的 DevOps：准备好扩展您的 AI 了吗

无代码与以数据为中心的AI平台

数据管理

数据版本管理

捕获数据版本以重现、跟踪和记录您的 ML 模型血缘。

DVC

DVC 官网教程-中文版

特征存储

机器学习建模

AutoML

浅析自动机器学习（AutoML）工具NNI

模型实验跟踪

跟踪有关实验的重要信息，如参数、指标和模型。

开源实验跟踪工具指南

MLflow

模型运营

模型推理

创建API端点并使用模型进行预测。

模型服务

浅析云原生模型推理服务框架KServe
快速入门统一模型部署（Model Serving）框架 BentoML
BentoML核心概念（一）：服务定义
BentoML核心概念（二）：API 和 IO 描述符
BentoML核心概念（三）：构建Bentos
BentoML核心概念（四）：模型和 Bento 管理
使用 Seldon Core 服务模型
- 什么是模型服务（通过 API 与您的模型交互、将模型部署到云端或边缘设备、轻松扩展模型以满足用户需求）、Seldon Core简介、Seldon Core 安装、Seldon 如何为模型服务、使用自定义 Docker 镜像服务、Seldon 适合你吗
使用 Seldon Alibi 进行模型监控
- 模型监控如何工作（数据漂移、异常值、偏见）、Alibi Detect 简介、监控模型（部署图像分类器、部署漂移检测器）、从 Alibi 中获取指标、Alibi 适合你吗？

Triton：

模型推理服务化框架Triton保姆式教程（一）：快速入门
- 本文简要介绍了模型服务化部署的几种方式以及如何选择一款模型服务化工具，同时，简单介绍了 Triton 主要特征及优势。
模型推理服务化框架Triton保姆式教程（二）：架构解析
- 对于一个模型推理服务框架来说，通常关注的指标有延时、吞吐、效率、灵活性和可扩展性等。那么，针对每个点应该如何去解决，这是在进行推理框架设计时需要去考虑的问题。因此，本文从更高的技术视野来看一个推理系统以及Triton的架构是如何进行设计的。
模型推理服务化框架Triton保姆式教程（三）：开发实践
- 本文简要介绍了如何基于PyTorch后端使用Triton封装一个模型推理服务。

模型推理引擎

大模型的好伙伴，浅析推理加速引擎FasterTransformer

模型监控

模型监控概述

什么是模型监控？（Valohai）
- 为什么要监控模型、机器学习模型监控清单（数据分布变化、性能改变、健康指标/运营指标、数据完整性、分段性能、偏见/公平）、在 Valohai 中如何监控模型（存储指标、在 UI 中可视化指标）
机器学习模型监控清单
- 服务健康、数据质量和完整性、数据和目标漂移、模型性能、分段性能表现、偏见/公平、异常值
模型监控：定义、重要性和最佳实践（AI Multiple）
- 什么是模型监控、为什么模型监控很重要、ML 模型随时间退化的原因（不断变化的环境、更改业务数据）、模型监控变量（真实值与预测值检查、数据分布变化、无错误数据、公平、运行指标）
机器学习模型监控（Aporia）
- 机器学习模型监控（什么是模型监控、如何监控机器学习（数据漂移检测、数据完整性检测、概念漂移检测、数据偏差、异常））、模型中的漂移检测（模型漂移、数据漂移（KS检验、PSI、Z-score）、概念漂移）、机器学习性能监控（如何监控机器学习性能、如何提高模型性能）、机器学习模型管理、模型可解释性、机器学习实验跟踪、机器学习模型注册表
MLOps：模型监控
- 模型监控背景、模型监控动机、模型监控指标（稳定性指标、性能表现指标、运营指标）
监控生产中的ML系统，您应该跟踪哪些指标？
- 为什么需要ML监控、ML监控动机、模型监控金字塔（软件后端、数据、ML模型、业务或产品KPI）、模型监控指标（ML系统健康监测、ML数据质量监控、ML模型质量监控、业务指标和KPI）、模型监控利益相关者、模型监控难点

模型漂移

机器学习中的概念漂移（Aporia）
- 机器学习中的漂移类型（概念漂移、预测漂移、标签漂移、特征漂移）、概念漂移可以以不同的方式出现（突然漂移、逐渐漂移、递增的漂移、重复出现的概念）、概念漂移的两种类型（虚拟的漂移、真正的漂移）、现实生活中的概念漂移、概念漂移的难点
机器学习概念漂移检测方法（Aporia）
- 统计方法（JS散度、KL散度、KS检验）、统计过程控制方法（DDM/EDDM、CUMSUM及其变体PH）、时间窗口分布方法（ADWIN、Paired Learners）、上下文方法（树特征）、漂移检测实现工具
如何检测和克服MLOps中的模型漂移
- 模型漂移的类型（概念漂移、数据漂移）、解决模型漂移、创建可持续的机器学习模型
数据漂移、概念漂移以及如何监控它们（mona）
- 什么是数据漂移、什么是概念漂移、数据漂移和概念漂移的区别、什么时候应该关注概念漂移、监控数据漂移和概念漂移的建议

模型监控数据类型

如何检测文本（NLP）和图像（计算机视觉）数据漂移
- 四种不同类型的实时监测技术来检测和减少模型漂移(数据质量、模型质量、模型偏差、模型可解释性)、NLP 数据漂移（协变量漂移、标签漂移、概念漂移、模型监控方法）、图像数据漂移（模型监控方法）
使用 Arize 监控非结构化数据（Arize）
- 为什么要 Embeddings、Arize 发布 Embeddings 的支持、使用 Arize 的示例工作流程
数据漂移检测（一）：使用表格数据的多变量漂移（Arthur）
- 单变量漂移检测（测量现在通过模型的数据与训练集之间的分布相似性）、多变量漂移检测（我们必须考虑数据的高维联合分布，将多维辅助模型拟合到训练集的完整联合分布）
数据漂移检测（二）：NLP 和 CV 中的非结构化数据（Arthur）
- 非结构化数据漂移检测方法、概述（向量表示、密度模型、评分）、评估

模型监控工具

ML 模型监控最佳工具
- 如何比较 ML 模型监控工具（易于集成、灵活性和表现力、开销、监控功能、警报）、ML 模型监控工具（Neptune、Arize、WhyLabs、Grafana+Prometheus、Evidently（开源）、Qualdo、Fiddler、Amazon SageMaker Model Monitor、Seldon Alibi Detect（开源）、Censius）
一个精选的模型监控工具列表
- Aporia、Deepchecks（开源）、MLRun、Evidently（开源）、WhyLabs
机器学习模型监控工具：Evidently 与 Seldon Alibi 对比
- 比较标准（兼容性、集成、能力）、Evidently（离线分析、实时监控）、Seldon Alibi Detect（离线分析、实时监控）

Evidently

Seldon Alibi Detect

在 IMDB 电影评论数据集上进行文本数据漂移检测（Seldon Alibi Detect）
- 加载数据集/Tokenizer、预处理、KS检验、MMD（TensorFlow/PyTorch）、从头开始训练的模型中的 embeddings（TensorFlow）
在 CIFAR-10 数据集上使用最大均值差异（MMD）漂移检测器（Seldon Alibi Detect）
在 CIFAR-10 数据集上使用 Kolmogorov Smirnov 数据漂移检测器（Seldon Alibi Detect）

模型可视化

可解释机器学习

机器学习流水线

自动化ML实验的步骤。调度流水线运行，以根据新数据重新训练模型。

人工智能系统

大模型

LLM理论及实践: llm-action

AI系统技术分享

AI资料

AI百宝箱

技术交流群

我创建了一个AI工程化学习交流群，供大家一起学习交流AI工程化相关的最新技术（MLOps、ModelOps、LLMOps、AI System等），可加我微信进群（加微信请备注来意，如：进AI工程化交流群+GitHub）。一定要备注哟，否则不予通过。

微信公众号

微信公众号：吃果冻不吐果冻皮，该公众号主要分享AI工程化（大模型、MLOps等）相关实践经验，免费电子书籍、论文等。