MLOps：人工智能基础设施创业机会-首码网-网上创业赚钱首码项目发布推广平台

耀图资本注：关注AI圈的朋友可能注意到，近年来出现了MLOps（机器学习运维）这样的新概念。它脱胎于DevOps，旨在提高工作流程效率。顾名思义，可以理解为机器学习时代的DevOps。。本文将对MLOps领域的企业进行盘点，分析数据编程时代的工具链创业机会。

作者Warren Wen长期关注耀图资本的AI算法和企业服务领域。欢迎AI从业者、创业者通过知乎（ID酱油哥Warren）或邮件（）与他交流。

MLOps的定义：更好的效果VS更好的落地

不同的人对 MLOps 有不同的定义。全球人工智能和机器学习领域最权威的学者之一吴恩达认为，MLOps最重要的是在整个机器学习生命周期中确保始终如一的高质量数据，强调可以获得更好的结果通过确保数据质量。

Aquarium 就是一家符合这一定义的公司。 Aquarium 官网称“Aquarium is an ML data management platform that help you Improve your models by Improve your datasets”，自称是一个机器学习数据管理平台。本质上是通过优化数据质量来提高效果，而不是优化模型来提高效果。

该公司已获得红杉资本和 Y Combinator 的投资，最新一轮融资为 260 万美元。

另一类人认为MLOps是如何更好或者更快落地，解决机器学习落地的技术债（在代码实现过程中做出权宜之计的持续成本）。

从广义上讲，MLOps涵盖了整个机器学习生命周期，初创公司如Valohai；狭义上，MLOps 关注的是如何将模型放到生产环境中，主要体现在部署、服务、监控等方面。初创公司包括 Algorhmia；将自己划分到 MLOps 领域。

MLOps 综合开源项目

有许多与 MLOps 相关的开源项目。这里我们选取了几个综合性的MLOps开源项目进行比较，涵盖Google的kubeflow、Databricks的MLflow、Netflix的metaflow、lyft的Flyte、allegro.ai的clearml、iguazio的mlrun。

对比GitHub上各个项目的star成长轨迹可以看出，mlflow和kubeflow无论是star的绝对数量还是star的斜率都具有明显的优势，这可能与Spark和K8s强大的生态有很大关系。

MLOps 初创公司列表

下面的文章将根据机器学习生命周期的阶段（数据准备、模型构建、部署和监控）对MLOps相关公司进行分类和分析。

数据准备

数据综合

一家数据合成初创公司，使用合成数据进行模型训练。目前，数据合成方面的企业融资金额并不大，进展也不是很顺利。是否有广阔的市场还很难确定。

数据标注

由于当前的人工智能主要基于监督学习，因此广泛存在数据标记的需求。数据准备阶段运行最快的是 Scale.ai，目前有望在 12 个月内实现 1 亿美元的收入，并且在过去一年中销售额翻了一番。著名客户包括 PayPal、Pinterest 和美国空军。该公司还与丰田、通用汽车等主要汽车制造商合作。最新一轮融资金额为3.25亿美元，估值为73亿美元。

对大量训练数据进行标注需要一定的成本，这已经成为部署AI应用的瓶颈。斯坦福AI实验室开源了一个弱监督框架Snorkel，不需要标注器来标注数据，而是编写标注函数，同样可以训练SOTA模型。想法新颖，最新一轮融资已完成3500万美元。历史领先的投资机构包括Greylock、Lightspeed Ventures Partners和GV。

数据质量

在数据质量方面，吴恩达提到的以数据为中心的MLOps是通过提高数据的质量来提高AI系统的效果，而不是优化模型来提高效果。

水族馆的口号是“通过更好的数据获得更好的数据”。具体方法是找到被错误标记但模型预测正确的样本，并重新标记。找到被正确标记但模型预测错误的样本，并添加相似的样本。 Aquarium 完成最新一轮 260 万美元投资，由 Y Combinator 和红杉资本等历史投资者领投。

除了主打数据质量的Aquarium之外，数据标注独角兽Scale.ai也发布了新产品Nucleus。和Aquarium一样，它通过提高数据质量来提高模型的预测效果，如下图所示。

数据版本控制和托管

初创公司包括 Graviti 和 Iterative.ai 等。其中，Graviti是国内一家致力于打造AI时代GitHub的初创公司，专注于解决AI开发中的数据痛点，从海量的开放数据集社区（Open Datasets）到专业的数据管理SaaS（ TensorBay），使用户可以在云端轻松获取、托管和使用数据。需要数据集的朋友可以去Open Dataset浏览。

建筑模型

深度学习框架

各大公司在深度学习框架上竞争激烈，如Tensorflow、PyTorch、Mxnet、PaddlePaddle，很少有初创公司敢加入这个战场。以前的DL4J框架已经逐渐淡出了人们的视线。

一流科技是国内唯一一家拥有深度学习框架的初创公司，不禁感叹创始团队的情怀和勇气。创始团队开发了Oneflow框架，主打高性能。最新一轮融资5000万元完成，高瓴资本单独投资。

培训管理

在基于规则的编程范式中，参与构建过程的人主要是工程师，痛点是对代码做版本管理。在基于数据的编程范式中，构建过程就是训练，参与者不再是纯粹偏向业务方的工程师，而往往具有一定的研究性质。对于实验密集型机构来说，实验模型和参数的版本管理和追溯是尤为痛点。

OpenAI 是典型的研究密集型机构，Weights&Biases 使用 OpenAI 的用户案例作为案例研究。 Weights&Biases是实验管理领域运行速度最快的公司，在200多家企业拥有超过70,000名用户。最新一轮融资完成了由 Insight Partners 领投的 4500 万美元融资。值得一提的是，创始团队还曾创办过一家数据标注公司，后被澳鹏收购。

Grid AI的创始人在纽约大学读博士时曾在Facebook AI Research实习。在此期间，他创建了基于 pytorch 框架构建的开源项目 PyTorch Lightning。其一大特色是将模型代码与工程代码分离，让研究人员能够专注于模型代码的编写，是全球发展最快的机器学习项目之一。该项目自 2019 年下半年开源以来，已收获 13.5k。最新一轮融资已获得1860万美元，由Index Ventures领投。

机器学习

在机器学习平台中，DataRobot运行速度更快。最新一轮融资5000万美元，由雪花创投领投。上一轮融资完成2.7亿美元，目前估值28亿美元。还有一家开源公司H2O.ai，完成了最新一轮超过7000万美元的融资，由高盛和平安领投。

DataRobot、H20.ai和Dataiku都是大公司，拥有丰富的产品线，包括AutoML和MLOps。

Snowflake的主要产品是云数据仓库，主要处理表数据，而DataRobot、Dataiku等公司主要处理表数据。数据仓库是做表的聚合统计，ML是做表预测（分类或者回归），数据仓库和机器学习是处理表数据的不同环节，以及上下游的关系，所以Snowflake投资了DataRobot和Dataiku同时。从Snowflake目前的规模来看，未来很有可能收购一家专注于表数据的机器学习平台公司。

中国运行最快的机器学习是第四范式。腾讯投资最新一轮投资已完成，上一轮已完成7亿美元融资。国内外在机器学习平台方面存在显着差异。国外公司往往边界清晰，专注于小单点，而第四种方法则拥有极其丰富的产品线，不仅包括软件，还包括硬件。这与中美IT基础设施环境的差异有关。

部署和监控

前面提到，广义的MLOps包括从设计、建模到部署的多个流程，这里的“MLOps”是狭义的定义，根据公司官网的描述进行分类。

声称拥有 MLOps 产品的初创公司分为以下几类：

DataRobot、H2O.ai、Dataiku 等公司已从 AutoML 起步，并将产品线扩展到 MLOps。例如，DataRobot收购了以色列MLOps公司ParallelM，以增强其部署能力。像Algorithmia这样的公司专注于部署，而Valohai是一家覆盖整个机器生命周期的公司。另外，有的公司专注于机器学习，有的公司专注于深度学习；有些在云端，有些在边缘（开放智能）。（不同公司的比较可以参考valohai的文章）

国内MLOps方向的公司目前有Open AI Lab，专注于边缘侧的部署能力。 OPEN AI LAB成立于2016年，专注于边缘智能计算与应用。以Tengine为核心，为AIoT行业上下游合作伙伴提供端、边、云一体化的人工智能开发基础软硬件平台和解决方案。

2018年6月，耀图资本、普华资本联合领投公司pre-A轮融资，随后获得红杉资本、宽带资本投资的过亿元融资。

特色商店

特征存储是 Tecton 创始人在 Uber 担任工程师时提出的概念。此后不久，一位名叫 Willem Pienaar 的工程师阅读了创始人关于在 Uber 上构建功能商店的博客文章，并开始构建 Feast 作为该概念的开源版本，现在是 Linux 基金会的一个项目，拥有近 2k 颗星。后来 Tecton 聘请 Willem Pienaar 加入公司。 2020年，Tecton分别完成2000万美元和3500万美元融资，由a16z和红杉资本联合领投。

大厂商也开始关注这个功能。 AWS 2021 Reinvent大会发布了Sagemaker中的特征存储功能。不久前，在 Google I/O 大会上，Google Cloud 宣布了 Vertex AI，这是一个新的托管机器学习平台，旨在让开发人员更轻松地部署和维护他们的 AI 模型。奇怪的是，I/O 通常专注于移动和 Web 开发人员，传统上并没有很多与 Google Cloud 相关的公告，但 Google 决定在 I/O 上宣布 Vertex 的事实证明了它的重要性。它还包含特征存储。我预计，在不久的将来，国内巨头也会发布自己的特色商店。

监控和可解释性

模型监控很重要，因为可能会发生数据漂移或模型漂移。训练本质上是使用模型来拟合数据的分布。机器学习的前提是训练时的数据分布与推理时的数据分布一致。如果在实际业务中，由于某些原因，数据的分布发生了变化，可能是用户行为发生变化、季节变化等，需要对模型的性能进行监控，观察性能是否出现偏差，从而确定是否需要再培训。

另外，在金融、医疗等行业的一些场景下，模型需要具有较高的可解释性，否则无法投入使用。

在模型可解释性方面，DataRobot等机器学习平台公司也参与其中。此外，还有专门从事模型监控和可解释性的初创公司，例如 Arthur AI。近期完成最新一轮1500万美元融资，由Index Ventures领投； Fiddler AI 共完成 1320 美元投资，投资方包括 Amazon Alexa Fund、Lightspeed Ventures Partners 和 Lux Capital。

数据应用

在实际应用中，经常会出现这样的问题。数据科学家、开发和运维人员之间的技术栈存在明显差异。数据科学家在工程方面相对较弱，但业务人员希望看到AI落地，或者至少具备通用系统demo的能力。传统上，要上线一个AI系统，需要开发算法、编写后端代码、编写html、css、Js等前端代码，还需要调整接口。这对于一个算法思想的实现来说其实太沉重了（我自己也有很深的体会）。数据科学家虽然不需要深入了解所有技术栈，但至少需要了解一点，比较麻烦。

Streamlit是一家非常有趣的公司，其目标是解决数据应用快速开发的问题。从需求和目标来看，其实和MLOps是一致的。 Streamlit可以作为框架，在不需要了解前端html、css、Js等知识的情况下，快速编写和部署网页，加快数据应用的开发进程。

总结

决定模型效果的影响因素有两个：数据和算法。现实世界的数据集通常充满噪音。对于噪声数据，有两种解决方案。一是修改算法，提出一种可以处理噪声并且具有泛化能力的算法（显然难度更大）；另一种是修改数据集，提高数据集的质量。

算法：

AI领域的现象是学术界会不断提出更好的算法。对于企业来说，即使本月提出SOTA算法，下个月也可能被超越（除非很少有人研究或者该算法不是开源领域，否则有可能保持持续领先），所以很难企业在算法层面保持持续领先。如何将AI商业化，如何积累自身优势，构筑护城河，是所有企业都需要思考的问题。

管道级别：

虽然管道与模型的效果没有直接关系，但是良好的管道可以提高模型从构建到部署到生产环境的效率。 Valohai 有句经典格言：“模型是暂时的，管道是永恒的”。

对于ML pipeline这样的基础设施来说，虽然所有的AI都非常重要，但并不是所有应用AI的公司都适合构建完整的ML pipeline。好像并不是所有的公司都适合构建自己的数据库基础设施。所有这些都为人工智能基础设施相关的初创公司提供了机会。

GCP、AWS、Azure等云厂商都有MLOps相关产品。谷歌很早就发现了机器学习的技术债务问题，但大型厂商短期内很难做好，因此谷歌旗下的GV和Gradient Ventures分别投资了多家MLOps工具链上的初创公司。

在通用ML管道方面，为了加快和更好地实现机器学习，大量初创公司在数据准备、模型构建、部署和监控等方面进行了一些探索和创新。

在具体的ML pipeline方面，Rasa、Jina AI等初创公司给出了新的视角。聊天机器人、搜索不仅可以做成闭源、贴近业务的公司，也可以向下沉淀，做成通用的开源基础设施公司。

数据集质量级别：

“模型是暂时的，管道是永远的”，如果把这句话以数据为中心转化的话，那就是“模型是暂时的，数据集质量是永远的”。

AI应用端的很多公司发表论文、提出新算法，但无法建立壁垒。正如吴恩达演讲中提到的一个问题：是选择一种优化算法来适应噪声数据（以模型为中心），还是选择优化数据的噪声，然后使用常规算法（以数据为中心）。显然，以模型为中心的方法更难提高效果，好的模型总会被提出。整个模型的效果都是学术推动的，公司很难在算法层面保持领先地位。因此，应用人工智能的企业应该重点关注如何调试自己的闭源数据，提高数据集的质量（数据标注的正确性、一致性以及某类数据的质量）。

企业自身闭源数据质量独特积累的过程，就是构筑壁垒的过程。

型号级别：

从《Attention is all you need》论文开始，Transformer逐渐引起了人们的关注，随后BERT和GPT的提出，一波Transformer浪潮席卷而来，NLP领域发生了巨大的变化。基于 Transformer 的模型有层出不穷的新算法。对于算法工程师来说，跟踪和实现新算法是一个不小的工作量。

Hugging Face抓住了这一现象，从Transformers库开始，注重易用性。在这种股东风格的帮助下，Hugging Face 在 GitHub 上的仓库 Transformers 获得了 4.6 万颗星，累计融资 6000 万美元。大家都知道，pytorch因其易用性赢得了很多开发者的青睐，尤其是学术界的开发者，他们在深度学习框架中后来居上。

抱脸也注重易用性，构建来自学术界的影响力和生态。 Transformers 库已被 700 多篇论文引用，并被 1,000 多家公司使用。现在拥抱脸已经从纯粹的开放模型库扩展到开放数据集甚至AutoNLP，这与其他AutoML公司进入AutoML领域的方式有很大不同。

终于

2019年底，rasa和拥抱脸引起了我的注意。如今，越来越多的AI基础设施初创公司成立并完成后续融资。

从宏观上看，我们已经从基于规则的编程时代迁移到基于数据的编程时代。软件开发工具链将发生巨大变革，人工智能基础设施蕴含巨大机遇。

从微观来看，目前的AI模型还没有办法直接编写软件，仍然处于大数据、小任务的范式。我们距离用纯人工智能模型编写软件还有一段距离。但我们可以从GPT系列中看到一些迹象，也许GPT20到时候就能带来震撼的效果。目前正处于基于规则的编程系统和基于数据的编程系统并存的阶段。

如下图所示，基于规则编程体系的软件开发工程师和数据工程师，以及基于数据编程体系的数据科学家和算法工程师需要协同工作，于是MLOps这样的工具链的机会就诞生了。

我对基于数据编程系统的创业机会坚定乐观，尤其是人工智能基础设施。为了更好地帮助AI创业者，我本着开源研究即服务的心态，开源了自己的研究成果，发起了SSAIS项目。

欢迎AI从业者、创业者通过知乎（ID酱油哥Warren）或邮件（）与我交流，集思广益，共同探讨AI的商业发展方向。

版权声明 1 本网站名称：首码项目网
2 本站永久网址：https://www.98ni.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ7376152进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END