AI工程师二次创业，在垂直场景找“模”解-爱冒险的八月

公众号：小姨ai

导读：岩山科技携子公司，角逐百模大战文丨猎云精选 ID：lieyunjingxuan 作者丨孙媛 2023，百模大战一触即发。各类大模型产品争相涌现，不仅有阿里百度等大厂带头角逐通用大模型，美团创始人王兴、光年之外创始人王慧文、智谱AI创始人唐杰、搜狗百川智能创始人王…

岩山科技携子公司，角逐“百模大战”

文丨猎云精选 ID：lieyunjingxuan

作者丨孙媛

2023，百模大战一触即发。

各类大模型产品争相涌现，不仅有阿里百度等大厂带头角逐通用大模型，美团创始人王兴、光年之外创始人王慧文、智谱AI创始人唐杰、搜狗&百川智能创始人王小川等大佬更是以创业势头猛进。

近期，国产大模型更是迎来了集体突围。

阿里“通义千问2.0”以参数规模达千亿级加速追赶GPT-4；成立仅数月的百川智能半年内发布了7版大模型，中英文表现超过Llama2。昆仑万维宣布开源百亿级大语言模型“天工”系列，在同等规模模型中展现出最佳效果。

随着这场从年初打到年尾的“百模大战”趋于白热化，更多人开始有了新的疑问：我们真的需要这么多“模”吗？如此高投入，能让模型提供方行至盈利吗？而接入模型的企业到底能从“模”中受益多少？

或许，答案就藏于“模”在垂直场景应用的实操中。

前百度工程师二次创业，给垂直场景应用找“模”解

在垂直场景应用这一练兵场，打造标杆形成行业示范，成为各路玩家新的突围方向，岩芯数智也是其中之一。

在中国科学技术大学研究生就读期间，机器学习领域科班出身的刘凡平在微软完成了毕业论文的撰写，并在国内外计算机众多赛事中获得奖项。后来怀揣着对机器学习浓厚的兴趣，他便在百度以工程师的身份从事起了相关工作。

这期间，他两次出走创业。

第一次是奔赴深度学习，第二次便是去年年初对大模型的拥抱。

从事搜索技术研究的刘凡平，一直认为搜索应该是所搜即所得，而不是所谓的给一堆网页。在看到这一行业痛点后，他认为现有技术足以解决这个问题，也值得其再做一次创业尝试。

在担任百度资深工程师、二三四五（岩山科技前身）算法总监时，刘凡平一直深入研究深度学习技术，自主设计各类模型，并落地应用，作为发明人申请人工智能技术相关专利20 余项。

但是，在以解决业务实际问题为导向的实践中，银行客户的一句“能用，但不够好”的反馈让刘凡平意识到，对于垂直行业场景来说，通用大模型不算一个足够好的“模”法。

为了深入客户业务，刘凡平带着团队在接下来的一周直接到客户办公室一起办公。在了解了他们的工作模式，以及他们如何应用现有系统后，刘凡平发现，当前行业尤其是通用的大模型，面临着算力成本高的挑战，虽有很强的通用任务能力，却不足以解决众多企业的具体问题。

这就反向要求模型提供方去从融合企业数据及业务去构建超大型的产业场景，才会使AI大模型落地垂直行业，发挥出更大的价值。但是，垂直行业模型从研发到落地，耗时耗力，这些“苦活儿、累活儿”并不受大多数大模型厂商所待见。

但这些活儿却是刘凡平认为要做好垂直行业模型这一解决方案的关键，也是大模型应用落地的最后一公里。

“客户只关心问题能不能解决和优化，是不是通过大模型做到并不重要。很多厂商销售的是MaaS平台，但如果不深入具体的某一场景，梳理业务发展的需求或问题，就不能给到客户所要的MaaS平台背后的产品和服务。在给客户业务需求提供解决方案的过程中，大模型只是解决方案中的一环。”

在一线充分认识到企业信息化、数字化建设的迫切需求，刘凡平快速改进了之前的通用方案，从客户实际业务和案例去构建产品原型，从原有的AI通用大模型衍生到银行业的任务模型，实现了垂直行业模型的快速落地。

从实践中检验并迭代大模型的能力，在刘凡平看来，并不是单点，而是一个生态链构建的过程。

“从事大模型行业不仅要建构大模型，还要提供整套解决方案。虽然这样一来，在接触一个新行业时，对模型提供方来说成本会比较高，但一旦接触好了，后期成本就会大大降低，客户也更易接受、更好适用。”

他强调，科技类的基础创新和应用的确是一个慢工出细活的过程，只是单纯的做Transformer架构的复制者没有意义，行业大模型的设计核心是围绕业务进行数据和模型的构建，以及应用服务的构建。

“从这个角度讲，岩芯更多是和客户作为一个共同体在垂直行业建模，这是彼此的相辅相成。”

“可控可信”+“高性价比”，成行业数智化解法

事实上，虽然现在“百模大战”打得火热，但问题也很显而易见，即不可避免陷入“一本正经的胡说八道”的幻觉问题。

刘凡平坦言，Transformer架构底层设计逻辑决定了对训练数据量的要求极大，幻觉问题包括训练的资源消耗已成行业通病，导致用户对大多数模型的输出结果产生了“好像能相信，但又不可信”的感受。

“幻觉”其实也是大模型的智能体现，但是对于大模型已学习过的知识，希望能够按照已学习过的内容客观表达，而为了避免无效的大模型幻觉，让模型输出结果更可控可信，实现大模型助力行业数字化和智能化的升级转型，岩芯数智在数据质量管理和算法创新上花了大功夫，提出了基于记忆和逻辑的大模型建设思路。

首先在数据层面，岩芯数智的数据在保证安全可用的情况下，选择来自互联网公开的数据、专业领域的数据，以及其他授权数据。

前面的两方面数据是为打造垂直领域的行业模型，而企业客户所提供的数据则用于为了更好优化模型，使其输出结果更符合目标企业的需求。

在技术创新侧，岩芯数智则是通过自研Transformer架构的大模型和非Trasformer架构的大模型来根据客户实际情况进行调度，通过对模型的不断迭代完善模型效率及应用体验。

从去年开始，岩芯数智就通过对第二代Transformer架构模型的自主改进，大幅提升了模型性能。

在第三次迭代中，岩芯从零开始训练并建构了非Transformer底层架构的大模型，即记忆逻辑模型，通过无监督学习直接对数据学习，再通过微调的方式得到结果，强化模型记忆能力，使其在训练效率、推理效率以及应用效果层面都得到很大的提升，可有效降低幻觉对应用效果的影响。

刘凡平表示，技术创新及对优质数据的精选二者结合促成了模型的“可控可信”，在决策时可通过参考内容提供并追溯信息源，可准确判定生成内容的安全性，可预测输出结果的价值并预判非安全行为的发生，能够在实现多样性输出的同时，保障输出结果的相对公平性和包容性。

同时，岩芯数智的记忆逻辑模型由于大模型成本和训练效率在服务器比别人少、算力成本可降至30%~40%的情况下，仍能达到较好的效果，从一定成本上使其解决方案更为降本。

“可控可信”+“高性价比”，恰好是行业所亟需的数智化解法。

刘凡平依稀记得，在为一家企业客户介绍完岩芯垂直大模型后，就要求岩芯“立刻”帮其解决自动化管理数据的难题，甚至希望公司能立即派人前往支持。

“这是一种由强烈需求激发出来的动作。智能化管理数据过程不能出任何差错，智能化程度越高，专业度也会更高，对模型要求也会更高。得知岩芯数智可控可信的大模型能够帮助他解决这一块问题后，他就希望能赶紧接入。”

虽然这家企业也同时沟通了多家大模型提供方，但最后还是选择了岩芯。据悉，不到一个月时间，岩芯数智就针对其业务提供了基于大模型的自动化数据管理方案。

刘凡平透露，通过岩芯的垂直行业大模型，能够为企业降低近约30%的成本投入。

深入业务打通“最后一公里”，纵向做深、横向拓宽

据介绍，岩芯为企业提供的模型解决方案有两种。

一种是客户可以直接接入岩芯的垂直行业模型，但这就需要企业有自研能力，包括信息化部门、运维团队等，门槛相对较高。

另一种则是由岩芯提供一套深入客户业务的大模型解决方案，主要针对制造业等信息化程度较低的传统行业，以及对迫切的生产力变革有着极大诉求的中小企业，需要模型提供方提供更多支持。

相较于前者，后者的深入业务过程和私有化部署在刘凡平看来，意味着岩芯扛下了“所有累活”，为企业打通了模型应用落地的最后一公里。

刘凡平坦言，如果仅仅在通用大模型的基础上，利用行业数据进行微调，最终的应用效果其实并不足以满足用户的实际需求。但如果在通用数据的基础上，再加上行业的专业数据以及业务数量进行预训练，即通过企业的私有化数据对模型进行预训练，那就会用更专业的数据产生更专业的智能涌现现象。

值得注意的是，私有化升级在早期也面临着数据安全问题。

针对此，刘凡平也给出了岩芯数智的解法。一是客户可以通过少量数据提供，结合岩芯现有数据，在私有云上进行训练；二是可以基于岩芯建立的垂直行业大模型，改进算法后在客户的机器上进行训练。如此一来，岩芯无需翻阅数据，客户只需将数据放在指定目录下，启动模型训练指令，即可在客户方进行模型训练，完成一个内部的私有化升级。

据介绍，岩芯大模型通过实现私有化部署，可以将客户内部权限及模型大脑打通，以实现安全的权限管理，以提供丰富的企业应用插件，响应企业内部的多元需求，辅助大模型的落地应用，并且这些插件通用，比如搜索引擎、天气、股市等插件，或报销流程、请假插件等，满足客户的广泛需求，把模型的能力赋能到企业内部的流程工具当中，以提升生产效率。

据悉，从今年6月开始，岩芯数智的垂直行业大模型就开始商业化，并率先应用于对降本增效诉求较为强烈的金融和制造业，合作了数家案例。

其中，岩芯数智与邮储银行合作成立了国内最早一批银企联动AIGC项目，针对组织架构、硬件保障、软件创新等方面进行了重点部署，着重满足银行业务对内容专业性、严谨性、可解释性、合规性、数据安全性等要求。双方也将持续深化技术探索与产业投研建设，逐步实现投产落地与产业升级。

“通过深耕垂类场景，岩芯数智希望构建实现 ‘1个MaaS平台，多种应用场景策略’，为行业开发可信赖的、高性能的垂类模型。未来在15-30天内即能完成对一个企业客户的私域模型部署。”

角逐百模大战，一家创企能有多少制胜点？

回归商业本质，随着百模大战开启、大厂头部效应显著，价格战不可避免，如此来看，给创企留下的盈利空间似乎不多。

以始为终来看，岩芯数智也做从两个维度做了准备。

一方面，是“往前多迈一步”的技术创新。在刘凡平看来，无论是企业或产品，一定要领先行业才能收获更多机会。

“目前国内大部分用开源模型进行微调的产品，其实真正具备自研能力的模型并不多，前者很可能在后面商业化的浪潮中受到很大的影响，而岩芯大模型具有自主知识产权，可以对模型进行深度改造及深度的业务适配，拥有对模型底层的构建把控能力。”

据悉，岩芯数智新一代模型已开始布局多模态的实时人机交互系统，通过多种感知方式完善自主认知及控制能力。

另一方面，构建企业级AI差异化优势的关键，是要根据客户的特定需求来定制和调整技术，岩芯也会通过服务客户、融入业务来构建更深的行业壁垒。

“垂直行业大模型需要根据行业属性提供场景化服务，而行业数据的累积对于AIGC和大模型具有壁垒价值。在训练语料方面，除常规的涵盖该领域的专业知识和术语外，定制的模型还将包含特定领域的实际案例和数据、专家的经验和见解等，以适应不同垂直领域特定的语言风格和表达方式。”

随着由ChatGPT掀起的大模型浪潮从通用领域席卷垂直领域，政务、公共安全、医疗、金融、健康、制造业等领域都在开发专用垂直细分赛道的大模型产品，加速AI应用的场景化落地进程，A股上市公司也纷纷成为玩家中的主力军。