您现在的位置是：首页 > 百科精选 >正文

傅盛的大模型，只做百亿级，这是为啥

发布时间：2024-01-23 11:23纪达刚来源：

导读出品｜网易科技《态度》栏目作者｜丁广胜CEO永远是最后一个知道公司倒闭的人。这句话来自杰克·韦尔奇，他被称为全球第一CEO。傅盛引用表达...

出品｜网易科技《态度》栏目

作者｜丁广胜

CEO永远是最后一个知道公司倒闭的人。

这句话来自杰克·韦尔奇，他被称为全球第一CEO。傅盛引用表达人工智能变革的关键在“一把手”。

顺着这个思路，傅盛希望带着猎户星空，在大模型时代，找到“Think Different”，服务CEO们。

他说卷的思维模式是Think Better，创新的思维是Think Different，找到不同，是他给大模型定下的路径。

为了教会“一把手”用好大模型，傅盛用了两个小时，从科技史讲起，高声呼喊着：

超越OpenAI的机会一定来自大模型应用公司！未来，董事会应该考核CEO使用AI的时长！

不做千亿级大模型，百亿就能用好用

傅盛希望揭穿OpenAI的“阳谋”。

“做出自己的千亿大模型，就一定能取得商业上的成功吗？如果技术没有和产品、应用形成闭环，再多技术投入都不能形成壁垒。”

傅盛分析，现在大模型之路主流的模式，是砸钱预训练千亿级模型，微调，然后寻找应用场景。而猎户星空AI大模型创新以Think Different思维逻辑，在已知应用场景后，再微调，然后寻找合适的模型。

“千亿大模型过半凋零，私有化百亿大模型百花盛开。”他作出判断。

所以，猎户星空的战法，就是聚焦百亿大模型，主打够用，然后拼场景。

行业惯例，先看跑分。

傅盛说猎户星空的跑分是“素质教育”，坚决不刷题，真真实实。并且已经达到了媲美千亿大模型的能力。

具体来看，猎户星空大模型Orion-14B，有140亿参数规模，Orion-14B模型在一个庞大且多样化的数据集上进行训练，数据集规模达到了2.5万亿token。

这一规模不仅覆盖了常见语言，还涵盖了专业术语和特定领域知识，确保模型能够理解和生成多种语境下的文本。

Orion-14B在MMLU、C-Eval、CMMLU、GAOKAO、BBH等第三方测试集上，均为同级别模型SOTA。

140亿参数，以小博大。第三方OpenCompass综合测评总分中，700亿以下参数基座模型中文数据集排名第一。

实现长文本中“大海捞针”，最长可支持320K token 超长文本，一次性读入一本小说。在三十万文字中任意位置随机隐藏关键信息，对模型进行提问，结果正确。

与此同时，通过AWQ Q4量化技术，模型大小减少70%，推理速度提升30%，可在千元级显卡可以流畅运行，在NVIDIA RTX 3060显卡实测，推理速度31 token/s (约每秒50汉字)。

千元级显卡运行，这在希望尽快利用大模型降本增效的企业面前，非常有吸引力。

傅盛希望自己的业务先用起来，在机器人业务做得比较好的日韩市场，有了大模型的改造，要把人机对话“智障”的痛点给补上。从发布的评测结果来看，日文为JNLI等8项评测集平均得分；韩文为COPA等4项评测集平均得分；中文英文为OpenCompass对应语言评测集平均得分。

这还不够，傅盛除了证明百亿级“能用”，还需要证明“好用”。

他的思路是，打磨两个方向，检索增强生成（RAG）和Agent。

即所有基于大模型搭建好的应用，想要获取实时数据，都需要建立在检索增强生成（RAG）技术之上，RAG能力微调模型（Orion-14B-RAG）使企业能够快速整合自身知识库，构建定制化的应用。

换句话说，猎户星空通过针对知识边界控制、问答对生成、幻觉控制、结构化数据提取等能力进行专项微调，要使之成为最适合开发RAG应用的底座模型。

除了RAG，大模型应用可能拓宽的另一条重要路径，便是Agent。傅盛说，猎户星空大模型的Agent应用所需的五项能力包括意图识别、首轮抽参、多轮抽参、缺槽反问、插件调用，都已经接近了GPT-4的水平。

大模型创造了人类历史的第三个科学奇迹年

产品之外，傅盛讲述了他的思考过程。

傅盛讲道，2023是人类历史的第三个科学奇迹年，第一次是1666年，牛顿开辟光学，创立微积分推导出引力公式，第二次是1905年，爱因斯坦发表狭义相对论、质能方程等四篇论文，第三次就是现在，2023年，GPT引领AI浪潮，技术的底层范式发生了重大变化。

“底层范式正在改变，智能和技术“涌现”，新的创新机遇开启”，傅盛提到，AI将带来整合社会的底层重构，只靠勤奋，没有办法让自己NB起来，同质化的勤奋只会更卷，不同的道路才可能胜出。

“卷的思维模式是Think Better，创新的思维是 Think Different”，他认为，Think Different是创新的不二法门。

傅盛对ChatCPT出现的时刻记忆犹新，那天是2022年11月30日，他当时正在美国，ChatCPT横空出世，震惊世界，AI进入2.0时代，彻底开启生产力革命。

当这一切发生，傅盛不停思考，什么才是属于自己的Think Different，在千家万户都做大模型的时候，他就在想，训练千亿大模型是必须的吗？训练千亿大模型本质上是资本的投入，一次训练，上千万美金，数月周期，是不是值得？

他没有听团队的劝说，最关心的点依旧放在了如何做场景落地。

超越OpenAI的机会来自大模型应用公司

傅盛和金沙江创投董事总经理朱啸虎曾有过一个争论，争论的核心在于，大模型到底是不是创业者的机会。

傅盛坚定的认为，硅谷已经有了人工智能应用一条街，这是属于应用的时代，属于创业者的机会，每个人都应该乘势而上。

他还给出路径，把企业用AI总结成三个段位：

第一，青铜，大家都要用。考察每个人用大模型的问句时长，每天用多少句话不达标，但发现这个更适合做文案的公司。

第二，黄金，例如公司有一个行政文档，员工守则、请假条例，把它灌到大模型里，问它来公司一年，想请三天假是否可以，或者明天要出差去太原，根据公司的差旅标准，可以报销多少钱的住宿，这一类就是今天被行业内广泛提的“数字员工”。

第三，王者，企业全过程的经营数据由AI参与，使得AI可以直接给你提经营决策，比如今天该不该发布一个产品，哪些费用可以被减少，哪一个地方的工作需要加强。企业最大的成本不是用工成本，而是经营错误的成本，所以企业要想真正用好AI，应该是全流程、全数据化，完成“数字老板”，这件事情必须做到真正的流程重构。

傅盛的结论斩钉截铁，超越OpenAI的机会一定来自应用创业者！

本文系网易科技原创报道，更多新闻资讯和深度解析，关注我们。

标签：

您现在的位置是：首页 > 百科精选 >正文

傅盛的大模型，只做百亿级，这是为啥

猜你喜欢

最新文章