admin管理员组

文章数量:1559073

移动互联网有 12 亿用户,ai 头部产品却只有百万量级的日活。

作者 | 王启隆

责编 | 唐小引

出品丨ai 科技大本营(id:rgznai100)

北京时间 5 月 30 日,基于混元大模型的 c 端 app「腾讯元宝」正式上线,各大应用商店一早就开放了下载,这款应用瞄准了大家在工作效率场景中的核心需求:信息获取 — 处理 — 生产,对应了其主打的 ai 搜索 ai 总结 ai 写作 三大功能,深度贴合每个人的实际生活。

csdn 现场参加了「元宝」的媒体沟通会,腾讯云副总裁、腾讯混元大模型负责人刘煜宏发表演讲,同时做了不少的演示。

这次真正主打的核心功能是 ai 搜索,腾讯其实在搜索上有着相当久远的历史。除了大家现在熟悉的微信搜一搜,腾讯还有搜狗搜索,其前身是“门户时代”的 soso,至今已经有了 18 年的历史,可谓时代的眼泪。现在结合了 ai 技术增强,既有传统的稳定性,又有更智能的生成答案,问它电视剧都能答上来:

元宝的最大特色是深度整合了腾讯自家的微信生态资源,特别是微信公众号这一内容丰富的平台 —— 基于公众号的搜索,全网只有这一家。前阵子谷歌 ceo 才说 ai 搜索“幻觉”问题无法解决,所以腾讯规避问题的方式也很简单粗暴,因为它很多时候做的不完全是搜索,而是对自己搜索到的公众号进行了总结。

我们这就考考元宝,看它认不认识 csdn 最新上市的《新程序员 007》:

这题不难,只要读了标题就能解出来。

接下来再考考元宝,看它读没读文章内容:

看来,只要是公众号上面的知识,都难不倒它了。

在 ai 总结方面,元宝可上传最多 10 个 pdf、word、txt 等多种格式的文档,并能够一次性解析多个微信公众号链接、网址。刘煜宏介绍元宝拥有 256k 的原生窗口上下文,这相当于一本《三国演义》,或是英文原版的《哈利波特》全集。

这段时间“ai 教母”李飞飞创业的事特别火,而她创业前其实还在斯坦福以人为中心的人工智能研究所(hai)发布了一篇年度报告,我们先前做过公众号文章,看看元宝能否总结这份图文并茂的报告

到了 ai 写作这块儿,刘煜宏强调了元宝的多轮问答能力,甚至表示元宝能够将对话的内容整理成报告,按照要求进行结构化输出,大大提升信息从获取到处理再到生产的效率。

创意写作现在似乎已经成为了各大通用模型的“基本功”了,所以我更想测试它有趣的文生图能力。点开 app 上方的「发现」一栏,我发现元宝预设了一堆琳琅满目的智能体。现在我想绘画,所以选择了「创意绘画」:

先来一张像素风的城市落日图:

在这个预设的智能体里面,我还可以进行风格切换和比例设置,值得点个赞。

切换成「油画」风格和 16:9 比例之后,我又让元宝生成了一张城市落日图:

智能体的效果还是相当不错的。刘煜宏在沟通会上表示,腾讯之前已经推出过了“元器”这样的创作者工具平台,鼓励开发者、企业乃至普通用户自行创建个性化的智能体。目前,腾讯的产品策略着重于早期阶段的内部需求满足和用户体验的提升。所以,未来元宝不会再推出太多的预设智能体,而是通过智能体创作平台的开放和腾讯插件的支持,鼓励开发者自主构建智能体,实现技术的广泛应用。

下面,让我们进一步了解元宝还有哪些秘密。

脱胎换骨

元宝背后的混元目前有多强?刘煜宏给出了一个数字:自发布以来,混元模型的性能提升了 50%

参数方面,千亿升级到了万亿。

训练和推理框架上,腾讯自研的机器学习平台训练速度是主流框架的 2.6 倍,大模型推理成本相比业界主流框架下降 70%。此外,预训练语料还从万亿升级至了 7 万亿 tokens。

算法上,稠密模型已经演变为时流行的 moe(专家混合网络),参数量和处理的 tokens 数量分别增加了十倍和七倍,显示了技术上的重大突破和优化。这些优化不仅提升了系统的吞吐量,也降低了能耗。

在多模态方面,五月份开源的腾讯混元文生图大模型是全球首个中文原生 dit 架构模型,也就是 sora 带火的同款架构,生成效果相比上代提升超 20%。刘煜宏透露,在 sora 出现之前,腾讯自研的视频生成能力在业内“遥遥领先”,但随着二月份那个惊奇演示之后,混元也随之更换了架构。如今,混元文生图大模型在 github 累积了 2000 star,前文也演示了元宝在这个文生图模型的加持下展示的创作能力。

github:https://github/tencent/hunyuandit

hugging face:https://huggingface.co/tencent-hunyuan/hunyuandit

此外,腾讯混元大模型在视频、3d 生成等方面也持续探索,目前已经支持 16s 视频生成,单图仅需 30 秒即可生成 3d 模型,相关能力也将于后续在元宝中上线,这点十分值得期待。

应用场景从哪找?

“腾讯做大模型不争一时之先。”

刘煜宏在沟通会上一直强调腾讯的“慢战略”,而这段时间,他们真正的工作是“看”,也就是洞察用户的真实需求

自 2022 年 chatgpt 发布以来,大模型领域异常火爆,频繁传出各种产品突破性进展的新闻。我们最经常看到的标题可能就是“超越 gpt-4”,“xx 评测榜单再度刷新” …… 但是,这股热潮被局限于一个“圈”内,并没有被普罗大众所感知到。

按照刘煜宏的说法,现在中国移动互联网有超过 12 亿的用户,其中不乏大量对互联网十分熟悉的群体,如大学生、互联网从业者和职场人士,这部分核心用户群体估计有数千万之众,然而大模型 ai 应用的实际日活跃用户(dau)总量去除重复后,即使各家公司声称有数十万至数百万不等,综合起来也不过百万量级,这意味着在整个互联网用户群中的渗透率低至不足 1%

通常的说法是“蓝海市场很大”,但我们也可以用两个字形容这种现象:“自嗨”。

对于广大普通用户而言,这些 ai 资讯显得相对遥远且缺乏实际感知。大模型仍在发展期,产品九游会下载的解决方案不成熟,且大家对 ia 应用的认知仍集中在搜索/效率(文本提炼、总结、创意文案)等比较窄的探索 —— 没人知道怎么用 ai

刘煜宏透露,有很多企业高管对 ai 应用的第一想法还是“智能客服”。

沉寂了一年之久的混元,既不刷榜也不主动参加评测,而是慢慢的寻找却在 15 号突然全面开源了文生图大模型,后续参加了激烈的“国产大模型价格战”。

为什么腾讯会这么晚“参战”?其实,我们不需要考虑这个问题,答案事实上很简单:因为他是腾讯。

这家社交帝国除了火急火燎地追赶 openai 以外,还有第二条路可走。依靠它在移动互联网时代打下的“江山”:微信、qq 积累的庞大用户规模,从“跳一跳”开始火遍全国的小程序生态,无数公众号交织起来的优质内容宝库,甚至是腾讯视频正在热播、被用于元宝 app 演示的《庆余年 2》,都映现了这道江山的风貌。

现在,让混元大模型赋能这一切,就能立刻实现 sam altman 口中的那种“魔法”(magic)。腾讯并不需要做出一个 sota,他们现在就可以端出一套完整的、基于移动互联网时代应用的“ai 生态”。

目前,腾讯内部有超过 600 个业务正式采用了混元大模型技术,日调用量已超过 2 亿次,这一数据早前就已经达到,并持续保持高位;相较于最初仅有少数产品尝试,实现了快速扩张。通过大模型的应用,腾讯内部提升了约 20% 的整体工作效率,特别是在代码生成方面,约有 23% 的代码是由 ai 自动生成的,省下了四分之一的人力。

腾讯的兵法,是“徐徐图之”。

开发者正在迎接新一轮的技术浪潮变革。由 csdn 和高端 it 咨询和教育平台 boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料(案例)的内容原则,将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题:大模型智能应用开发、软件开发智能化、ai 与 ml 智能运维、云原生架构……详情👉:http://sdcon/

本文标签: 腾讯