姗姗来迟！腾讯AI助理初体验：公众号加持下的元宝，差距与潜力并存

随着ChatGPT的爆火，几乎所有大厂都争先恐后地入局了AI助理赛道。

8月17日，抖音开始对外测试AI对话产品“豆包”，并上线了相关APP；2023年8月31日，文心一言率先向全社会全面开放。10月30日，阿里云旗下大模型通义千问 App 现已上架各大安卓应用市场。

在互联网大厂里，腾讯无疑是最淡定的那个。直到今天，腾讯才宣布基于混元大模型的App“腾讯元宝”正式上线。这个时间几乎比其他大厂晚了整整半年之久。

在元宝上线的第一时间，我们就上手用了用，发现这个产品有很多值得一说的地方：

产品优点很鲜明，风格很腾讯，页面给人一种舒服的感觉，AI搜索也加上了公众号这个国内最好的信息源。但不足之处是，作为一个刚刚推出的产品，搜索、文档识别等很多功能受限于理解能力等因素，很难精准把握用户需求，离市面上迭代过好几轮的产品仍然有一定差距。

/ 01 / 元宝很“腾讯“

打开产品，元宝的初始页面很简洁，除了对话页面外，上方只有一个“发现”栏目，里面是各种各样的智能体或者AI工具，比如口语陪练、AI头像等等。

在对话框上方有四个选项，分别对应着当下AI助手最常见的4个应用场景：AI搜索、文档总结、网页总结以及AI作图。

相比之下，其他AI助理的产品设计要更加复杂。比如，通义千问的主页面会将其他AI应用拆分出工具、角色和频道；再比如，豆包和文心都会将创造智能体，放在主页面的底部，作为一级入口。

这样的设计理念，也符合外界对腾讯系产品的印象：简洁、聚焦用户体验，没太多花里胡哨的东西。

/ 02 / AI搜索：公众号兜底，理解能力拖后腿

在官方介绍里，AI搜索是元宝的一个特色，也是我很关心的一个点。

在AI搜索里，有两个能力很重要，一个是推理能力，能不能真正用户的搜索意图；另一个是信息源，信息源的质量直接关系到搜索结果的好坏。现在AI搜索的信息源几乎大同小异，缺失了微信公众号这一国内信息质量最高的平台。而这恰恰是元宝最大的优势。

为了更好地测试元宝的AI搜索，我向元宝提了一个问题：如何看待GPT4o发布的意义？在参考11篇资料后，元宝给出了这样的回答：

好的地方是，11篇引用资料中，有4篇文章来自公众号。不仅如此，在回答的底部，元宝还特地推荐了很多与问题相关的内容。我看了一下，这些内容几乎全部来自公众号。

这证明了一件事情：在元宝搜索的信息源中，确实把微信生态里的内容加进来了。

不好的地方是，即使有微信内容生态的加持，相比其他AI助手，元宝给出回答谈不上出色，只能算是中规中矩。

同样的问题，Kimi给出的回答，把GPT4o的特点说明得更清楚，信息量也更大，甚至能够把GPT4o的低延迟与智能硬件发展结合起来。

如果降低一下问题的难度，把“为什么”改成“是什么”？元宝在回答上的表现要更好一点。比如，当我问元宝“Suno V3.5版本有哪些特点”，元宝就能给出不错的回答：

对比之下，这个回答明显优于通义千问，与Kimi几乎不相上下。

通义千问

Kimi

最后，我又问了元宝一个问题：过去几年中国人口变化？元宝给出了这样的回答：

元宝将这个问题，理解成三个信息：人口总量变化、人口结构性变化、人口变化的原因。看上去回答很详细全面，但忽略了一个细节，我问的是过去几年，而元宝给出的人口数据只有2023年的。

再来看通义千问，不仅结构性不如元宝，也没有人口的确切数据，更多在阐述过去两年人口变化的情况。

最后来看Kimi，不仅给出了过去三年人口的确切数据，也把每一年的变化说得清清楚楚，另外也有年龄结构、地区分布等结构性变化信息。

总体来说，元宝的AI搜索优劣势非常明显，优势是拥有公众号这个优质信息源，劣势是搜索的推理能力不太理想，很难精准筛选出用户想要的信息。

换句话说，公众号能够保证元宝AI搜索的下限，但想要最大程度地发挥公众号的信息源优势，元宝还要做更多的努力。

/ 03 / 文档总结：抓重点能力有待提升

接下来，我又对元宝的文档总结能力做个一个测试，把启明创投和未尽研究共同发布的《2023生成式AI洞察报告》，同时给了元宝、通义千问和Kimi。

结果嘛，怎么说呢，有点不尽如人意，直接来看结果吧。

这是元宝给出的回答：

回答的问题在于，概述总结的4个点完全是复制文档里的4个章节，每个部分内容比较泛泛，导致信息量很有限。作为用户来说，只能看到报告覆盖的大致内容，却看不到任何有价值的观点。作为文档总结来说，多少有些不合格。

再来看看通义千问的表现，它自行对报告总结了7个部分，每个部分又有2-3个关键点的展开，这些关键点并不是泛泛的概括，而是都有具体的观点。

而Kimi没有总体的概括，选择直接给出报告里最重要的12个关键点，每一个关键点都给出明确的观点。

总体来说，元宝的文档总结仍然停留在内容讨论的方向，很难从中抽离出其中重要的观点，相反无论是通义千问还是Kimi在这方面已经轻车熟路。

举个例子，三个总结都有讲到报告中中美欧有关人工智能监管的内容，但元宝只能给出中美欧在人工智能监管和立法方面的进展，而通义千问和Kimi都明确提到了，中欧美正在加快AI监管和立法的进程，甚至通义千问还给出各自的进展。

/ 04 / 图片识别能力：有错误，也有亮点

最后，我们来测试下元宝对图片的识别能力，分别上传同一张图片，让它识别出图片中包含的内容。

我先是问了元宝，能够从图片中看到什么。元宝能够基本识别出图片里的内容，但仍然有两个错误，一是侧躺说成了仰面，二是被子说成了衬衫。当我更进一步询问这个人是谁，元宝能够准确回答卷福的名字。

而Kimi无法识别这张图片，我把同样图片和问题给了通义千问。通义千问的回答更加准确，也有很多呈现了细节，比如侧脸、毯子、伤疤。但当我询问这个人是谁，通义千问却没办法给出准确的名字。

/ 05 / 总结

作为腾讯姗姗来迟的AI助理产品，元宝从风格上延续了腾讯产品相对简洁的风格，功能上与现有AI助理产品基本相似。

最大的特色在于，元宝将微信内容生态正式纳入了AI搜索的信息源。在信息搜索过程中，公众号内容的价值也有所体现。尽管有着这个全网最优的信息源，但元宝却被推理能力上拖了“后腿”，导致很难精准筛选出用户想要的信息。这是元宝后续需要提升的地方。

同样在文档识别里，元宝也很难筛选出有价值的观点，与通义千问、Kimi等产品还有差距。在图片识别上，元宝尽管会出现部分事实错误，但面对图片信息的延伸问题时，仍然能够给出准确的回答，这一点实属难得。

总体来说，作为一个刚刚推出AI助理产品，元宝仍然有很多需要提升的地方。不过考虑到微信公众号生态的加持，相比其他AI助理，元宝仍然拥有足够的差异化和更高的上限，这也让我们对元宝后续的表现有了更多的期待。

原文标题 : 姗姗来迟！腾讯AI助理初体验：公众号加持下的元宝，差距与潜力并存

姗姗来迟！腾讯AI助理初体验：公众号加持下的元宝，差距与潜力并存

相关推荐