随着ChatGPT的爆火,几乎所有大厂都争先恐后地入局了AI助理赛道。
8月17日,抖音开始对外测试AI对话产品“豆包”,并上线了相关APP;2023年8月31日,文心一言率先向全社会全面开放。10月30日,阿里云旗下大模型通义千问 App 现已上架各大安卓应用市场。
在互联网大厂里,腾讯无疑是最淡定的那个。直到今天,腾讯才宣布基于混元大模型的App“腾讯元宝”正式上线。这个时间几乎比其他大厂晚了整整半年之久。
在元宝上线的第一时间,我们就上手用了用,发现这个产品有很多值得一说的地方:
产品优点很鲜明,风格很腾讯,页面给人一种舒服的感觉,AI搜索也加上了公众号这个国内最好的信息源。但不足之处是,作为一个刚刚推出的产品,搜索、文档识别等很多功能受限于理解能力等因素,很难精准把握用户需求,离市面上迭代过好几轮的产品仍然有一定差距。
/ 01 / 元宝很“腾讯“
打开产品,元宝的初始页面很简洁,除了对话页面外,上方只有一个“发现”栏目,里面是各种各样的智能体或者AI工具,比如口语陪练、AI头像等等。
在对话框上方有四个选项,分别对应着当下AI助手最常见的4个应用场景:AI搜索、文档总结、网页总结以及AI作图。
相比之下,其他AI助理的产品设计要更加复杂。比如,通义千问的主页面会将其他AI应用拆分出工具、角色和频道;再比如,豆包和文心都会将创造智能体,放在主页面的底部,作为一级入口。
这样的设计理念,也符合外界对腾讯系产品的印象:简洁、聚焦用户体验,没太多花里胡哨的东西。
/ 02 / AI搜索:公众号兜底,理解能力拖后腿
在官方介绍里,AI搜索是元宝的一个特色,也是我很关心的一个点。
在AI搜索里,有两个能力很重要,一个是推理能力,能不能真正用户的搜索意图;另一个是信息源,信息源的质量直接关系到搜索结果的好坏。现在AI搜索的信息源几乎大同小异,缺失了微信公众号这一国内信息质量最高的平台。而这恰恰是元宝最大的优势。
为了更好地测试元宝的AI搜索,我向元宝提了一个问题:如何看待GPT4o发布的意义?在参考11篇资料后,元宝给出了这样的回答:
好的地方是,11篇引用资料中,有4篇文章来自公众号。不仅如此,在回答的底部,元宝还特地推荐了很多与问题相关的内容。我看了一下,这些内容几乎全部来自公众号。
这证明了一件事情:在元宝搜索的信息源中,确实把微信生态里的内容加进来了。
不好的地方是,即使有微信内容生态的加持,相比其他AI助手,元宝给出回答谈不上出色,只能算是中规中矩。
同样的问题,Kimi给出的回答,把GPT4o的特点说明得更清楚,信息量也更大,甚至能够把GPT4o的低延迟与智能硬件发展结合起来。
如果降低一下问题的难度,把“为什么”改成“是什么”?元宝在回答上的表现要更好一点。比如,当我问元宝“Suno V3.5版本有哪些特点”,元宝就能给出不错的回答:
对比之下,这个回答明显优于通义千问,与Kimi几乎不相上下。
通义千问
Kimi
最后,我又问了元宝一个问题:过去几年中国人口变化?元宝给出了这样的回答:
元宝将这个问题,理解成三个信息:人口总量变化、人口结构性变化、人口变化的原因。看上去回答很详细全面,但忽略了一个细节,我问的是过去几年,而元宝给出的人口数据只有2023年的。
再来看通义千问,不仅结构性不如元宝,也没有人口的确切数据,更多在阐述过去两年人口变化的情况。
最后来看Kimi,不仅给出了过去三年人口的确切数据,也把每一年的变化说得清清楚楚,另外也有年龄结构、地区分布等结构性变化信息。
总体来说,元宝的AI搜索优劣势非常明显,优势是拥有公众号这个优质信息源,劣势是搜索的推理能力不太理想,很难精准筛选出用户想要的信息。
换句话说,公众号能够保证元宝AI搜索的下限,但想要最大程度地发挥公众号的信息源优势,元宝还要做更多的努力。
/ 03 / 文档总结:抓重点能力有待提升
接下来,我又对元宝的文档总结能力做个一个测试,把启明创投和未尽研究共同发布的《2023生成式AI洞察报告》,同时给了元宝、通义千问和Kimi。
结果嘛,怎么说呢,有点不尽如人意,直接来看结果吧。
这是元宝给出的回答:
回答的问题在于,概述总结的4个点完全是复制文档里的4个章节,每个部分内容比较泛泛,导致信息量很有限。作为用户来说,只能看到报告覆盖的大致内容,却看不到任何有价值的观点。作为文档总结来说,多少有些不合格。
再来看看通义千问的表现,它自行对报告总结了7个部分,每个部分又有2-3个关键点的展开,这些关键点并不是泛泛的概括,而是都有具体的观点。
而Kimi没有总体的概括,选择直接给出报告里最重要的12个关键点,每一个关键点都给出明确的观点。
总体来说,元宝的文档总结仍然停留在内容讨论的方向,很难从中抽离出其中重要的观点,相反无论是通义千问还是Kimi在这方面已经轻车熟路。
举个例子,三个总结都有讲到报告中中美欧有关人工智能监管的内容,但元宝只能给出中美欧在人工智能监管和立法方面的进展,而通义千问和Kimi都明确提到了,中欧美正在加快AI监管和立法的进程,甚至通义千问还给出各自的进展。
/ 04 / 图片识别能力:有错误,也有亮点
最后,我们来测试下元宝对图片的识别能力,分别上传同一张图片,让它识别出图片中包含的内容。
我先是问了元宝,能够从图片中看到什么。元宝能够基本识别出图片里的内容,但仍然有两个错误,一是侧躺说成了仰面,二是被子说成了衬衫。当我更进一步询问这个人是谁,元宝能够准确回答卷福的名字。
而Kimi无法识别这张图片,我把同样图片和问题给了通义千问。通义千问的回答更加准确,也有很多呈现了细节,比如侧脸、毯子、伤疤。但当我询问这个人是谁,通义千问却没办法给出准确的名字。
/ 05 / 总结
作为腾讯姗姗来迟的AI助理产品,元宝从风格上延续了腾讯产品相对简洁的风格,功能上与现有AI助理产品基本相似。
最大的特色在于,元宝将微信内容生态正式纳入了AI搜索的信息源。在信息搜索过程中,公众号内容的价值也有所体现。尽管有着这个全网最优的信息源,但元宝却被推理能力上拖了“后腿”, 导致很难精准筛选出用户想要的信息。这是元宝后续需要提升的地方。
同样在文档识别里,元宝也很难筛选出有价值的观点,与通义千问、Kimi等产品还有差距。在图片识别上,元宝尽管会出现部分事实错误,但面对图片信息的延伸问题时,仍然能够给出准确的回答,这一点实属难得。
总体来说,作为一个刚刚推出AI助理产品,元宝仍然有很多需要提升的地方。不过考虑到微信公众号生态的加持,相比其他AI助理,元宝仍然拥有足够的差异化和更高的上限,这也让我们对元宝后续的表现有了更多的期待。
原文标题 : 姗姗来迟!腾讯AI助理初体验:公众号加持下的元宝,差距与潜力并存