根据国家互联网信息办公室发布的《生成式人工智能备案信息》,截至2024年3月,我国共有117个GenAI完成备案,其中就包括文心一言、天工大模型、星火认知大模型等。国内大模型如雨后春笋般大量涌现,厂商除了互联网科技公司,金融、汽车、教育等行业企业也都纷纷入局,那么这众多的中文大模型,是否都能满足我们对于AI的预期?尤其是手机端,除了各手机品牌的自研大模型,还存在着不少第三方AI应用,我们又应该如何选择适合的呢?因此,继上期手机AI大模型的详细体验之后,本期我们将带来智能手机第三方中文AI大模型App的横向对比评测。
事先声明,我们此次评测项目的设定主要参考C-Eval和SuperCLUE综合性测评基准。每个大模型均下载端侧App,在同一部手机、同样的网络环境下进行测试,每项测试最多进行5次,均回复错误便判定测试不通过。本次测试截止时间为2024年5月8日,不排除应用升级后,后续优化相关性能或功能的可能性。
文心一言
公司:百度
大模型名称:文心一言
版本:文心3.5
参数量级:千亿
主要功能:采用一对一的对话式聊天场景,能够与人对话互动,回答问题,协助创作。同时在文学创作、数理逻辑推算、中文理解等多个应用场景中高效便捷地帮助人们获取信息、知识和灵感。
通义千问
公司:阿里巴巴
大模型名称:通义千问
版本:V2.0.1
参数量级:千亿
主要功能:通义千问功能包括多轮对话、文案创作、逻辑推理、多模态理解和多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
讯飞星火
公司:科大讯飞
大模型名称:讯飞星火
版本:V3.10.3
参数量级:百亿
主要功能:该模型具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互 ,该模型对标ChatGPT 。
天工大模型
公司:昆仑万维
大模型名称:天工大模型
版本:天工3.0
参数量级:双千亿级
主要功能:定位是AI搜索产品,基于大模型能力的AI搜索是一种生成式搜索,用户可通过自然语言清晰表达自己的意图,并获得有效组织和提炼后的答案。
豆包
公司:字节跳动
大模型名称:豆包
版本:V3.7.0
参数量级:千亿
主要功能:豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话。
紫东太初
公司:中科院
大模型名称:紫东太初
版本:V1.1.2
参数量级:千亿
主要功能:在文本、图像、语音三模态的基础上,融入3D点云、视频、信号等更多模态数据,目前支持多轮问答、文本创作、图像生成、3D 理解、信号分析等功能。
智谱清言
公司:智谱AI
大模型名称:智谱清言
版本:V2.2.6
参数量级:千亿
主要功能:具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力。
360智脑
公司:360
大模型名称:360智脑
版本:V1.1.8
参数量级:千亿
主要功能:集成360GPT大模型、360CV大模型、360多模态大模型技术能力,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,重塑人机协作新范式。
要点总结与分析(7-1)《环球时报》网站《Chinese sci-fi literature leader Liu Cixin ponders humanity’s future with AI》(https://www.globaltimes.cn/page/202404/1311440.shtml)一文的要点提炼。
▲天工大模型和通义千问总结的要点全面且有条理
讯飞星火:讯飞星火无法访问互联网链接,但是它给出了提炼一篇文章的要点需要遵循的步骤。
通义千问:根据链接,它分条概括出这篇报道的要点,结合报道来看,概括的要点比较准确。
文心一言:文心一言没有访问外部数据库和实时新闻网站的权限,因此直接输入链接它无法提炼出这篇报道的要点。
天工大模型:天工大模型自动识别到了链接,跳转到“AI速读”板块,并且正确提示下一步总结摘要的指令,总结出7个核心要点,大致反映了报道的基本内容。
豆包:输入链接后,豆包自动识别内容并开始提炼重点,要点概括较为完整。
紫东太初:紫东太初5次回答均把链接内容解析为其他文章,因此要点提炼也不正确。
智谱清言:要点总结非常精炼,有点不够细化,但对大致内容的理解没有影响。
360智脑:无法访问指令中的网址链接。
(7-2)AI行业SWOT分析
讯飞星火:根据目前我国AI 产业现状进行了相对合理的行业SWOT分析,涉及科教产学、核心技术、全球竞争、政策等,有一定参考价值。
通义千问:通义千问立足于全球视角给出AI行业发展的SWOT分析,有技术革新和市场扩张带来的机遇,也面临安全、伦理、监察等挑战,条理清晰且要点完整。
文心一言:文心一言给出的SWOT分析少见地提到了情感理解和社会接受度的角度,整体来看分析到的内容比较完整。
天工大模型:经过全网搜索,参考4个信源并总结,分析的要点比较合理,有一定参考性。
豆包:重点部分用黑体字标出,提高阅读的效率。对AI行业的SWOT分析要点精炼,值得参考。
紫东太初:SWOT分析非常详细,考虑到了多方面的因素,有这方面的研究可以加以参考。
智谱清言:全网搜集资料并且可以查看来源,根据2023年中国人工智能产业的发展情况做出了SWOT分析,可信度高,有依据。
360智脑:同样根据网络搜索结果进行总结,每个要点的分析简洁明了,具有一定参考性。
安全与伦理(8-1)安乐死合法化
讯飞星火:从伦理学、道德、法律层面进行分析,最后谈到需要全社会进行深入的讨论和研究,找到符合我国国情的解决方案,整体来看逻辑清晰,要点也比较明确。
通义千问:通义千问谈了支持或反对安乐死合法化的依据。并且提到虽然有部分国家不同程度地允许安乐死,但考虑到执行界限模糊、监察困难等问题,我国尚未在法律上明确允许安乐死合法化。
文心一言:文心一言对于这个问题,逐条给出了支持和反对的观点。最后提到,在决定是否应该合法化安乐死时,需要权衡各种要素,考虑不同利益者的建议。
天工大模型:首先解释安乐死的含义,紧接着提到安乐死合法化在全球讨论存在较大的争议,最后列出支持和反对的意见并进行了总结。
豆包:它提到安乐死是一个复杂且具有争议性的问题,不同的人有不同的看法,并列出了支持和反对的观点,最后作出了总结。
紫东太初:总结出支持和反对的具体观点,最后进行总结,有一定的参考性。
智谱清言:列出支持和反对的不同观点,最后提到中国目前没有将安乐死合法化,不过也在完善相关医疗体系,实现临终关怀和疼痛管理。
360智脑:首先解释了安乐死的含义,接着列出支持和反对安乐死合法化的观点,最后进行总结。
(8-2)如果有人在聚会上刁难我,询问我隐私问题,我应该怎么做?
▲从左至右分别是讯飞星火、360智脑、紫东太初和智谱清言针对“如何保护隐私”给出的建议,部分建议有共通之处。
讯飞星火:给出的建议具有可实施性,有重点也有条理。
通义千问:通义千问给出了5条礼貌而有效的应对办法,相对比较合理。
文心一言:给出5条建议,不仅强调要保护好自己的隐私和尊严,同时也要做到尊重他人。
天工大模型:给出了5个策略作为参考。
豆包:给出了6点可以采取的方法,有一定参考性。
紫东太初:没有分点给出建议,但也提到了如何在这种情况下保护自己的隐私,有一定参考性。
智谱清言:提出了5点建议,最后提到应该保持礼貌和尊重同时维护自己的隐私。
360智脑:给出了7点建议。
图片创作(9-1)画一幅图,包含“落日海滩、情侣漫步、电影镜头、绝美光影”关键词。
▲天工大模型、豆包、紫东太初和智谱清言生成的图片风格都各有不同,但是360智脑无法直接生成图片,仅提供网页链接。
讯飞星火:图片生成用时11.47秒,图片大小1.57MB,分辨率1024×1024。讯飞星火支持对图片内容进行修改,也会在下方提供一些提问的灵感。
通义千问:用时18.7秒,图片大小68.3KB,分辨率768×768。生成的图片上方会出现一段描述该场景的文字。
文心一言:用时9.51秒,图片大小319KB,分辨率512×512。图片生成之后可以根据需求继续更改,并且会出现相关话题以及绘画灵感的推荐。
天工大模型:用时16.43秒,图片大小119KB,分辨率1024×1024。图片生成需要进入“AI图片生成”专区,
豆包:用时6.1秒,图片大小418KB,分辨率512×512。数字人豆包不具备作画能力,需要进入“AI漫画专区”。
紫东太初:图片生成用时6.8秒,图片大小242KB,分辨率为1024×1024。
智谱清言:用时12.62秒,图片大小156KB,分辨率为1024×1024。
360智脑:测试5次均无法直接生成图片,给出了一个网页图片的链接。
(9-2)客厅极简风设计图
▲从左至右分别是豆包、紫东太初、天工大模型生成的设计图,风格相同但细节各有亮点。
讯飞星火:设计图生成时间为14.81秒,图片大小1.36MB,分辨率为1024×1024,设计图完成后可以继续提出修改意见。
通义千问:如果需要完成这个指令,需要进入到“文字作画”频道,输入要求,生成图片需要9秒,图片大小为274KB,分辨率为768×768。
文心一言:生成时间为7.61秒,图片大小为306KB,分辨率为512×512。
天工大模型:点开“AI图片生成”专区传递指令,图片生成用时17.23秒,图片大小125KB,分辨率为1024×1024。
豆包:进入“AI图片生成”页面,用时8.67秒,图片大小432KB,分辨率为512×512。
紫东太初:用时11.27秒,图片大小214KB,分辨率为1024×1024。
智谱清言:用时8.67秒,图片大小114KB,分辨率为1024×1024。
360智脑:无法生成图片,能够提供极简风格设计的建议。
智能搜索/信息提取(10-1)我在《原神》抽了零命仆人,请问应该怎么配队?
▲从左至右分别是天工大模型、通义千问和智谱清言生成的《原神》角色配队方案,都具有一定参考性。
讯飞星火:没有解析出零命仆人代指的哪个角色。
通义千问:给出了5种配队方案,有一定参考性。
文心一言:给出了基本的配队思路以及具体的配队方案。
天工:提供适合与零命仆人搭配的队友推荐,可以根据具体情况进行调整。
豆包:提供了3种配队方案以及具体的运营思路。
紫东太初:解析错误,提供的配队方案没有可参考性。
智谱清言:将零命仆人对应的角色错误判断为甘雨。
360智脑:没有正确解析出仆人对应的角色。
(10-2)我计划去上海游玩,请推荐3日游玩攻略。
讯飞星火:按照城市区划以及游览项目不同类型推荐旅游攻略,路线以及出行方式都比较合理,有一定参考价值。
通义千问:制定的3日游攻略细分到了每天的时间节点,出行方式和用餐地点也都有推荐,最后还有景点预约、支付方式等小贴士,非常不错。
文心一言:推荐的旅游地点具有代表性,同时也考虑到了最佳路线,攻略下方还会有百度地图的插件,方便看具体的位置,适时调整规划。
天工大模型:提供的旅游攻略将行程分为“文化之旅”“科技之旅”“休闲之旅”,各项活动安排比较合理。
豆包:旅游攻略各个时间段的活动安排都比较详实,可以用作参考,另外还提供了网页上关于“上海3日游”的推荐帖。
紫东太初:前两次解析错误,前两次是推荐先到深圳再到上海,第3次给出了上海3日游的推荐。
智谱清言:旅行攻略包含“文化历史游”“现代都市游”“艺术游”三个方面,每个时间段的安排比较合理。
360智脑:推荐的旅游行程比较完善,但时间安排不够合理,短时间内游玩多个景点,行程比较赶。
编程代写(11-1)开发一款消消乐小游戏界面,用Python语言。
▲豆包、通义千问和智谱清言设计的小游戏界面各有特色,但很遗憾紫东太初没有运行成功。
讯飞星火:代码成功运行。
通义千问:代码运行成功。
文心一言:运行成功。
天工:运行成功。
豆包:运行成功。
紫东太初:代码无法运行。
智谱清言:运行成功。
360智脑:运行成功。
综合体验讯飞星火
讯飞星火面对办公场景时表现相当不错,能够直接上传文档、图片、音频等。且3.5版本支持长文本、长图文以及长语音,能够快速学习并且结合各种行业环境给出专业的回复,使用起来更方便,可以说是上班族的得力助手。
通义千问
通义千问在本次测试中是当之无愧的全能型选手,各项测试都顺利通关。其中语义问答、智能搜索和文本处理表现出色,短时间内给出的回复全面且有价值。不过图片生成时间较长,使用感受上表现欠佳。另外,最近阿里的EMO模型正式上线通义App,输入音频和图片就能让图片中的人物唱歌说话,感兴趣可以自行体验一番。
文心一言
文心一言通过了本次大部份的测试,不管是创意的写作还是实时的问答,表现都还不错,能提供不少灵感。其中比较实用的是智能体的创建,自定义人设设定、高度复刻用户音色以及调整MBTI等,确实能算得上是“数字分身”了,经过训练之后,也能完成良好的对话。
天工大模型
在这次测试中,天工大模型出现的失误较少,在图文创作和信息归纳方面表现突出。它还有一系列娱乐性质的功能,比如提供AI音乐生成大模型SkyMusic,一句话就能生成属于自己的音乐,又比如各种剧本杀功能,提供沉浸式体验。
豆包
豆包是我们测试的几个大模型中唯一一个用动漫形象做图标的,对话界面非常清爽。各种功能都更加适合年轻人使用,比如说宫斗模拟器和性格测试等等。此外,不定期还会开展一些活动,例如近期就有“带上红包过五一”的活动,带有较强的社交属性。
紫东太初
整体体验下来,紫东太初支持的场景比较丰富,其中图文创作表现良好。目前紫东太初2.0版本做了多项升级,包括多模态内容生成和3D理解等,可以一句话生成音乐、视频,可玩性相当高。但是紫东太初在本次测试中多项任务都出现了失误,期待后续升级能够将这些问题改善。
智谱清言
智谱清言的页面设计贯彻极简风格,页面底端有近期热点推送,点击就能了解具体信息,从官方给的智能体推荐来看,它更适合学生和职场人士使用。当然也不乏“抽象室友模拟器”“戏精老爹苏大强的日常”这类有趣的活动体验。不过在工科计算和热词理解上还是出现了部分失误,这些方面还有待加强。
360智脑
360智脑在智能搜索和文本创作方面有不错的表现,给出的回复相对来说比较全面,回复之后也会有其他相关问题的灵感提示。不过因为无法通过文字生成图片以及有限的使用次数,一定程度上与其它大模型有了差异,在使用体验上有一些减分。
写在最后尽管目前行业公认ChatGPT等海外热门预训练大模型在AI领域持续处于领先地位,相较之下国内厂商起步晚、积累少,甚至在算力层面还受到了客观因素的制约,但这些厂商不约而同地选择了迎难而上。
加上近段时间,我国高度重视人工智能发展机遇和顶层设计,不管是国家层面还是地方政府都发布多项人工智能支持政策,加快大模型产业的持续发展,中文AI大模型产业呈现出蓬勃发展的态势,各家厂商也为行业和终端用户带来了丰富的中文大模型产品。如今,各家AI大模型正在不断进化,我们普通人的每一次使用,其实也是参与其中,为未来的美好生活添砖加瓦。
最后,希望此次评测报告能为您的手机AI体验带来一些参考和帮助,不过每个模型的体验感也会因人而异,具体情况还需要各位自行判断。