WPS AI实测:表现很糙,但它有个美好的未来

各位,WPS AI现在已经开放体验了。
目前,你需要先去做一个体验申请,申请二维码见下方:
图片
申请会有审核,通过以后,大概24小时内会有邮件通知。告知你兑换码。
然后,你要来到 AI.WPS.CN ,选择兑换AI权益,还要下载新版本的WPS AI版软件。
图片
AI版本的WPS,给人的第一感觉是清爽。
因为原本密密麻麻的各种第三方附件插件,现在都被压缩到应用里面。
图片
这些在之前版本占据大量UI位置的,现在被归为应用市场。
那么,AI在哪里呢?
首先需要说明的是,目前WPS AI支持的文件包括DOC/PDF/PPT。暂不支持EXCEL。
打开被AI支持的文档,下方红圈处会有WPS AI的入口,点击会打开右边栏的AI助手。
图片
然后,就能让AI基于文档来分析和问答。
这基本上就是一个知识库+远程大模型的应用。
那么,它对文档的分析能力如何呢?
这就要探讨WPS背后的AI了。
图片
根据公开信息,WPS背后的大模型提供者是MINIMAX。
尽管目前市场上对MINIMAX的信息很少。但它曾经在早期的C-EVAL上登榜,后来又低调删除,但一直关注前沿的本实验室有关于它的测评数据:
图片
清华交大联合发布大模型评估排行榜。来看看大模型考试到底结果如何?
可以看到,在上述排行中,MINIMAX是不差的。
另外,Minimax最近拿到了腾讯4000万美金投资,估值超过12亿美金,已经是国内新晋独角兽的水平。
图片
所以,WPS AI检验的不仅仅是金山,还有MINIMAX。
这玩意到底如何,最好还是上手实测;现在我们也能够通过WPS AI来实测了。
DOC/PDF文档篇:
我们测试的范例文档是倪海厦老师的针灸教程,216页,十多万字,应该说对这个AI来说是很难的任务了。
图片
事实上也是这样的,我们问了大概10个问题,不能回答的有4个,答非所问(包括用西医知识回答的)的4个。实际上没按照文章内容回答的2个。能用的几乎没有。
图片
当然,表现不及格,主要是因为考题太难了。
换个简单的:
图片
为了降低难度,我们直接用它自己提供的参考问题:
图片
但是,它的回复答案出现了四轮重复回答。所以,也基本是不及格的。
为什么不及格呢?因为这样的问题,人类通过ALT+F搜索,也是可以很快在文档中找到答案的。如果AI的答案不能比人类搜索精准,那就不必让AI来花时间了。
在上面的测评中,WPS AI的得分很低,那么,有什么是它能干的呢?
PPT篇:
这就要转到PPT的AI功能上了。
还是上面这篇文章,让它帮忙做个PPT大纲。
图片
秒出。
换个问题,让WPS AI生成一个给小学生介绍人工智能的PPT:
图片
也是完全自动生成:
图片
那么,换成科技公司的PPT任务又如何?
图片
结果是这样的:
图片
应该说,大框架都出来了,但细节当然还是要人去补充的。并不是那种后面就不需要人的AI。
总结:
总结一下,WPS AI这次开放体验,只能说是阶段性的。从产品角度,WPS AI只能说是勉强及格;就目前释放的功能来说,对用户帮助很小。
放出来的东西,最大的遗憾是不支持EXCEL的智能数据处理,要知道微软的OFFICE COPILOT在这方面是杀疯了。
文本处理这块,我们必须公正的说,很糟糕。miniMAX这家成立一年多的公司拿出来的大模型虽然C-EVAL评分还行,但想达到办公软件应用级,同志还需努力。
PPT处理这块,应该说守住了底线,但它还可以做得更好。
但从产业角度来看,对WPS和minimax来说,国内办公软件入口几乎是垄断性的,特别是自主科技的要求下,未来和OPEN AI深度打通的OFFICE系列很多领域是不能用的;这些都是WPS AI的护城河和坚实阵地。
只要能交卷,市场就能守住,哪怕60分。
WPS AI、MINIMAX加上腾讯,已经是形成新的AI商业应用联盟;不管怎么说,都算是阶段性的交了答卷;也期待它能够继续进化,至少在中国,它有美好的未来。
大模型测评
BAICHUN拿出了开源7B最强大模型??是的,吹牛最强
五个主流AI比拼广东高考作文,你打几分?
通义千问测评:单看能力没爆点,但它秀出了阿里爸爸
GPT4如期升级!可以搜索,可用插件,来感受单纯的强大吧
昆仑天工模型实测体验:优点不够突出,限制比较明显
【长测】真干活行不行?国产大模型们和chatGPT结合AI绘画的真实工作体验
详测科大讯飞星火大模型(2):进步很明显,短板逐渐浮现
干货满满!非官方正经实测:GPT4出题,文心一言陪测,讯飞星火认知大模型到底行不行?
开源+本地运行!效果最好的中文类CHATGPT大模型平台闻达测评
大模型观察
国产大模型竞赛白热化,国外开源大模型5月份又玩出了什么花样?
清华交大联合发布大模型评估排行榜。来看看大模型考试到底结果如何?
当类chatGPT大模型不再稀缺,新时代应用如何掘金?
大模型走向大白菜化?——对阿里华为京东等国产LLM模型的初步评估观察
OPENAI大面积封号,我们该怎么办?