国内的大模型已经冲到了业界最强水平?10 月 17 日,百度世界大会上文心大模型 4.0 的发布引来了一大波关注。现场嘉宾、媒体和很多业内专家提前获得了评测资格,对新版本进行了第一时间的上手评测。
在文心一言的网站上,现在已经出现了文心大模型 4.0 的标签,表面看起来和 3.5 版没有太大区别:
在这里我们要引入一点前置知识:上个版本文心大模型 3.5 已经有了插件(现有 8 种)、多模态理解、生成等能力,通过知识点增强技术实现了对世界知识的熟练掌握。因此,既然说 4.0 版是「迄今为止最强大模型」,我们就不能再用以前过于简单的问题来考验它了。
第1轮PK:理解能力
先看理解能力,这道「中文十级题」目测连网友都会翻车,文心大模型 4.0 的回答简洁明了:
换业界标杆 GPT-4 来回答,它理解并解释了其中幽默的意味,但表示无法确定小明最后买的是几等座:
下面这段话是在一档直播节目上出现的,那时人们评价道:全中国没人听得懂白岩松在说什么。
两个大模型都认为说话人想表达的是:人们都喜爱足球这项运动,不应该因为一小部分人的不喜欢而影响到这种喜爱。不过作为人类,还是得说一句 AI 没有理解「想说声喜爱很难」这种感情。
看起来理解问题的水准上,两种模型水平相近,文心大模型在一小部分问题上有点优势。
第2轮PK:逻辑能力
再看逻辑推理能力,输入一个高考试卷中的物理选择题,文心大模型 4.0 和 GPT-4 都给出了正确的回答:
我们继续问了很多高考的数学题目,结果各有对错,也有些是都答不上来的。总体来看文心 4.0 和 GPT-4 的水平相近。
第3轮PK:生成能力
还有多模态生成,我们直接用同样的指令让两个大模型生成一段视频,文心一言调用「一镜留影」插件,直接输出了结果:
GPT-4 则是调用 CapCut(字节的剪映)插件生成视频内容。需要注意的是,它提示要想生成视频,就必须要与你进行多轮对话,逐步确定好视频脚本(英文的)、屏幕比例等等:
在不断的测试中我们还能看出,如果你Prompt得越仔细,说 AI 话的格式越规整,GPT-4 的表现就相对越好,不过最终也并没有产生决定性的差距。
第4轮PK:记忆能力
为了测试四大能力中的长期记忆能力,我们让文心大模型 4.0 阅读一篇贴吧的帖子:在崩铁更新了 1.4 版本之后,有人从自己专业的角度对剧情进行了一长段吐槽,那么这评价合理吗?
文心认为游戏剧情不需要完全按照现实世界的逻辑来展开。我不是很认同,我就是想要符合现实逻辑的剧情:
能不能再跌宕起伏一点?
再尝试替换其中的一个人物:
看起来,文心大模型4.0可以在保持原始知识的情况下,与人在不断对话的过程中生成、提炼出你想要的内容。
还有一些我们经常会用得到的功能。在ChatGPT出现后,越来越多的人开始尝试使用大模型帮忙来润色论文,据说 AI 写论文看起来很有功底,一般人还真比不上。我们用一段著名的发言试一下: |