九方科技实测：文心一言、ChatGPT孰强孰弱

洞察经理人
2023-04-28 21:58:14

作为近年来自然语言处理 (NLP) 技术的集大成者，「ChatGPT」一经推出就引起了巨大的轰动，很多人甚至将其视为真正的人工智能。「ChatGPT」表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。目前「ChatGPT」使用的语言模型是 GPT-3.5。

「ChatGPT Plus」版本的用户可以试用 GPT-4.0。GPT-4.0 是一个大型多模态模型（接受图像和文本输入，提供文本输出）。相较 GPT-3.5主要实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。OpenAI 称，“虽然这两个版本在随意的谈话中看起来很相似，但当任务的复杂性达到足够的阈值时，差异就会出现“—GPT-4.0更可靠、更有创意，并且能够处理更细微的指令。

(资料图片仅供参考)

和「ChatGPT」一样，百度的「文心一言」是一个多模态大模型，包括文学创作、商业文案创作、数理逻辑推算等能力。

那么，这个“中国版的ChatGPT“到底实力如何？九方科技团队对「文心一言」和「ChatGPT」进行了实测，对比一下「文心一言」 VS 「ChatGPT」谁更强。

事件发展

以下为ChatGPT、GPT-4.0、文心一言等推出、逐步进化的事件发展始末，主要帮助读者梳理、了解整个发展脉络。

2022年11月30日，OpenAI推出「ChatGPT」

2022年12月4日，「ChatGPT」已有超过一百万用户。

2023年1月，「ChatGPT」的用户数超过1亿，成为该时间段内增长最快的消费者应用程序。

2023年3月14日，OpenAI 宣布正式发布「GPT-4.0」。

2023年3月16日，百度宣布正式推出基于百度新一代大语言模型的生成式AI产品「文心一言」。

2023年3月17日，申请内测用户开始逐渐收到百度「文心一言」邀请码，用户开始测评。

实际测评

本文选择文心一言、ChatGPT进行测评，对比仅挑选几个AIGC常见业务应用场景的例子，主要展示文心一言与ChatGPT在各方面的差异，大家感兴趣可以去官网申请试用，官网地址附在文末。

1. 文字创作

本次测评分别使用文心一言和ChatGPT来为给定文章生成相对应的评论。

「文心一言」

文心一言：

1）内容更像总结

2）存在字数小于20的情况

3）生成大于5条评论

4）结果输出格式排序混乱，存在重复

「ChatGPT」

ChatGPT：

1）内容更像评论

2）字数均大于20

3）生成5条评论

4）结果输出格式整齐统一

从结果来看，ChatGPT给出的结果更符合九方科技团队的预期，文心一言关于文字创作方面稍逊一筹，输出结果不可控。

2. 文章改写

本次测评分别使用文心一言和ChatGPT来对给定文章进行分段、合并、去版权、改写等。

「文心一言」

「ChatGPT」

可以看出，ChatGPT准确给出了文章改写结果，并按照指定json格式返回。文心一言返回内容显然有误，不及预期。

3. 关键信息抽取

本次测评分别使用文心一言和ChatGPT来为给定文章生成内容标题、关键词等。

「文心一言」

从结果看来，文心一言对输出格式、字数的控制及关键词的质量把握存在不稳定性，ChatGPT返回结果更加准确、结构清晰、稳定性更高。

4. 输出格式控制

本次测评分别使用文心一言和ChatGPT来指定输出结果的格式。

「文心一言」

「ChatGPT」

关于返回结果输出格式，ChatGPT比文心一言稳定性更高，并且更符合标准格式。如果输出结果格式不稳定，会导致结果后处理很难统一。

5. 多模态作图

「文心一言」

文心一言自带文生图的功能，基本能给出较为符合预期的图像，但质量无法保证，结果并不可控。

「ChatGPT」

ChatGPT目前只能测试到GPT-3.5，GPT-4.0具备多模态作图能力，但目前无法测试，九方科技团队暂时采用plus版本的网友测试反馈来进行对比展示，后续开放之后，进行测试。

在这个示例中，用户提问：下面这张图搞笑在哪里？请逐一进行回答。

GPT-4.0可以按顺序描述出每一格的内容，并总结出笑点：用巨大的过时VGA接口给小巧的现代智能手机充电。

除此之外，GPT-4.0还具备阅读论文、根据草稿画网页、理解漫画等图表理解能力，可见GPT-4.0的多模态能力已经非常强大。

优、缺点对比

「文心一言」

优点：

1. 中文场景表现较为优秀。

2. 问题生成响应时间较快。

3. 具备基本写作能力。

4. 自带文生图功能。

缺点：

1. 生成文字不一定具备事实性。

2. 上下文理解能力弱，长提示有可能记忆失效或细节失效。

3. 不能对输出格式做细致调整。

4. 作画采用文心一格模型，但可控性较差，质量无法保证。

「ChatGPT」

优点：

1. 对大部分事实回答能保证正确性，具备一定的逻辑推理能力。

2. 具备很强的写作能力。

3. 上下文理解能力强，能记忆较长提示信息的细节内容。

4. 能对输出格式做细致调整。

5. 支持多语种。

缺点：

1. 对仅在中文环境下熟知的事实缺乏准确性。

2. 生成时间较长。

3. 不支持方言及国内网络环境下的新生词汇。

4. 只能处理文生文场景。

总结

总的来说，文心一言的整体使用效果要逊色于ChatGPT。无论从提示问题的理解程度、返回结果的质量，还是到细节的处理上，ChatGPT都要看起来更加“聪明”。

在国内，百度NLP确实处于技术领先地位，这么多年来，一直持续做着AI相关技术的积累和跟进，从深度学习框架到大模型以及相关的应用，都有布局。能在这么短时间推出类ChatGPT产品，值得尊敬，这毫无疑问与之前的持续积累有关。

但根据实际评测结果来看，文心一言整体效果上和ChatGPT的差距还是有的，加上GPT4.0的出现，依然有很长一段路要走。但九方科技团队相信，这只是时间问题。

1. 百度「文心一言」目前只开放了部分内测账号，只提供了页面试用的方式，API开放时间未知。

2. OpenAI「ChatGPT」GPT-4.0由于需要国外付费账号，暂时无法测试和使用，本篇实测仅针对GPT-3.5。

关于九方科技

九方科技自成立以来，一直专注于服务金融客户，以用户需求为基石驱动产品技术升级，致力于打造更多满足用户需求的金融大数据产品。目前，九方科技拥有多项核心技术，如大数据处理和分析技术、基于机器学习的数据可视化技术、大数据云计算技术等，在金融领域积累了深厚的技术经验和专业知识，能够为金融客户提供全方位的大数据解决方案。

关键词：

分享到: