« 主页

探云月刊 2023-10 GPTs 你的定制 AI 助手

发布于

版权声明:眯眼探云原创,可随意转载,请保留该版权声明及链接:https://tyun.fun/post/88.tanyun-monthly-2023-10/

最近生病了,低烧了两天,喉咙痛了几天,现在进入了咳嗽阶段,昨天晚上咳醒了两次,不过今天总算好多了。自己一个人生病是孤独的,好在到处都是咳嗽的人,生个病就好像是赶上了潮流。虽然人到中年无法避免遇到这个那个的问题,但总的来说我生病的时候不算多,我也忘记了从什么时候开始,我会非常注意体验生病的感觉。生病的感觉当然是不好的,但仔细记住这样的感觉,才会时刻提醒我,没生病的时候是多么幸福的一件事。

原本月刊已经写了一半,但最近刚好 OpenAI 开了发布会,发布了一些不得了的功能,令我大受震撼,非常值得专门聊一聊。

在过去几个月里,生成式 AI 似乎热度在持续降低。一方面,那些日常依赖 AI 助手的用户们已经习惯了使用这些工具来提高工作效率,无论是咨询问题还是使用特定的 AI 助手,例如 Github Copilot。另一方面,除了聊天机器人这类应用外,似乎并没有出现其他杀手级的新应用场景。然而,OpenAI 最近的这次发布会却给生成式 AI 的热度再次点燃了一把火。新服务一上线,OpenAI 的服务器就持续爆满了整整 12 个小时。

我之前的 OpenAI 的账号挂掉了,也趁此机会专门又搞了一个 Plus 账号,赶紧去 OpenAI 的官网体验了一下新功能。

GPTs 是新的里程碑

OpenAI 发布了许多东西,我认为 GPTs 的发布是其中最亮眼的一个,N 年后回头来看,这绝对算是生成式 AI 的一个关键历程碑。

生成式 AI 模型的发展,大概经历了这几个阶段:

  1. 完全根据需求目标定制模型
  2. 训练有一定通用能力基础模型,然后根据实际目标进一步定制化
  3. 训练通用模型(大语言模型),通过 Prompt(提示词) 让大模型完成特定的工作

这些阶段并非泾渭分明,如果要深度解决某个领域内的特定问题,直接定制训练模型可能依然是最好的选项。

对于使用 AI 模型来讲,这几个阶段最大的变化,就是使用成本的持续降低。通过提示词来定制模型的输出,已经不涉及到任何模型的训练了,开箱即用。如果你打开文心一言 App,就能够看到里面提供了许多小工具,来帮助你处理特定的任务,这些小工具都是通过提示词的方式来定制输出结果。

如果你实际试过这些工具,那你可能会想,好像也没多牛逼啊?可能算是稍微有点有趣,但实际用途不大。

在 OpenAI 发布 GPTs 之前,的确如此。大部分直接通过 Prompt 来定制 AI 的小工具其实都不咋样,也就看着新鲜,很少能够解决实际问题。但有些定制程度稍微深一点的工具,其实是很火的,比如 chatPDF,你可以上传一个 pdf,然后直接针对 pdf 中的内容进行提问,省去了自己逐字读 pdf 的时间。

那 GPTs 会有什么不同呢?接下来就详细说一说。

我会分两个部分来说:一个部分是创建,一个部分是使用。为什么要分开说呢,因为两个部分都很牛逼。

GPTs 相当好用

先说使用。官方提供了一些 GPTs,其中一个叫【Cosmic Dream】,简单提供一些描述,就能创作特定风格的高清(1024x1024)的画。

比如:

可以看到画的效果是相当不错的,负责作画的是 OpenAI 的新一代绘画模型 DALL·E 3。而 GPT4 则扮演了帮助生成绘画 Prompt 的角色(这个示例中隐藏了这个步骤)。

另外一个叫【创意写作教练】,我把前面写的一段文字给他,让他给点建议。他给出的建议非常棒,其中一段是这样:

引入更多情感色彩: 您的文字偏向于事实陈述,可以考虑在某些部分加入一些情感或个人观点,这样会让文章更有吸引力。例如,在提到“GPTs 的新历程碑”时,可以简短地表达您对此的兴奋或期待。

这一段可谓是直接击中了我的要害。这的确是我写文章的一个弱点。

可以看出,这两种 case 下,GPT 都是非常有用的,能在具体场景下提供切实的帮助。如果我不用定制的 GPT,直接和通用版本的 GPT 聊天,能达到这样的效果吗?会比较难。

比如作画,其实我对绘画了解很少,无法用详细的语言描述出我想要怎样的画,甚至脑袋中也想象不出来想要的画该长啥样。使用 Cosmic Dream,我任意给点提示词,就能用 AI 画出一幅特定风格的精美的画。

同样,通用版本的 GPT 针对我的文章给出的也是很常规、通用的建议,虽然也还算不错,但相比专业的【创意写作教练】,明显差了一大截。

差别在哪里呢?其中一个关键点是上下文(场景、角色等等)的预设。比如同样写作这样一个话题,两个小学生聊的内容,和两个诺贝尔文学奖获得者聊的内容,差别肯定就大了去了。缺少上下文的预设,GPT4 空有一身本领,却只能泛泛的回答用户提出的问题。

而 GPTs 的出现,可以让每个 GPTs 都针对设定特定的场景、GPT 的行为模式,以及它可以使用的工具。这些工具包括:为它提供额外的信息(就像前面的 chatPDF),生成图片,浏览网络,执行代码,调用第三方工具等等。

GPTs 就像是送快递的那最后一公里,把 GPT4 的强大能力,真正连接到了具体的应用场景,高质量的解决实际的问题。

要充分理解这个点,不得不讲一下 OpenAI 4月份推出的插件系统。GPT4 的能力非常强,但也是有限制的,比如它的知识是预训练的,对新闻类的信息就无能为力,它的数学能力也不太行,另外它也无法访问网络,等等等等。

这些问题虽然对 GPT 很难,但现有的解决方案已经是可以解决的很好,比如计算器,算数可厉害了。所以顺理成章,通过插件的形式,让 GPT 可以调用这些插件就可以很好的弥补这些弱项。而且更进一步,通过插件的形式,可以让 GPT 扩展出更多助手的服务,比如定飞机定酒店等等。

这个想象空间可就太大了。你将拥有一个超级智能助手,结合各种插件,他可以解决你的所有问题!

但经过了许多个月,插件系统并没有火爆起来,一点也没有。为什么呢?

无论是生活、工作中,你一定会遇到配合默契的朋友或同事。所谓的默契,并非两个人就完全一样,而是两个人相互非常了解,简单几个字就能够把意思表达清楚而不产生误解。

你肯定会希望你和你的 GPT 助手之间是有默契的,他很清楚你要干嘛,你也很清楚他擅长干什么,这样你每次就能够直奔主题,而不需要先花时间介绍你的任务。而默契,其实也是基于场景的。你和同事之间的工作默契,和朋友之间开玩笑的默契,肯定是不一样的,你也不希望他们是一样的。

每种默契,其实代表了一种行为模式,在不同的情况下,我们也需要 GPT 有着不同的行为模式。

小结一下:定制的 GPT 会更有用,你需要多个定制的 GPT 去解决不同的任务。

创建 GPTs 特别简单

每个人要解决的具体任务是不同的,即使是相同的任务,在处理的具体细节上也是有许多不同的。这也是为什么许多软件,你会感到其中 95% 的功能似乎都是无用的。GPT Store 中已经有了一些工具,这些工具已经具备了一定解决问题的能力,但你可能会希望它能够更贴合自己的需求。

继续拿画图来举例。比如前面提到的【Cosmic Dream】,我已经感受到了它的专业性,但我可以用它来干嘛呢?可以为我本期的博客画一张封面。我对自己博客封面其实没啥特别的要求,看起来漂亮就行。但既然有了 GPT,我就想稍稍提高点要求,来点自己更喜欢的风格。比如舒缓一点的,美丽的自然风景。

那就开始定制一个为我画博客封面的 GPT 吧。

这个过程可以是手动的,也可以是对话式的。和你对话的 GPT 创建助手,本身也是一个定制的 GPT。得益于 GPT4 的强大能力,这个 GPT 创建助手非常厉害。来看看它有多厉害:

我提到我想要一个画画的工具,于是第一步他就先为新的这个工具起了个名字(Aesthetic Composition Creator),并创建了一个 LOGO,还问我满不满意,当然是太满意了。

后续的步骤就是他继续问我具体想干什么,我说我不懂画画,只要要图片看起来漂亮就行,然后他就给了一堆建议。我随意挑选了一下建议。然后他开始问我这个 GPT 会是怎样的风格,对于细节是随意发挥,还是向我询问,当然是选随意发挥,问我也不懂。就这么聊上几轮,一个定制的 GPT 封面画手就准备好了。

定制的这个 GPT 好用吗?相当好用,只需要简单的描述一下想法,然后 GPT4 会根据这个简单的描述补充非常多的细节,再交给 DALL·E 3 实际做画。

下面几张画每张质量都很高:

前两张用做我的博客封面是比较让我满意的。最后一张是按我儿子的要求画的,也非常漂亮。

除了做一个【封面画手】,我还做了一个【Logo Wizard】,尝试用它来帮忙画个应用的 Logo,充分体会到了一把甲方的快乐:风格偏了,没体现出意境;太抽象了看不懂;太复杂了画简单点……

GPTs 使用起来很强大,定制起来很简单,唯一的限制,就是人们的想象力了。OpenAI 将这项功能开放出来以后,在接下来的几周或几个月的时间内,相信会持续涌现出许多实用的 GPTs,可以解决以前我们不曾想过的问题。

而这,就是我前面提到的历程碑:应用场景大爆发

中国的 GPT 何在?

毕竟我们身在中国,美国在 AI 领域卡我们脖子卡的厉害,国内 AI 的发展,是一个不得不谈的问题。首先是算力的差距,这个被美国卡的很惨。要训练牛逼的 AI 模型,需要的算力是非常惊人的,需要大量的高端显卡。这个环节,中国直接就差了一大截。

然后来说当前训练出来的模型。虽然近期各家也集中开发布会,号称超越了 gpt3.5,对标 gpt4,但实际使用下来,这些最新的模型,基本上都离 gpt3.5 有着不小的差距。那他们的对标是如何来的呢?刚好看了卓克老师的科技参考,简单来讲就是过度拟合。

现在 LLM 的评估测试集,是公开的,所以各家训练模型,就等于是做开卷考试。实际实力先不谈,开卷考试,总得看着题做准备吧。所以训练出来模型拿测试集比较容易就能跑出高分,但实际能力就差了一大截。

但凡事看积极的一面。虽然国内最新的这一波模型依然和 gpt3.5 有显著差距,但对比各家之前的版本,能看出来是有显著进步的,和 gpt3.5 的差距在缩小。

为啥拿 gpt3.5 来比呢?在我看来,gpt3.5 是到了一个可用的门槛,从实用的角度,是可以给到 65 分的。只要超过了这个门槛,就意味着模型真正有了实用价值(当然,价格得便宜)。当前各家模型,我认为是到了实用的边缘了,再迭代上一版,在许多场景下就值得一用了。

OpenAI 的这一波发布,着实又会给国内的厂商们很大的一波压力。虽然 GPTs 这个形式,国内厂商应该可以很快跟进。但因为缺少了 GPT4 这个内核,整条链路可能不太跑的通,实用性会大打折扣。

中国的厂商们,加油!