亚马逊云科技背后的写作神器与魔鬼化身GPT-3的双面性如何反复折射

智东西（公众号：zhidxcom）

编译心缘

编辑漠影

2020年6月，在训练约2000亿个单词、烧掉几千万美元后，史上最强大AI模型GPT-3一炮而红。这款由OpenAI打造的语言AI模型宛如万能选手，只有你想不到的画风，没有它输不出的文案，既能创作文学，能当翻译，还能编写自己的计算机代码。

任何外行人都可以使用这一模型，几分钟内提供示例，就能获得想要的文本产出。"我不得不说我被震撼了。”一家硅谷技术初创公司的创始人Arram Sabeti称赞道，“它比我尝试过的任何AI语言系统都更加连贯。”

“你要做的就是编写一个提示，然后添加可能会被跟进的文本。我得到的是写歌、故事、新闻稿、吉他谱、访谈，论文、技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。”Sabeti说。

GPT-3是如何实现这样的功能？它创造出来的事物有多逼真？存在什么缺陷？围绕这一强大的语言模型，科学家们正试图解决哪些争议？

本文将对这些问题进行详尽的探讨。一种强大的语言模型，它能够在瞬间生成诗歌：

“随着时光流转，

世界变得静谧。

夜空中闪烁，

星辰点缀。”

尽管功能强大，但GPT-3也有其弱点。OpenAI CEO山姆·奥特曼（Sam Altman）曾经在推特上说，它通过观察所读单词和短语之间的统计关系来工作，但并不理解其中含义，“有时甚至会犯非常蠢错误。”

跟其他较小聊天机器人一样，它可能会发出仇恨言论，产生种族主义和性别歧视刻板印象，这些都是反映在其训练数据中的关联之一。有时候，它还会给出荒谬或十分危险答案，比如回答“烤面包机和铅笔哪个更重？”时，它可能回答：“铅笔比烤面包机重。”

然而，对于像人类一样流利地表达自己来说，大型语言模型越来越巨大，却并不总是意味着它们就更好。“越来越多的大型语言网络被宣传得无比，”研究人员蒂姆尼特·格布鲁（Timnit Gebru）表示。她希望研究人员专注于使这些项目更安全，更可引导，以实现预期目标。

防御风险的一种方法是从训练前的数据中清除“毒性”内容，但这引发了排除哪些内容的问题。例如，一旦开发者决定只使用C4语料库，那么他们限制了可以用于该库上的任何语言模型范围。此外，即使我们同意什么才是“毒性的”，并且能够消除之，我们也不愿意盲目地使用这种工具，因为即便没有明显偏见，也可能出现微妙但难以识别的问题。

最后，由于知名机构未公开其代码及训练数据，上述担忧表明至少应该记录下来。虽然一些公司已遵循这一做法，如谷歌等，但英伟达、微软以及OpenAI仍未这样做。本次研究虽然赢得了最佳论文奖，但是由于缺乏透明度遭到了质疑。在这个快速发展领域中，我们需要继续探索，并寻找保护用户同时保持技术创新发展的手段。

标签：恒生科技指数、纳米技术、邯郸科技职业学院、科技小报简单、网站导航