科技部官方网站首页揭秘GPT-3写作神器还是魔鬼化身反复探究其背后的奥秘
智东西(公众号:zhidxcom)
编译 心缘
编辑 漠影
2020年6月,在训练约2000亿个单词、烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红。这款由OpenAI打造的语言AI模型宛如万能选手,只有你想不到的画风,没有它输不出的文案。它既能创作文学,也能当翻译,还能编写自己的计算机代码。任何外行人都可以使用这一模型,几分钟内提供示例,就能获得想要的文本产出。
“我不得不说我被震撼了。”一家硅谷技术初创公司的创始人Arram Sabeti称赞道,“它比我尝试过的任何AI语言系统都更加连贯。”他表示,你要做的就是编写一个提示,然后添加可能会被跟进的文本。我得到的是写歌、故事、新闻稿、吉他谱、访谈,论文、技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。
那么GPT-3是如何实现这样的功能?它创造出来的事物有多逼真?存在什么缺陷?围绕这一强大的语言模型,科学家们正试图解决哪些争议?
本文将对这些问题进行详尽的综述。一方面,我们将探讨GPT-3在各领域表现之强大,它能够媲美人类在小说撰写、中代码编排等方面的情形,以及其他类似任务中取得的一致性和准确性。例如,它甚至还能够生成讽刺学术界定义,使得读者难以区分真假。
然而,即便如此功能强大,这款产品也不乏荒谬回答的问题。此外,由于依赖统计关系来工作,有时甚至会犯非常蠢错误。还有时,它可能会发出仇恨言论或产生种族主义和性别歧视刻板印象,这与其训练数据中的关联相符。此外,它也可能给出荒谬或危险答案,如回答“铅笔比烤面包机重”或者简单地回答“应该”。
为了防止这些风险,一些研究人员提出了一些方法,比如从训练前的数据中清除“有毒”文本,但这引发了关于哪些内容应当排除的问题。同时,有害偏见可以采取公然诽谣或微妙联想形式,因此消除它们并不容易。此外,还有人提出了限制训练数据中的敏感信息作为一种有效防御措施,因为较大的模型更容易受到攻击,以检索个人联系信息等敏感数据。
最后,本篇文章还指出了目前存在的一个重要问题,那就是多家知名机构未公开其代码及训练数据。这导致了对该领域透明度和可信度的大量疑问,并且阻碍了研究人员追求更安全、高效的人工智能发展道路上的努力。而对于是否应该公开这些关键细节,以及如何平衡保护用户隐私与促进开放研究之间关系,则成为当前行业内需要深入探讨的问题之一。