网络上的写作神器或魔鬼化身GPT-3的双面性被揭露了反复考验
网络上的写作神器或魔鬼化身?GPT-3的双面性被反复揭露
智东西(公众号:zhidxcom)
编译 心缘
编辑 漠影
2020年6月,在训练约2000亿个单词、烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红。这款由OpenAI打造的语言AI模型宛如万能选手,只有你想不到的画风,没有它输不出的文案,既能创作文学,能当翻译,还能编写自己的计算机代码。
任何外行人都可以使用这一模型,几分钟内提供示例,就能获得想要的文本产出。"我不得不说,我被震撼了。”一家硅谷技术初创公司的创始人Arram Sabeti称赞道,“它比我尝试过的任何AI语言系统都更加连贯。”
“你要做的是编写一个提示,然后添加可能会被跟进的文本。我得到的是写歌、故事、新闻稿、吉他谱、访谈,论文、技术手册。这很有趣又令人恐惧。我觉得我已经看到了未来。”Sabeti说。
GPT-3是如何实现这样的功能?它创造出来的事情有多逼真?存在什么缺陷?围绕这一强大的语言模型,科学家们正试图解决哪些争议?
本文将对这些问题进行详尽的综述。一方面,我们会探讨GPT-3输出牛到何种程度,它能够完成哪些任务,以及其在这些领域中的表现如何。例如,它能够撰写新故事,其内容几乎难以区分与人类作者所创作;对于编程任务,它同样显示出高效率和准确度,可以回答琐碎问题、纠正语法错误甚至生成计算机代码。
另一方面,本文还将深入分析这个巨型语言模型背后的潜在风险和挑战。尽管功能强大,但GPT-3也存在一些弱点,比如可能产生荒谬或危险答案,并且容易受到偏见影响。在处理敏感数据时,这种潜在风险尤为重要,因为研究人员发现即使是经过训练的大型语言模型,也可能泄露个人信息。
为了防御这些风险,有多种方法可供选择,从清除“毒素”数据到限制训练数据范围等。但这并不是没有争议,每一种方法都带来新的挑战,如排除哪些内容的问题以及自动化实施难度等。此外,对于那些未经公开审查但已用于训练大型语言模型的人类敏感信息,这些挑战变得尤为紧迫。
最后,本文将探讨为什么目前许多知名机构尚未公开他们用于训练此类模型的大量数据和代码,以及这种做法意味着什么给我们的研究社区乃至整个社会安全带来了潜在威胁。本篇文章旨在通过全面分析,将读者引导进入一个关于人工智能发展前沿话题——如何利用先进技术,同时保护我们所珍视的事物免受损害。