如何开科技的反复GPT-3写作神器抑或魔鬼化身揭秘万能语言模型
在2020年6月,全球科技界震动的一个消息——史上最强大AI模型GPT-3问世。OpenAI这家非营利组织耗资几千万美元,训练了约2000亿个单词后,这款语言AI模型如同一位拥有无限创造力的大师,无论是文学创作、翻译工作还是编写计算机代码,都能轻松完成。更令人惊叹的是,它能够以人类般的流畅度和准确性进行这些任务。
任何人都可以使用这个模型,只需输入一个提示,就能在几分钟内获得所需文本产出。硅谷的一位技术初创公司创始人Arram Sabeti对此表示赞赏:“它比我尝试过的任何AI语言系统都更加连贯。”Sabeti甚至预见到了未来:“我觉得我已经看到了未来。”
那么GPT-3是如何实现这一切?它生成的内容有多接近真实?存在什么缺陷?围绕这一强大的语言模型,科学家们正努力解决哪些争议?
在本篇文章中,我们将详细探讨这些问题。一方面,GPT-3展示了惊人的能力,不仅可以撰写小说,还能编程;它甚至能够提供法律文件的摘要、客户服务查询答案,以及运行基于文本的角色扮演游戏。例如,一名作家兼程序员格温·布兰文用GPT-3编写了一系列讽刺科学和学术界定义,而加州大学伯克利分校学生利亚姆·波尔则利用其撰写博客文章,并吸引了超过26000人阅读。
然而,即便功能强大,GPT-3也有其弱点。在推特上,其CEO山姆·奥特曼提到,它通过观察统计关系来工作,但并不理解其中含义,有时会犯“非常蠢”的错误。此外,由于受训数据影响,它可能会产生仇恨言论、种族主义和性别歧视刻板印象。
解决偏见的问题仍然是一个巨大的挑战。防御风险的一种方法是从训练前的数据中清除“有毒”文本,但这也引发了关于排除哪些内容的问题。此外,有害偏见可能以公然诽谣或难以定位微妙联想形式出现。
研究人员提出了多种方法来应对这些挑战,其中之一是在C4语料库上进行训练,该库不包含任何“不良”词汇列表中的网页。不过,这样的限制意味着范围被缩小,而且由于自动化程度较低,更细粒度的手段尚未得到广泛应用。
最后,由于OpenAI等知名机构没有公开代码及训练数据,上述担忧表明至少研究人员应该公开记录其模型的训练数据。但截至目前,大型公司如英伟达、微软以及部分高校团队还未采取行动。这场关于智能与伦理之间平衡的大讨论,在科技发展前沿上继续展开。而我们,每个人,都作为社会成员,对此持重要态度,是成为智慧之源,或许更多地要承担起道德责任者角色的担当吧。