ADVERTISEMENT
如果你還沒有聽說過 ChatGPT,那麼你的消息就太閉塞了。這款「病毒式」聊天機器人被用於文本生成等自然語言處理任務,它正在各地的新闻中走紅。?
ChatGPT 是一種使用深度學習生成文本的自回歸語言模型。它在各個領域都能提供詳細的答案,讓使用者驚歎不已,這些答案很是令人信服,以至於很難判斷它們是否是人類寫的。ChatGPT 建设在 OpenAI 的 GPT-3(最新版本 GPT-4 已於 3 月 14 日推出)大型語言模型(LLMs)之上,於 2022 年 11 月 30 日推出。它是最大的 LLMs 之一,可以寫出有說服力的文章和詩歌,生成可用的程式碼,並從文本描述中生成圖表,而且所有這些都是在有限的、甚至沒有監督的情況下進行的。ChatGPT 給出的答案很是好,是無處不在的Google搜尋引擎的潛在競爭對手。?
大型語言模型確實很是之大,它們是在大量的文本資料上進行訓練的,這些文本資料可以達到 PB 級,並具有數十億個參數。由此產生的多層神經網路通常巨细為幾個 TB。圍繞 ChatGPT 和其他大型語言模型的炒作和媒體關注是可以理解的,它們確實是人類聰明才智特殊發展的體現。這些大型模型有時會以意外的行為讓這些模型的開發人員感应驚訝。例如,GPT-3 的答案透過在「提示」的開頭使用某些「神奇」的短語來获得改進,好比「讓我們一步一步地思考」。這些意外行為讲明他們的模型很是複雜,同時缺乏可解釋性,甚至讓開發者開始思考這些模型是否已具有感知能力。?
大型语言模型的「幽灵」
在所有這些對大型語言模型的積極言論和炒作的同時,負責任的人工智慧領域研究者也發出了一個較小的、強有力的警告。值得注意的是,在 2021 年,研究「盡責人工智慧」(Responsible AI)的傑出研究員蒂米特·格布魯(Timit Gebru)發表了一篇論文,警告了許多與大型語言模型相關的道德問題,最終導致她被Google解雇。這些警告涵蓋了廣泛的問題:缺乏可解釋性、抄襲、隱私、偏見、模型穩健性及其對環境的影響。讓我們深入探討一下這些主題。?
1. 信任和缺乏可解釋性
深度學習模型,特別是 LLM,已經變得很是龐大和不透明,甚至模型開發人員也經常無法理解為什麼其模型會做出某些預測。這種可解釋性的缺乏是一個重要的問題,特別是在使用者想知道模型為什麼、以及如何生成特定輸出的情況下。?
我們的首席執行長克里希納·蓋德(Krishna Gade)使用 ChatGPT 讓 AI 以約翰·濟慈的風格創作了一首詩,坦率地說,我認為結果相當不錯。?
蓋德正確地指出,圍繞著「模型如何得出這個輸出結果」的透明度是缺乏的。對於 LLMs 製作的作品來說,輸出所使用的資料來源缺乏透明度,這意味著 ChatGPT 提供的答案不行能被正確引用,因此使用者不行能驗證或信任其輸出。這已經導致 ChatGPT 所創建的答案在 Stack Overflow 等論壇上是被禁止使用的。?
當使用 OpenAI 的嵌入模型(Embedding Model),或者在模型用於高風險決策的情況下,透明度和對模型如何获得輸出的理解變得尤為重要。例如,如果有人要使用 ChatGPT 來獲得抢救說明,那麼使用者需要知道答案是可靠的、準確的,並且來自值得信賴的來源。雖然存在各種事後解釋模型選擇的要领,但在部署模型時,這些解釋經常被忽略。?
在假新闻和錯誤資訊氾濫的時代,這種缺乏透明度和可信度的後果尤其令人不安,LLM 可能會被精心調整,以傳播錯誤資訊,進而威脅人類社會。雖然 Open AI 正在研究各種要领來辨識其模型的輸出,但這些「盡責人工智慧」解決方案速度不夠快,而且可能也還不夠。?
2. 抄襲
我們很難追溯一篇精心製作的 ChatGPT 文章的起源,這就導致了抄襲問題。但這真的是個問題嗎?筆者並不這麼認為。在 ChatGPT 出現之前,學生們已經可以使用代寫服務了,而且一直有一小部门學生會作弊。但是,對於 ChatGPT 會把孩子們都變成無腦抄襲的作弊者的擔憂,一直是許多教育事情者最關心的問題,並導致一些學區禁止使用 ChatGPT。?
關於抄襲可能性的討論,會使人們忽視與 LLM 相關的更大、更重要的道德問題。鑒於這個話題已經有许多人在討論了,所以我不能不提一下。?
3. 隱私問題
如果大型语言模型处置惩罚了敏感性资料,那麼它将面临资料隐私洩露的风险。大型语言模型的训练集来自一系列资料,有时包罗小我私家身份资讯,好比姓名、电子邮件、电话号码、位址、医疗资讯等等,因此,这些内容都可能泛起在模型的输出结果中。虽然这对於任何用敏感性资料训练的模型来说都是一个问题,但考虑到尝尝惭的训练集数量之大,这个问题可能会影响许多人。?
4. 偏見
如前所述,這些模型是在龐大的資料庫上進行訓練的。當資料訓練集過大時,就會變得很是難以審計,因此自己就有風險。該資料包罗社會和歷史偏見,因此,如果沒有採取保障措施,在此基礎上訓練的任何模型都可能重現這些偏差。許多流行的語言模式被發現含有偏見,這可能導致偏見思想的進一步傳播,並使對某些群體的傷害持續下去。GPT-3 顯示出常見的性別刻板印象,好比將女性與家庭和外貌聯繫在一起,並將她們描述為不如男性角色強大。可悲的是,它還將穆斯林與暴力聯繫在一起,對含有「穆斯林」一詞的提示的回復中,有三分之二的內容提到了暴力。很可能還有更多有偏見的聯想存在,並且還沒有被發現。?
網路上充斥著帶有偏見和歧視性的不良言論,雖然 ChatGPT 有一個篩檢程式來試圖制止這類不良語言,但它可能不是萬無一失的。OpenAI 付錢給人工標籤師,讓他們標記出最具辱駡性和最令人不安的言論。但公司卻因此面臨著批評,因為他們每天只付 2 美元給打標籤的工人,而工人們認為自己遭受了深刻的心理傷害。?
5. 模型的穩健性和宁静性
由於大型语言模型经过预训练,并随后针对特定任务进行了微调,因此它们会发生许多问题和宁静风险。值得注意的是,大型语言模型缺乏提供不确定性预计的能力。在不知道模型的置信度(或不确定性)的情况下,我们很难决定什麼时候信任模型的输出,什麼时候对它持保留态度。这会影响模型在对新任务进行微调时输出良好体现的能力,也会影响其制止太过拟合的能力。可解释的不确定性预计有可能提高模型预测的稳健性。?
由於 LLM 的母模型在微調步驟之前具有通用性,所以模型宁静性是一個迫在眉睫的問題。模型可能會成為單點故障和攻擊的主要目標,進而影響從原始模型派生的任何應用程式。此外,由於缺乏監督式訓練,LLM 很容易受到資料迫害,這可能導致針對特定公司、團體或個人的恼恨言論的注入。?
LLM 的訓練語料庫是透過抓取網際網路上的各種語言和主題來源創建的,然而它們只是對最有可能造訪和頻繁使用網際網路的人的反映。因此,人工智慧生成的語言是同質化的,通常反映的是最富有的人群和國家的做法。當 LLM 被應用於不在訓練資料中的語言(如各類小語種)時,則更有可能失敗,因此需要進行更多的研究來解決圍繞正態分佈外資料的問題。?
6. 環境影響和可持續性
史特魯貝爾及其相助者在 2019 年的一篇論文中概述了 LLM 訓練生命週期的巨大碳足跡。訓練一個具有 2.13 億個參數的基於神經架構搜尋的模型,估計產生的碳排放量是普通汽車壽命週期的 5 倍以上。記住,GPT-3 有 1750 億個參數,而 GPT-4 據傳有 100 萬億個參數。
现在该做什麼?
任何新技術都會帶來優點和缺點。我已經概述了與 LLM 相關的許多問題,但我想強調的是,我也對這些模型為每個人帶來的新可能性和希望感应興奮。社會有責任採取適當的保障措施,明智地使用這項新技術。任何用於公共領域或進入公共領域的模型,都需要被監控、被解釋和定期審計模型偏差。
?
使用 Facebook 留言
发表回应
留言板发文规则:
请注意!留言要自负执法责任,相关案例层出不穷,请慎重发文!