2024年8月2日 星期五

★ 什麼是生成人工智慧(Generative AI)?

什麼是生成式人工智慧模型?IBM 專家 Kate Soule 的概述


Klacci 凱樂奇酒店解決方案


來源:IBM


生成人工智慧是指深度學習模型,可以根據他們接受訓練的資料生成高品質的文字、影像和其他內容。



人工智慧經歷了許多炒作的週期,但即使對懷疑論者來說,ChatGPT 的釋出似乎也標誌著一個轉折點。OpenAI 的聊天機器人,由其最新的大型語言模型提供支援,可以寫詩、講笑和創作看起來像人類創作的文章。用幾個字提示 ChatGPT,然後以 Yelp 評論的形式出現愛情詩,或 Nick Cave 風格的歌詞

上次生成性人工智慧如此大時,突破是在電腦視覺上。自拍變成了文藝復興風格的肖像,過早衰老的臉孔充斥著社交媒體。五年後,自然語言處理的飛躍,以及大型語言模型對幾乎任何主題進行即興的能力,抓住了大眾的想像力。這不僅僅是語言:生成模型還可以學習軟體程式、分子、自然影像和其他各種資料類型的語法。

這項技術的應用每天都在成長,我們才剛剛開始探索這種可能性。在 IBM Research,我們正在努力幫助我們的客戶使用生成模型,來更快地編寫高品質的軟體程式,發現新分子,並培養基於企業資料的值得信賴的會話聊天機器人。我們甚至使用生成人工智慧來建立合成資料,以建構更強大和值得信賴的人工智慧模型,並支援受隱私和版權法保護的真實資料。

隨著該領域的不斷發展,我們認為退後一步,解釋生成人工智慧的含義,我們是如何到達這裡的,以及這些模型是如何工作的。

深度生成模型的興起

生成人工智慧是指可以獲取原始資料(例如,所有維基百科或倫勃朗收集的作品)的深度學習模型,並在提示時「學習」生成統計可能的輸出。在高層次上,生成模型對其訓練資料進行編碼,並從中汲取與原始資料相似,但不相同的新工作。

多年來,生成模型一直用於統計學來分析數值資料。然而,深度學習的興起使它們擴充到影像、語音和其他複雜資料類型成為可能。在實現這一交叉壯舉的第一類模型中,有 2013 年推出的變異自動編碼器(VAE)。VAE 是第一個廣泛用於生成逼真影像和語音的深度學習模型。

麻省理工學院 - IBM沃森人工智慧實驗室的生成人工智慧專家 Akash Srivastava 說:「VAE 透過使模型更容易擴充,為深度生成建模打開了閘門。」「我們今天認為的生成性人工智慧的大部分內容,都是從這裡開始的。」

聽取其他人工智慧專家的意見

  • Dmitri Krotov 正在尋求改進人工智慧
  • Ruchir Puri 主管著程式現代化
  • Kush Varshney 解釋了治理是如何在整個人工智慧管道中應用的。

自動編碼器的工作方式,是將未標記的資料編碼為壓縮表示,然後將資料解碼回其原始形式。「普通」自動編碼器用於各種目的,包括重建損壞或模糊的影像。變異自動編碼器不僅增加了重建資料的關鍵能力,而且增加了輸出原始資料變化的關鍵能力。

這種生成新資料的能力,點燃了一系列快速的新技術,從生成對抗網路(GAN)到擴散模型,能夠產生更逼真但虛假的影像。透過這種方式,VAE 為今天的生成性人工智慧奠定了基礎。

它們由編碼器和解碼器塊建構,這種架構也支撐了當今的大型語言模型。編碼器將資料集壓縮成密集的表示形式,在抽象空間中將相似的資料點排列得更近。解碼器從這個空間取樣,以建立一些新的東西,同時保留資料集最重要的功能。

Transformer 由谷歌於 2017 年在一篇具有里程碑意義的論文《注意力就是你所需要的一切》中介紹,將編碼器-解碼器架構與文字處理機制相結合,呼籲人們注意改變語言模型的訓練方式。編碼器將未註釋的原始文字轉換為稱為嵌入的表示;解碼器將這些嵌入與模型的先前輸出一起,並依次預測句子中的每個單詞。

透過填空猜測遊戲,編碼器學習單詞和句子如何相互關聯,建立強大的語言表示,而無需任何人標記詞語部分和其他語法特徵。事實上,Transformer  從一開始就可以預先訓練,而無需考慮特定任務。一旦學習了這些強大的表示形式,模型就可以以更少的資料進行專業化,以執行給定的任務。

幾項創新使這成為可能。Transformer 一次性處理句子中的單詞,允許並行處理文字,加快了訓練。早期的技術,如循環神經網路(RNN)和長期短期記憶(LSTM)網路,一個接一個地處理單詞。Transformer 還學習了單詞的位置及其關係,上下文允許它們在長句中推斷含義,並消除「它」等單詞的歧義。

透過消除預先定義任務的需要,Transformer 使在大量原始文字上預先訓練語言模型變得實用,使它們的大小大幅成長。以前,人們收集資料並貼上標籤,以在特定任務上訓練一個模型。使用 Transformer ,你可以對大量資料進行訓練,然後透過對少量標記的特定任務資料,進行微調來使其適應多個任務。

Transformer 因其多功能性而被稱為基礎模型。Srivastava 說:「如果你想改進一個分類器,你過去必須向它提供更多的標籤資料。」「現在,使用基礎模型,您可以向模型提供大量無標籤資料,以學習可以很好地推廣到許多任務的表示形式。」

如今,語言轉換器用於分類和實體提取等非生成性任務,以及翻譯、總結和問題回答等生成性任務。最近,Transformers 以產生令人信服的對話、論文和其他內容的能力震驚了世界。

語言變式分為三大類:僅編碼器模型、僅解碼器模型和編碼器解碼器模型。

僅編碼器的模型,如 BERT,為搜尋引擎和客戶服務聊天機器人提供動力,包括 IBM 的沃森助理。僅編碼器模型廣泛用於非生成任務,如對客戶回饋進行分類,和從長文件中提取資訊。在與美國太空總署的一個專案中,IBM 正在建構一個僅編碼器的模型,以挖掘數百萬種地球科學期刊,以獲取新知識。

GPT系列模型這樣的僅解碼器模型被訓練為在沒有編碼表示的情況下預測下一個單詞。 GPT-3的1750億個引數,在OpenAI在2020年釋出時是同類中最大的語言模型。 其他大規模模型——谷歌的PaLM(5400億個引數)和開放存取BLOOM(1760億個引數)等,此後加入了這一行列。

編碼器-解碼器模型,如谷歌的文字到文字傳輸 Transformer ,或 T5,結合了 BERT 和 GPT 風格模型的功能。他們可以完成許多僅解碼器模型,可以完成的生成任務,但其緊湊的尺寸使其調整和服務更快、更便宜。

生成人工智慧和大型語言模型一直在以令人眼花繚亂的速度發展,新模型、架構和創新幾乎每天都在出現。

監督學習的回擊

利用無標籤資料的能力,是釋放生成性人工智慧力量的關鍵創新。但人類監督最近卷土重來,現在正在幫助推動大型語言模型向前發展。人工智慧開發人員越來越多地使用監督學習,來塑造我們與生成模型及其強大的嵌入式表示的互動。

與谷歌的 FLAN 系列模型一起引入的指令調諧,使生成模型能夠超越簡單的任務,以更互動、更通用的方式提供幫助。將模型指令與對廣泛主題的反應處理相結合,不僅可以生成統計學上可能的文字,還可以對「法國的首都是什麼?」等問題做出人性化的答案。 或請求,如「對以下數字列表進行排列。」

透過仔細設計一組提示 —— 饋入基礎模型的初始輸入 —— 可以自定義模型以執行廣泛的任務。在某些情況下,根本不需要標記資料。你只需要求模型執行任務,包括那些尚未經過明確訓練的任務。這種完全無資料的方法被稱為零鏡頭學習,因為它不需要示範案例。為了提高模型將產生你正在尋找的東西的機率,你還可以提供一個或多個示範案例,即所謂的一次性或幾次學習。

零點和幾點學習,大大降低了建構人工智慧解決方案所需的時間,因為獲得結果只需要最少的資料收集。但是,與零點和幾點學習一樣強大,它們有一些侷限性。首先,許多生成模型對其指令的格式化方式很敏感,這激發了被稱為提示工程的新人工智慧學科。一個好的指令提示,將在一兩次嘗試中提供所需的結果,但這通常歸結為將冒號和車廂返回放在正確的位置。雖然有效,但及時的工程也可能很不解。在一個模型上執行良好的提示,可能不會轉移到其他模型。

企業零點和幾點提示的另一個侷限性,是難以整合專有資料,而專有資料通常是關鍵資產。如果生成模型很大,在企業資料上對其進行微調,可能會變得昂貴得令人望而卻步。提示調諧和介面卡等技術已成為替代品,它們允許你調整模型,而無需調整數十億到數萬億的參數。他們透過將使用者的資料和目標任務,提煉成少量參數來工作,這些參數被插入凍結的大型模型中。在那裡,他們在不直接改變模型行為的情況下進行調製。

麻省理工學院 - IBM 沃森人工智慧實驗室的 IBM 主任大衛·考克斯說:「參數高效的調諧方法,允許使用者吃蛋糕並吃掉它。」「你可以使用自己的專有資料,來利用大型預訓練模型的力量。及時的工程和參數高效的調諧一起,提供了一套強大的工具,讓模型做你想做的事,而無需在傳統的深度學習解決方案上花費時間和金錢。」

最近,人類監督正在透過將他們的行為,與我們的行為保持一致,來塑造生成模型。對齊是指我們可以塑造生成模型的反應處理,以便它們更好地與我們想要看到的東西保持一致的想法。從人類回饋中強化學習(RLHF)是 OpenAI 推廣的一種對齊方法,它賦予了像 ChatGPT 這樣的模型,難以言詭的類似人類的會話能力。在 RLHF 中,生成模型輸出一組人類評價正確性的候選反應處理。透過強化學習,該模型進行了調整,以輸出更多響應,如人類高度評價的響應。這種訓練風格產生了一個人工智慧系統,該系統可以輸出人類認為的高品質對話文字。

生成人工智慧的走向何方?

直到最近,生成人工智慧的主導趨勢一直是規模化,在不斷成長的資料集上,訓練的大型模型取得了越來越好的結果。你現在可以根據以前的模型(無論是尺寸較大,還是根據更多資料進行訓練)的擴充情況,來估計一個新的、更大的模型的強大程度。縮放定律允許人工智慧研究人員,在投資訓練大型模型所需的大量運算資源之前,對大型模型的效能進行合理的猜測。

另一方面,人們對模型達到一定規模時,出現的新興能力持續感興趣。導致這些技能出現的不僅僅是模型的架構,還有其規模。例子包括邏輯推理的微光和遵循指示的能力。一些實驗室繼續訓練越來越大的模型,追求這些緊急能力。

然而,最近的證據正在抵制大型模型的趨勢。幾個研究小組表示,在更多特定領域資料上訓練的較小模型,通常可以優於更大的通用模型。例如,史丹佛大學的研究人員對一個相對較小的模型 PubMedGPT 2.75B 進行了生物醫學摘要的訓練,發現它比相同大小的通才模型,更能回答醫學問題。他們的工作顯示,當特定領域效能很重要時,較小的領域專業化模型可能是正確的選擇。

麻省理工學院 - IBM 的考克斯說:「當你想要具體建議時,最好向領域專家尋求幫助,而不是試圖找到你認識的最聰明的人。」「專業化還具有其他優勢;較小的模型要便宜得多,碳密集度更低。」

生成模型是否會比今天更大或更小的問題,因模型蒸餾的新興趨勢而進一步混淆。史丹佛大學的一個小組,最近試圖將 OpenAI 的大型語言模型 GPT-3.5 的能力,「提煉」到其羊駝聊天機器人中,該聊天機器人建立在一個更小的模型上。研究人員要求 GPT-3.5 生成數千個配對指令和反應處理,並透過指令調諧,使用這種人工智慧生成的資料,為羊駝注入類似 ChatGPT 的對話技能。從那時起,像 Vicuna 和 Dolly 這樣的類似模型群,已經登陸網際網路。

Cox 說:「羊駝模型對大型模型,是否對緊急能力非常重要提出質疑。」 「一些模型,如 Dolly 2,甚至跳過蒸餾步驟,而是直接從人類那裡眾包指令響應資料。總歸來說,最近的事件顯示,我們可能正在進入一個更緊湊的模型,足以容納各種實際應用案例的時代。」

生成性人工智慧,具有為企業創造新能力和價值的巨大潛力。然而,它也可能帶來新的風險,無論是法律、財務還是聲譽風險。許多生成模型,包括那些為 ChatGPT 提供動力的模型,可以噴出聽起來權威,但不真實的資訊(有時稱為「幻覺」)或令人反感和有偏見的資訊。生成模型也可能無意中攝取,其訓練資料中的個人或受版權保護的資訊,並在稍後輸出,從而給隱私和智慧財產權法帶來獨特的挑戰。



沒有留言:

張貼留言