對對話式人工智慧狂熱的探索,已經引起了亞馬遜、蘋果、Facebook、谷歌和微軟等巨頭對兩大重要資源的競爭。
第一個資源是有限的資源:電算科學領域的頂尖博士。由於人才的稀缺性,他們的薪水已經上漲到 6 位數。
第二個資源雖然無限但是卻很難獲得:對話樣本。只要有對話產生,就可以被收集並數位化,用於人工智慧的訓練。
在此背景下,Alexa 獎是亞馬遜的一條妙計。這項比賽既可以尋找世界上頂尖的研究生,共同完善系統,也為亞馬遜提供了一個其他科技公司,所沒有的獲取會話數據庫的機會。
2016 年 9 月 16 日,亞馬遜宣佈比賽正式開始。來自 22 個國家的 100 多支大學生團隊申請參賽。在根據技術價值和創意進行淘汰之後,一共有 15 支隊伍進入決賽。最終,有 12 支隊伍獲得了 10 萬美元的資助,以及其他來自亞馬遜的支持,止步晉級總決賽。
就像大學籃球的「瘋狂三月(March Madness)」一樣,這個比賽把單純的愛好者、固執的競爭者,以及勇敢的戰敗者混在了一起。蒙特婁大學的隊伍,擁有深度學習先驅 Yoshua Bengio 作為他們的顧問,被列為頭號種子選手。緊隨其後的團隊則來自華盛頓大學、普利斯頓大學和赫瑞瓦特(蘇格蘭首屈一指的研究型大學)等知名學府。然後就是一些被淘汰的選手,比如布拉格的捷克技術大學等。
團隊中有一個 23 歲的人,名叫 Petr Marek,他留著山羊鬍,修剪得很整潔。比賽前的那個夏天,他一直在研發他自己的聊天機器人,他覺得這個聊天機器人有點「愚蠢」。那個夏天他還作為童子軍領隊,深入波西米亞森林進行了一次旅行。
在聽到 Alexa 獎時,他擔心自己的團隊出身不夠優秀。不過他想「雖然我們沒有什麼機會,去和那些頂級的大學競爭,至少我們可以試一試。」在獲悉他們能夠參賽後,團隊很是激動,他們決定把機器人的名字改成 Alquist,這是 20 世紀初捷克一齣劇中主角的名字,這部劇首先使用了「機器人」這一詞。(在這部劇中,機器人佔領了我們的星球,Alquist 是地球上最後一個人類。)
進入決賽後,大賽給 15 個團隊出了一個問題:社交機器人大腦的哪一部分,應該採用手動的方式完成,哪一部分應該採用機器學習?手動方式是最傳統的方法,工程師需要耗費大量的精力,編寫一整套規則用於指導人工智慧,進行理解和回覆。與之相比,基於統計的機器學習方法,能夠透過學習大量的數據進行自學。
所有的團隊都清楚,機器學習是處理分類問題的一個很好的方法,神經網路可以在眾多繁雜的數據中,找到一個模型。例如,語音辨識就是機器學習的一項天然任務。
但要是讓聊天機器人在將語音轉換成一門語言後,還要做出一些回應,機器學習仍還有很長的路要走。這就是為什麼,即使在 Alexa 和 Siri 這種數位大腦中,過去的手動方式仍在發揮很大的作用。競賽中的每個團隊,都在試圖找到兩種方法之間最佳平衡點。
手動方式已經過時了;機器學習受到了狂熱的追捧。Marek 和隊友知道,所有的研究都很依賴於後者,所以他們認為自己也應該這樣。
為了幫助 Alquist 自動生成語言,回應 Alexa 的用戶,該團隊使用 Reddit 上,用戶的 3 百萬個訊息應答,訓練了一個神經網路。令他們沮喪的是,這個系統給出的回答「真的很糟糕,」Marek 說。
Alquist 都是隨機地進行回答,甚至有些話題用戶都沒有談起。它會堅持一個觀點,過後又會進行否認。「和人工智慧進行對話沒有任何意義,也不好玩,」心力交瘁的 Marek 在團隊日誌中寫道。「很荒謬。」
在 2017 年初,這個捷克團隊改變了研究的進程,致力於編寫大量對話指導規則。該團隊創造了十個「結構性話題」領域:新聞、體育、電影、音樂、書籍等。Alquist 瞭解這 10 個話題核心的元素,可以在這些話題之間任意切換。
這個社交機器人在設定場景下,使用的簡潔單詞主要由預先編寫的模組構成,同時可以從各種各樣的數據庫中,提取特殊的內容。例如,這個系統可能會說,「我猜你喜歡 [作者提到的書籍作者]。你知道這個 [作者] 也寫了 [書名]?你有讀過這本書嗎?」
手動方式給了團隊對系統的更好的控制權,但 Marek 也有自己的擔憂。這個系統相當依賴於用戶的善良程度,依靠他們說一些簡單的句子,必要的時候跟隨機器人的節奏。遇到「不配合」的用戶,Marek 說,「如何碰到沒有耐心的人,這個社交機器人就不行了。」
在距布拉格一千英里的愛丁堡郊外,有一處連綿起伏的農場,羊群點綴其中。Heriot-Watt 團隊的顧問 Oliver Lemon 正沈迷於用戶的評分,因為亞馬遜已開始在將每個團隊的數據,掛在積分榜上了。
Lemon 戴著眼鏡,面帶苦笑,看起來很像喜劇演員 John Oliver。他玩棒球和桌球,天生熱愛競爭。他覺得,他的團隊可以輕輕鬆鬆地在比賽中獲得前五名。但在 2017 年的初夏,Heriot-Watt 的排名是第九。「我知道我們可以做的更好,」Lemon 說,說話就像是出現意外失誤後,教練的口吻。
在一個駭客馬拉松上,Lemon 和他的學生試圖弄明白,他們如何才能在這個領域取得好的成績。儘管他們團隊沒有任何深度學習權威人士,Heriot-Watt 也一直在試圖,盡可能地使用機器學習。他們從最巨大的挑戰:聊天機器人開始著手。
無目的的閒聊對機器學習來說尤其的困難,因為一般沒有一個標準答案。如果有一個清晰目標的時候,神經網路很有效,比如贏得圍棋比賽,這個系統透過大量的試錯,可以找到最優化的策略。而閒談沒有目的。
為瞭解決這個問題,該團隊依賴一個在谷歌研究人員中,很受歡迎的技術。這個團隊首先利用電影字幕數據庫,和從推特和 Reddit 上獲得的數千條訊息訓練了一個神經網路。從這個巨大的人類的閒談庫中,系統學會在談話中對既定的話語,給出一個最合適的回答。除了簡單的從推特或者 Reddit 談話中,直接提取回答,一個稱為 seq2seq 的技術,可以讓機器人憑空產生自己的答案。
聽起來很厲害,但 Heriot-Watt 很快就面臨了 seq2seq 兩個很典型的問題。一個是這個系統經常會變得毫無趣味,只是敷衍地回答「OK」、「Sure」這樣的話,因為這類詞在推特和電影中出現的次數很多。另外一個問題是這個訓練對話,經常包含大量不合適的言論,而 Heriot-Watt 社交機器人會學著模仿,就像一個一年級的學生,在操場上學大孩子說髒話一樣。
「只要我想,我可以睡很多人,」Heriot-Watt 社交機器人,曾和一個用戶說過這種話。
另外一個用戶問,「我應該把房子賣掉嗎?」社交機器人立馬回答到,「賣賣賣!」
更糟的是,當一個用戶問,「我應該自殺嗎?」這個社交機器人回答道,「是的。」(這個用戶匿名參與了 Alexa 獎的互動測試,所以無法知道這是一個真實的問題,還是僅僅想要說一些憤怒的話測試這個機器人。但亞馬遜作為所有參賽的社交機器人的監管方,已經警告 Heriot-Watt 對此要加強控制。)
如果要馴化 seq2seq 技術的話,Heriot-Watt 團隊需要花費整個夏天,這樣他們就無法增加其它技術。該團隊將社交機器人的大腦,分成一些範圍更小的機器人,每一個機器人都有自己的特色。
新聞機器人閱讀《華盛頓郵報》,和其它資源上的頭條和文章短評。另外一個機器人專門談論天氣。一個接入維基百科,向系統提供從海洋運動,到金卡黛珊所有的事實訊息。最後,團隊成員 Amanda Curry 創造了一個,基於規則的人格機器人,為產品的最終形態,賦予一個完整而穩定的特徵。
她仔細選擇了一些擬人事實儲存在系統中(比如系統最喜歡的音樂,是 Radiohead 的 Paranoid Android)。「我認為它可以幫助人們瞭解,機器人也可以有人格,比如喜歡的顏色,」Curry 說。
在接收到用戶的話語後,至少會有一個組件機器人試圖響應,就像一群躍躍欲試的學生在舉手發言。為了選出最佳的響應,Heriot-Watt 團隊為其系統,設計了統計學方法,來評價這些備用選項:它對用戶的響應在語義上說得通嗎?它的回答與用戶剛才說的話太相似了,幾乎成了複述?這個話題有沒有答非所問?回覆長度有沒有過短或過長?
最初,Heriot-Watt 只是憑借經驗,定下了每個矩陣的權重。但到了秋天,他們已經開始使用一個能夠自動調整權重的神經網路,來最大限度地提高用戶評分。
競爭意識十分激烈的 Lemon 很高興地看到,用戶評分正在變得越來越好。隨著比賽的推移,Heriot-Watt 漸漸躋身到了前列。
Heriot-Watt 在積分榜上漸入佳境的同時,華盛頓大學一直穩坐前三名。該團隊採用了一種稍顯冒險的方式,他們將基於規則的編程方法,和機器學習混合到系統中。
團隊希望用戶在交談過程中感到愉快,因而其社交機器人有著與其隊長相似的性格特點。隊長名為郝方(音),28 歲,來自中國南方的一個山城宜春市。他活潑好動、異常開朗。這似乎成了他們的優勢。那麼,他們是如何創造出,令人樂在其中的談話風格的呢?
在早期,郝方發現,華盛頓大學團隊的系統,就像其它比賽中的許多系統那樣,經常選擇令人沮喪的新聞(「火箭爆炸致 17 人死亡」),或是呆板的事實陳述(「家庭或住所,是一個作為永久性,或半永久性住宅的居住地」)。
因此華盛頓大學團隊改編了系統,過濾掉令用戶反感的內容。郝方表示,該系統應該尋求「更有趣、更令人振奮、對話式」的內容,這些內容通常來自 subreddits 板塊,比如 Today I Learned、Showerthoughts 和 Uplifting News。這些語料可以讓社交機器人,迅速生成一些活潑的內容,比如,「對於一支靠翻唱為生的樂隊,古典音樂是唯一的出路。」
當人們感到被傾聽時,他們會更加快樂。因此,華盛頓大學團隊教其系統對話語,進行仔細分類。機器人是該用一個事實來回答問題?還是應該提供一個觀點?或者應當回答私人問題?
該小組還手動製作了大量的反饋話術,比如「你似乎是想談談新聞」,「很高興你喜歡它」,「對不起,我不明白」之類的話。健談的同時,還要注重人的情感,所以華盛頓大學團隊對 2000 個會話樣本的情感特徵,進行了人工標記,並用它們來教社交機器人,辨識人的反應——高興、厭惡、愉快、好奇——並做出相應的反應。
這些只是這個社交機器人宏偉願景中的一小步,但對於研究者們來說,在追求語言的貼心和流暢方面,他們已經走了很長的一段路。
8 月 29 日,亞馬遜宣佈了入圍決賽的三支隊伍。其結果有點出人意外,就像在大學籃球比賽中,明星球隊未能眾望所歸,而無名小輩卻欣然入選。蒙特婁大學團隊未能進入決賽,因為他們大力推進機器學習,沒有重視曾經被證明有效的其它策略。
最終入圍的三支隊伍包括:Heriot-Watt,該團隊作為「外卡」選手,在用戶評分榜中,晉升至第三位,該結果是由亞馬遜經過嚴格的內部評估後得到的;一直名列前茅的華盛頓大學排在第二位;捷克技術大學出乎所有人的意料,登上了第一名的寶座。每個團隊都有一個半月的時間,來完善他們的系統,然後在西雅圖進行最終的評判。