不要問國家為你做了什麼,而要問你為國家做了什麼?
——甘迺迪(1961年)
上面這樣經典的政治演講少之又少,普普通通的演講倒是很多,比如美國國會的辯論演講。這些演講大多千篇一律,都遵循標準的格式,重複相似的論調,甚至使用一樣的短語來表述特定的政治立場和觀點。看起來好像背後有一套演算法在決定它的內容。
於是它引導我們去思考一個有趣的問題:有沒有可能讓機器自動撰寫政治演講稿呢?
美國麻塞諸塞大學研究人員Valentin Kassarnig為我們帶來了答案,他開發了一套撰寫政治演講稿的人工智慧(AI)機器演算法,機器寫出的講稿幾乎可以以假亂真。
分析文本預測單詞
從表面上看,基本原理還是很簡單的。Kassarnig首先建了一個資料庫,從53場美國國會辯論中抽取4000個政治演講片斷,編成一套「機器學習」演算法,讓它自動撰寫稿件。這些政治演講由5萬多個句子組成,平均每個句子包涵23個單詞。凱斯塞寧將演講按政黨進行分類,比如哪些是民主黨的,哪些是共和黨的,看它們是否贊同或者反對某個特定的主題。
魔鬼在於細節,分析資料庫是最大的挑戰。在嘗試了許多種技術之後,Kassarnig最終採用了基於「N-grams(元語法模型即瑪律可夫模型)」的方法。他首先用詞類法分析文本,也就是用語法規則來給每一個詞語和短語作標誌(標為名詞、動詞、形容詞等)。然後分析第6個詞或者短語,根據前5個詞或者短語判斷第6個詞,或者短語最有可能是什麼。Kassarnig說:「只要看它前面是5個是什麼,我們就可以很快確定所有的單詞。」
在分析詞的過程中演講稿會同步生成。Kassarnig需要告訴演算法寫什麼類型的演講稿,比如是給民主黨寫,還是給共和黨寫。演算法最開始會按給定的類別搜索6個詞,或者短語組成的資料庫,然後用5個詞或者短語作為起點來撰寫演講稿。
演算法的寫作從隨機選擇的5個詞或者短語開始,然後選擇可以與之相關聯的下一個單詞。Kassarnig說:「跟著系統就會自動一個接一個地預測單詞,並最終預測演講的結尾。」
整個過程有一些技巧。例如,演算法會知道演講中,最可能出現的特定主題是什麼,然後它會挑選其它主題,嵌入到演講中去,它還要決定如何修飾這些主題。
機器的政治寫作水準挺高
下面是機器寫的一則民主黨講稿:
「議長先生,多年來,因為受到破產法的保護,誠實而不幸的消費者,可以為自己的案子進行申訴了,最終他們合理而有效地償還了債務。系統所採用的方法是管用的,破產法院會評估各種情況,如收入、資產、債務,從而決定哪些債務應該償還,決定消費者如何自力更生。讓我們支援增長和機會,請通過這項立法。」
寫出來的文稿還算通順,畢竟Kassarnig的人工智慧演算法,還沒有接受過訓練,它只是在最開始時作了標記,並對政治演講按6個片語,或者短語進行過一番分析。他用一些標準對演講稿進行評估,比如檢查語法正確性、句子過渡、講稿結構和內容,評估發現機器寫的東西很不錯。Kassarnig說:「特別值得欣慰的是講稿的語法很正確,句子過渡也非常流暢。」
儘管如此,讓機器演算法走上政治舞臺,Kassarnig並不樂觀:「儘管演算法的確可以為政治家撰寫演講稿,但它的結果不太可能好。」願意使用這套演算法的政客沒幾個。
幸好演算法還可以用來撰寫其它類型的文本,比如新聞,只要根據同樣的事件給它們提供一些故事就可以了。它還可以用來寫博客,只要為它準備一個很大的資料庫,在裡面裝滿相似的文章就行了。
凱斯塞寧希望大家都來試一試,他已經將原始程式碼發佈在GitHub上,快去試下吧。
via techreview
沒有留言:
張貼留言