close

 

煮酒品劍86:人工智慧的研究方向

楊惟雯

 

人工智慧(Artificial Intelligence, AI)亦稱機器智慧,
是指由人製造出來的機器所表現出來的智能

 

一、人工智慧的研究方向

 

人工智慧的研究,過去60多年來從未停歇,而今總算有了不凡的突破,從AlphaGo到智慧語音助理、自動駕駛技術等,無疑捕捉了無數人們的注意力,宣告著人工智慧時代的科技盛世已經到來。

 

關於人工智慧的核心研究,包括推理、知識、規劃、學習、交流、感知、移動和操作物體的能力等領域。
目前人工智慧的研究方向已經被分成幾個子領域,研究人員希望一個人工智慧系統應該具有以下特定能力:

 

1演繹、推理和解決問題能力

早期的人工智慧研究,研究人員直接模仿人類進行有意識的、一步一步的推理,就像是玩棋盤遊戲或進行邏輯推理時人類的思考模式。
到了19801990年代,利用概率和經濟學上的概念,人工智慧研究還發展了非常成功的方法處理不確定或不完整的資訊。

解決困難問題,也就是發生「可能組合爆增」,這時電腦需要大量的運算資源。因此,尋找更有效的演算法是優先的人工智慧研究專案。

 

但人類解決問題的模式,通常是用最快捷、直觀的判斷,而不是推理的方式。近期,人工智慧研究已經試圖以神經網路研究來類比人類和動物的大腦結構,重現這種能力。

 

2知識儲存+電腦程式=人工智慧

人工智慧主要目標為儲存知識,讓電腦程式能夠處理,達到人類的智慧。目前,這個領域仍然沒有一個完美的答案。

 

智慧Agent必須能夠先制定目標和實現這些目標。因此,研究人員需要一種方法來建立一個可預測的世界模型(將整個世界狀態用數學模型表現出來,並能預測它們的行為將如何改變這個世界),這樣才可以選擇功效最大的行為
在傳統的規劃問題中,智慧Agent被假定它是世界中唯一具有影響力的,所以它要做出什麼行為是已經確定的。但是,如果事實並非如此,它必須定期檢查世界模型的狀態是否和自己的預測相符合。如果不符合,它必須改變它的計畫。因此智慧代理必須具有在不確定結果的狀態下推理的能力。
在多Agent中,多個Agent規劃以合作和競爭的方式去完成一定的目標,使用演化演算法和群體智慧可以達成一個整體的突現行為目標。

 

3機器學習

機器學習的主要目的是為了從使用者和輸入資料等處獲得知識,從而可以幫助解決更多問題、減少錯誤,提高解決問題的效率。
對於人工智慧來說,機器學習從一開始就很重要。1956年,在最初的達特茅斯夏季會議上,雷蒙德索洛莫諾夫寫了一篇關於不監視的概率性機器學習:一個歸納推理的機器。

 

4自然語言處理

自然語言處理探討如何處理及運用自然語言,包括:自然語言認知系統是指讓電腦「懂」人類的語言;自然語言生成系統把計算機數據轉化為自然語言;自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式。

 

5運動和控制

 

6知覺

機器感知是指能夠使用感測器所輸入的資料(如照相機、麥克風、聲納以及其他的特殊感測器)然後推斷世界的狀態。
計算機視覺能夠分析影像輸入。
另外,還有語音識別、人臉辨識和物體辨識

 

7社交

情感和社交技能對於一個智慧agent是很重要的。首先,通過瞭解他們的動機和情感狀態,代理人能夠預測別人的行動(這涉及要素:博弈論、決策理論以及能夠塑造人的情感和情緒感知能力檢測)。
此外,為了良好的人機互動,智慧代理人也需要表現出情緒來。至少它必須出現禮貌地和人類打交道。至少,它本身應該有正常的情緒。

 

8創造力

一個人工智慧的子領域,代表了理論(從哲學和心理學的角度)和實際(通過特定的實現產生的系統的輸出是可以考慮的創意,或系統識別和評估創造力)所定義的創造力。相關領域研究的包括了人工直覺和人工想像。

 

9多元智能

大多數研究人員希望他們的研究最終將被納入一個具有多元智慧(稱為強人工智慧),結合以上所有的技能並且超越大部分人類的能力。上述許多問題被認為是人工智慧完整性:為瞭解決其中一個問題,你必須解決全部的問題。例如機器翻譯,要求機器按照作者的論點(推理),知道什麼是被人談論(知識),忠實地再現作者的意圖(情感計算)。因此,機器翻譯被認為是具有人工智慧完整性。

 

10倫理管理

史蒂芬·霍金、比爾蓋茲、馬斯克、 Jaan Tallinn 以及 Nick Bostrom 等人都對於人工智慧技術的未來公開表示憂心,人工智慧若在許多方面超越人類智慧水準的智慧、不斷更新、自我提升,進而取得控制管理權,人類是否有足夠的能力及時停止人工智慧領域的「軍備競賽」,能否保有最高掌控權,現有事實是:機器常失控導致人員傷亡,這樣的情況是否會更加擴大規模出現,歷史顯然無法給出可靠的樂觀答案。
特斯拉電動車馬斯克(Elon Musk)在麻省理工學院(MIT)航空航天部門百年紀念研討會上稱人工智慧是「召喚惡魔」行為,英國發明家Clive Sinclair認為一旦開始製造抵抗人類和超越人類的智慧機器,人類可能很難生存,蓋茲同意馬斯克和其它人所言,且不知道為何有些人不擔憂這個問題。新南威爾斯大學(New South Wales)人工智慧的沃爾什(Toby Walsh)教授認為這是一種欺騙,因為機器無區別戰敵和平民的技術。

 

科技進步,人工智慧科技產生「自主武器」軍備競賽已悄悄展開,英國、以色列與挪威,都已部署自主飛彈與無人操控的無人機,具「射後不理」(fire-and-forget)能力的飛彈,多枚飛彈還可互相溝通,分享找到攻擊目標。這些武器還未被大量投入,但很快就會出現在戰場上,且並非使用人類所設計的程式,而是完全利用機器自行決策。

 

霍金等人在英國獨立報發表文章警告未來人工智慧可能會比人類金融市場、科學家、人類領袖更能操縱人心、甚至研發出人們無法理解的武器。專家恐發展到無法控制的局面,援引聯合國禁止研發某些特定武器的「特定常規武器公約」加以限制。
 

DeepMind的人工智慧(AI)系統在2016年「AlphaGo」對戰南韓棋王李世乭獲勝,開發商即表示會在內部設立倫理委員會,針對人工智慧的應用制定政策,防範人工智慧淪為犯罪開發者。

 

11經濟衝擊

據CNN財經網數字媒體未來學家兼Webbmedia集團創始人艾米·韋伯、美國在線等紛紛預測一些即將被機器人取代的職業,日本野村總合研究所也與英國牛津大學的研究學者共同調查指出,1020年後,日本有49%的職業(235種職業)可能會被機械和人工智慧取代而消失,直接影響約達2500萬人,例如:超市店員、一般事務員、計程車司機、收費站運營商和收銀員、市場營銷人員、客服人員、製造業工人、金融中間人和分析師、新聞記者、電話公司職員、麻醉師、士兵和保安、律師、醫生、軟體開發者和操盤手、股票交易員等等高薪酬的腦力職業將最先受到衝擊。

 

2017年6月份馬雲在美國底特律舉行「鏈結世界」(Gateway 17)產業大會,會上提出人工智慧可能導致第三次世界大戰,因為前兩次產業革命都導致兩次大戰,戰爭遠因並非這些創新發明本身,而是發明對社會上許多人的生活方式衝擊處理不當,新科技在社會上產生新工作也取代舊工作,產生了新的輸家和贏家,若是輸家的人數太多將造成一股社會不穩的能量而這股能量被有心人利用可能導致各種事件。他認為各國應該強制訂定規定AI機器只能用於人類不能做的工作,避免短時間大量人類被取代的失業大潮,但馬雲沒有提出這種世界性規定將如何實現並確保遵守的細節方案。

 

反之,資料科學人工智慧被哈佛商業評論稱為《二十一世紀最Sexy的職業》,人才只能需求量大,鼓勵了不少大學諸如伯克利大學專門成立資料科學系。矽谷和紐約為主的《The Data Incubator》公司,2012年成立,焦點是資料科學、大資料,和人工智慧企業培訓,提供國際大資料培訓服務。

 

二、人工智慧的三大關鍵技術

 

人工智慧的研究領域因種種困難而起起落落,經歷了無數個轉角。起初仿造動物神經元,希望打造強人工智慧的人工神經網絡,卻是經歷了機器無法應付計算複雜度的困境,無法取得研究經費而停滯;同一時期,另一脈絡的弱人工智慧,則發展出博聞強記、解析度隨資料質與量逐步提升而快速進展的機器學習

如今,經一甲子努力,人工智慧已累積出三大關鍵技術:

 

關鍵技術一:人工神經網絡的文藝復興

 

對於人工智慧,一開始電腦科學家希望直接模仿生物的神經元運作,因此設計數學模型來模擬動物神經網絡的結構與功能。
所以,所謂人工神經網絡是一種仿造神經元運作的函數演算,能接受外界資訊輸入的刺激,且根據不同刺激影響的權重,轉換成輸出的反應,或用以改變內部函數的權重結構,以適應不同環境的數學模型。

 

機器學習此時是尋找適合讓電腦做預測或數學模型分類的一種演算方法。這種演算方法主要透過蒐集大量原始數據與標準答案,以訓練資料調整且選擇相應的數學模型,同時並藉由驗證資料比對計算分類結果,來判定模型是否適合用來預測或分類。

 

1951年,科學家馬文.閔斯基(Marvin Minsky)第一次嘗試建造了世上第一個神經元模擬器SnarcStochastic Neural Analog Reinforcement Calculator),它能夠在其40個「代理人」和一個獎勵系統的幫助下穿越迷宮。
六年後,康乃爾航空工程實驗室的法蘭克.羅森布拉特(Frank Rosenblatt)設計、發表神經網絡的感知器Perceptron)實作後,人工神經網絡(或稱類神經網絡)學者曾經一度振奮,認為這個突破終將帶領人工智慧邁向新的發展階段。

 

但人工智慧領域的研究在1970年代因為缺乏大規模數據資料、計算複雜度無法提升,無法把小範圍的問題成功拓展為大範圍問題,導致計算機領域無法取得更多科學研究預算的投入而沉寂。

 

到了1980年代,科學家首先透過思考上的突破,設計出新的演算方法來模擬人類神經元,迎來神經網絡發展的文藝復興時期。
物理學家約翰.霍普費爾德(John Hopfield)在1982率先發表Hopfield神經網絡,開啟了神經網絡可以遞迴設計的思考。
四年後,加州大學聖地牙哥分校教授大衛.魯梅爾哈特(David Rumelhart)提出了反向傳播法Back Propagation),透過每次資料輸入(刺激)的變化,計算出需要修正的權重回饋給原有函數,進一步刷新了機器「學習」的意義。

 

科學家更進一步把神經元延伸成為神經網,透過多層次的神經元締結而成的人工神經網絡,在函數表現上可以保有更多「被刺激」的「記憶」。目前多層次的人工神經網絡模型,主要包含輸入層(input layer)、隱層(hidden layer)與輸出層(output layer),另外根據資料輸入的流動方向,又分為單向流動或可以往回更新前一層權值的反向傳播法。

 

由於神經網絡模型非常仰賴計算規模能力,為了增加高度抽象資料層次的彈性,電腦科學家將之複合為更複雜、多層結構的模型,並佐以多重的非線性轉換,將其稱之為深度學習Deep Learning)。

 

關鍵技術二:靠巨量數據運作的機器學習

 

科學家發現,要讓機器有智慧,並不一定要真正賦予它思辯能力,可以大量閱讀、儲存資料並具有分辨的能力,就足以幫助人類工作。

1970年代,人工智慧學者從前一時期的研究發展,開始思辯在機器上顯現出人工智慧時,是否一定要讓機器真正具有思考能力

 

因此,人工智慧有了另一種劃分法:弱人工智慧(Weak AI)與強人工智慧(Strong AI)。弱人工智慧意指如果一台機器具有博聞、強記(可以快速掃描、儲存大量資料)與分辨的能力,它就具有表現出人工智慧的能力。強人工智慧則是希望建構出的系統架構可媲美人類,可以思考並做出適當反應,真正具有人工智慧。

 

機器學習(Machine Learning)可以視為弱人工智慧的代表,只要定義出問題,蒐集了適當的資料(資料中通常需要包含原始數據與標準答案,例如人像圖片與該圖片內人像的性別、年齡),再將資料分做兩堆:訓練用與驗證用,以訓練用資料進行學習,透過特定的分類演算法抽取特徵值,建構出資料的數學模型,以該數學模型輸入驗證用資料,比對演算的分類結果是否與真實答案一樣,如果該數學模型能夠達到一定比例的答對率,則我們認為這個機器學習模型是有效的。這種具有標準答案,並以計算出的預期結果進行驗證的機器學習,通常被稱為監督式學習

 

相對於監督式學習,非監督式學習則強調不知道資料該如何分類的機器學習,換句話說,我們提供電腦大量資料,但不告訴它(或許我們也真的不知道)這些資料該用什麼方式進行分類,然後電腦透過演算法將資料分類,人類只針對最終資料分類進行判別在數據尋找規律就是機器學習的基礎。

 

機器學習的發展方向,是在設計、分析一些讓電腦可以自動「學習」的演算法讓機器得以從自動分析資料的過程中建立規則,並利用這些規則對還沒有進行分析的未知資料進行預測。過程中,時常運用統計學技巧,並轉化成電腦程式,進而計算出資料的分界條件來做預測。

 

深度學習(Deep Learning)是機器學習的一種分支,也是目前機器學習發展方向的主流。其概念主要是複合多層複雜結構的人工神經網絡,並將其中函數作多重非線性轉換,使之增加高度抽象化資料、記憶資料影響能力。

 

弱人工智慧作為人工智慧領域的發展途徑,無論是監督式學習或非監督式學習,隨著資料被大規模蒐集、經由網際網路被傳遞、輔以雲端架構支援的運算,用機器學習來解決人類基礎的問題變成一種可能。

 

目前機器學習也是人工智慧商業應用最廣泛的一種技術。舉凡搜尋引擎、圖像辨識、生物特徵識別、語音與手寫識別與自然語言處理、甚至是檢測金融詐欺等等,都是常見的應用。

 

關鍵技術三:人工智慧的重要應用----自然語言處理

 

對人類來說,如何讓這些自己製造出來的機器們,可以聽懂人話,並與人類「合作」,絕對是可以推動我們面對未知宇宙的重要助手。

自然語言處理(Natural Language Processing, NLP)的研究,是要讓機器「理解」人類的語言,是人工智慧領域裡的其中一項重要分支。

 

英國雷丁大學的演化生物學家馬克.佩葛(Mark Pagel)認為,最早的一種「社會科技」是人類的「語言」,語言的發明讓早期人類部落透過新工具:「合作」在演化上佔有優勢。

 

自然語言處理可先簡單理解分為進、出計算機等兩種:其一是從人類到電腦──讓電腦把人類的語言轉換成程式可以處理的型式,其二是從電腦回饋到人──把電腦所演算的成果轉換成人類可以理解的語言表達出來。

所以,自然語言處理又可分為不同的階段,包含:語音或文字辨識、自動分詞與詞性標注、語句生成與文本朗讀…等。主要著重如何以電腦處理並運用自然語言,並企圖讓機器「理解」人類的語言,是人工智慧領域裡的其中一項重要分支。

 

無論是從人類到電腦,或從電腦到人類,語言處理通常都使用到我們一般學習外語所要具備的聽、說、讀、寫等技能。其中:聽與說主要使用到聽覺與發音,對電腦而言就是能夠透過麥克風「聽」到人類說話,把聽到的聲音轉成文字(這是語音辨識),或把電腦想要表達的意思轉成人類可以理解的詞句(這是自然語言生成),再用耳機或喇叭「唸」給人類聽(這是語音合成,功能通常稱作文本朗讀text to speech)。
 

另外,科學家與工程師們也致力於影像文字辨識,影像來源可以是掃描完成的檔影像檔案、也可以是手機鏡頭的即時影像,目標的文字體則可以是一般鉛字印刷品或列印的檔,也可以是手寫文字(手寫文字辨識)。

 

當計算機透過「聽」或「讀」,將人類的話語或文章轉成文字、語句進到處理層,還需要能夠自動分詞(word segmentation),也就是電腦必須拆解人類的語句來理解語意,才可以進而給出相應的答案。
例如一般人對手機說:「今天香港會不會下雨」,手機必須錄下聲音、並且濾掉雜音、將這句話的聲音轉化為文字、將這句文字拆解成不同詞句,並標注上不同詞性(speech tagging)。

在「瞭解」使用者想要知道氣象資訊的命令後,手機必須對能提供「天氣」資訊的伺服器發出相應的(告訴伺服器要的地理資料是香港、並把今天轉換為實際的日期時間)資訊請求,包含未來數小時區間氣溫、氣象(是多雲、雨或晴天等)、風速、降雨機率、濕度、氣壓、空氣品質或紫外線指數等。

 

當伺服器回應了前述的相應數據後,手機可以選擇用螢幕畫面來回應,但更貼心的作法是把這些資訊翻譯成「人話」,然後用聲音唸出來。這時的處理可以把「香港接下來八小時會是晴天,氣溫攝氏25度,降雨機率是10%,空氣品質良好」這個句子,透過合成不同語詞聲音後說出來。但是,使用者問的其實是「會不會」下雨,所以必須進一步把降雨機率10%、晴天等等資訊轉換成「會不會」的尺度,例如10%可以轉化為「不太會」或是「只有很小的機率」一詞。

 

人類互動最重要的工具就是語言,無論是文字或語音,目前語音智慧助理讓人能和機器說話,無非是近年行動裝置普及後,最令人興奮的進展之一。

 

(本文參考資料來源: 數位時代 )

arrow
arrow
    全站熱搜

    大宅配 發表在 痞客邦 留言(0) 人氣()