大公網(wǎng)

大公報(bào)電子版
首頁 > 生活 > 3c科技 > 正文

?遷移學(xué)習(xí),人工智能技術(shù)的“明天”

2019-02-19 03:17:32大公報(bào)
字號(hào)
放大
標(biāo)準(zhǔn)
分享

 

  圖:人工智能(AI)是近年來世界範(fàn)圍內(nèi)最熱門的科學(xué)技術(shù)之一

  近年,人工智能(AI)在世界範(fàn)圍內(nèi)掀起一股浪潮,許多國(guó)家將人工智能技術(shù)的發(fā)展提到了國(guó)家戰(zhàn)略的高度,國(guó)內(nèi)外一些有名的科技公司都開始在這方面投入大量的資源進(jìn)行研發(fā)和應(yīng)用。其中在國(guó)外比較具有代表性的有谷歌、微軟和Facebook等,內(nèi)地的百度、阿里巴巴、騰訊等互聯(lián)網(wǎng)公司也紛紛對(duì)人工智能領(lǐng)域的技術(shù)研發(fā)和應(yīng)用進(jìn)行布局。/朱鳳天、汪漪、王向榮

  “人工智能”一詞并不是一個(gè)新的概念,早在上個(gè)世紀(jì)的五十年代,對(duì)這個(gè)領(lǐng)域的探索就已經(jīng)開始了。當(dāng)時(shí)的科學(xué)家們提出了“要用人工智能來模擬人類的智慧”這一大膽的目標(biāo)。在這之后,人工智能這一領(lǐng)域便迎來了自己的第一個(gè)“黃金時(shí)代”,此后,這一領(lǐng)域又反反覆覆出現(xiàn)過幾次發(fā)展的高潮與低谷。有人將這一段對(duì)人工智能領(lǐng)域探索的歷史稱為“喧囂與渴望、挫折與失望交替出現(xiàn)的時(shí)代”。

  從深度學(xué)習(xí)到遷移學(xué)習(xí)

  近年,由於神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)在算法上的突破,使得眾多基礎(chǔ)人工智能水平得到很大的提升。人工智能的各種相關(guān)領(lǐng)域藉著深度學(xué)習(xí)有了更高層次的發(fā)展。就目前來說,深度學(xué)習(xí)方法對(duì)圖像視覺領(lǐng)域的問題解決有著相當(dāng)不錯(cuò)的效果,可是這種方法并不能對(duì)所有問題都適用。

  一些有延遲反饋的相關(guān)問題,比如機(jī)器人的運(yùn)動(dòng)路徑規(guī)劃問題。還有前段時(shí)間那隻下圍棋贏了世界冠軍柯潔的“阿爾法狗”,就是用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種方法相結(jié)合去開發(fā)的。還有一些小規(guī)模數(shù)據(jù)問題,深度學(xué)習(xí)的模型依賴大規(guī)模的數(shù)據(jù)去訓(xùn)練,可是現(xiàn)實(shí)生活中并不是每一類需要解決的問題我們都能獲得相應(yīng)的大量數(shù)據(jù),這一類問題我們僅靠深度學(xué)習(xí)方法就沒辦法很好地解決,而處理這一類小規(guī)模數(shù)據(jù)問題的最好方法就是本文的介紹對(duì)象—遷移學(xué)習(xí)。

  遷移學(xué)習(xí)可優(yōu)化的領(lǐng)域

  計(jì)算機(jī)視覺:

  基於不同的CNN架構(gòu),深度學(xué)習(xí)在多種計(jì)算機(jī)視覺任務(wù)上的應(yīng)用取得了相當(dāng)大的成功。遷移學(xué)習(xí)在視覺這一領(lǐng)域可以幫助我們?cè)陲L(fēng)格遷移和人臉識(shí)別等目標(biāo)任務(wù)中利用現(xiàn)有的當(dāng)前最先進(jìn)模型,雖然目標(biāo)領(lǐng)域的任務(wù)可能不同,不過可以將現(xiàn)有優(yōu)秀模型的可取之處遷移到目標(biāo)任務(wù)當(dāng)中。

  自然語言處理:

  對(duì)自然語言處理而言,其本身的進(jìn)展就不如計(jì)算機(jī)視覺那樣成熟,文本數(shù)據(jù)給深度學(xué)習(xí)提出了各種各樣的挑戰(zhàn)。使用遷移學(xué)習(xí)中預(yù)先訓(xùn)練的方法以及加入文檔嵌入層,可以在數(shù)據(jù)量較小時(shí)也可以取得很優(yōu)秀的效果。通過從源領(lǐng)域遷移知識(shí),可將其應(yīng)用到情感分析和文本分類等任務(wù)當(dāng)中。

  音頻處理:

  類似於自然語言處理和視覺,遷移學(xué)習(xí)也在提升優(yōu)化基於深度學(xué)習(xí)的音頻數(shù)據(jù)任務(wù)模型中取得了不錯(cuò)的效果。

  何謂遷移學(xué)習(xí)

  前百度首席科學(xué)家、史丹福大學(xué)教授吳恩達(dá)(Andrew Ng)在一次採(cǎi)訪中曾說到過:“遷移學(xué)習(xí)將會(huì)是繼監(jiān)督學(xué)習(xí)之后的下一個(gè)機(jī)器學(xué)習(xí)商業(yè)成功的驅(qū)動(dòng)力”。吳恩達(dá)教授之所以會(huì)認(rèn)為遷移學(xué)習(xí)是未來最有活力的機(jī)器學(xué)習(xí)領(lǐng)域,就是因?yàn)檫w移學(xué)習(xí)能夠解決現(xiàn)有方法無法解決的問題。遷移學(xué)習(xí)(Transfer Learning),也可以叫做領(lǐng)域適配(Domain Adaptation),就是指將從源領(lǐng)域?qū)W習(xí)到的東西應(yīng)用到目標(biāo)領(lǐng)域上,當(dāng)然源領(lǐng)域與目標(biāo)領(lǐng)域之間有一些差異,比如兩個(gè)領(lǐng)域的數(shù)據(jù)的分布不同等。簡(jiǎn)單地說就是遷移學(xué)習(xí)可以從現(xiàn)有的數(shù)據(jù)中遷移學(xué)習(xí)的東西,用在將來的任務(wù)當(dāng)中。把從別的領(lǐng)域?qū)W習(xí)到的知識(shí)應(yīng)用到新的環(huán)境中。由此可以明顯的感覺到,這樣的人工智能是更加符合人類對(duì)“人工智能”的期望。

  當(dāng)前階段,遷移學(xué)習(xí)方法一般用來解決的問題有兩類,分別是前文提到的小規(guī)模數(shù)據(jù)問題和個(gè)性化問題。當(dāng)遇到小規(guī)模數(shù)據(jù)問題,我們沒有辦法使用足夠的數(shù)據(jù)基於深度學(xué)習(xí)方法訓(xùn)練出一個(gè)可以很好解決問題的模型,遷移學(xué)習(xí)這時(shí)候的解決方法就是找一個(gè)有些許關(guān)聯(lián)(當(dāng)然也有差異)的另一個(gè)已有足夠數(shù)據(jù)的問題,利用這個(gè)問題的數(shù)據(jù),去建立一個(gè)模型,再結(jié)合兩個(gè)問題的關(guān)聯(lián),就可以將這個(gè)模型遷移到我們所需要解決的問題上。

  第二個(gè)是個(gè)性化問題,比如我們每個(gè)人都希望自己的一些電子設(shè)備(比如手機(jī))能夠記住自己的一些習(xí)慣,這樣就不用每次都去設(shè)定它,通過遷移學(xué)習(xí)我們就可以將一個(gè)通用的用戶使用手機(jī)的習(xí)慣模型遷移到個(gè)性化數(shù)據(jù)當(dāng)中。

  遷移學(xué)習(xí)的具體應(yīng)用場(chǎng)景

  醫(yī)療影像分析:   在醫(yī)學(xué)影像分析任務(wù)中,醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)的標(biāo)註需要先驗(yàn)的醫(yī)學(xué)知識(shí),適合標(biāo)註此類數(shù)據(jù)的人群稀少,從而導(dǎo)致訓(xùn)練數(shù)據(jù)嚴(yán)重稀缺,深度學(xué)習(xí)將不再適用??梢詫⑦w移學(xué)習(xí)應(yīng)用到醫(yī)學(xué)圖像的語義映射中,利用圖像識(shí)別的結(jié)果幫助醫(yī)生對(duì)患者進(jìn)行診斷,從而減輕醫(yī)生的工作負(fù)擔(dān),促進(jìn)醫(yī)療實(shí)現(xiàn)轉(zhuǎn)型。

  藝術(shù)風(fēng)格遷移:

  藝術(shù)風(fēng)格遷移是一個(gè)頗具歷史性的話題,多少藝術(shù)家為了模仿名家的作品風(fēng)煞費(fèi)苦心,遷移學(xué)習(xí)卻可以輕鬆做到這一點(diǎn)。比如我們可以將從梵高的畫中學(xué)習(xí)到的“知識(shí)”應(yīng)用到新的圖像中,一隻梵高風(fēng)格的貓就被“畫”出來了。

  語音識(shí)別:

  語音識(shí)別一直是人工智能領(lǐng)域的重要問題,因?yàn)槿藗內(nèi)绾卧u(píng)價(jià)“智能”這個(gè)屬性,很大一方面就是從機(jī)器與人類的交互性上去度量。針對(duì)英語自動(dòng)識(shí)別模型(ASR)就曾在遷移學(xué)習(xí)方法下,被成功應(yīng)用到提升法語等其他語言識(shí)別的模型下,給目標(biāo)任務(wù)帶來大幅表現(xiàn)提升。

  自動(dòng)駕駛模型訓(xùn)練:

  在自動(dòng)駕駛的任務(wù)當(dāng)中,需要大量的經(jīng)驗(yàn)數(shù)據(jù)訓(xùn)練模型??墒侵苯釉趯?shí)際場(chǎng)景中進(jìn)行採(cǎi)集數(shù)據(jù)非常費(fèi)事費(fèi)力,成本很高,而且有很大的危險(xiǎn)性。所以現(xiàn)在許多公司直接使用仿真模擬器訓(xùn)練模型,之后再把學(xué)到的“知識(shí)”用於實(shí)際測(cè)試當(dāng)中,并不斷優(yōu)化。

  遷移學(xué)習(xí)的分類

  根據(jù)我們從源領(lǐng)域到目的領(lǐng)域所遷移的具體內(nèi)容,目前可以把遷移學(xué)習(xí)分為四大類,分別是基於實(shí)例的遷移學(xué)習(xí)(Instance-based Transfer Learning),基於特征的遷移學(xué)習(xí)(Feature-based Transfer Learning),基於參數(shù)的遷移學(xué)習(xí)(Parameter-based Transfer Learning)和基於關(guān)係知識(shí)的遷移學(xué)習(xí)(Relational-Knowledge-based Transfer Learning)。

  基於實(shí)例的遷移學(xué)習(xí)

  該方法的基本思想是根據(jù)一個(gè)確定的相似度匹配原則從源領(lǐng)域中尋找和目的領(lǐng)域相似度較高的實(shí)例(Instance),將這些篩選出的實(shí)例遷移到目的領(lǐng)域中去幫助目的領(lǐng)域模型的訓(xùn)練,從而就可以幫助解決目的領(lǐng)域數(shù)據(jù)樣本不足,標(biāo)籤不足等問題。一般的方法是對(duì)實(shí)例進(jìn)行加權(quán)處理,在訓(xùn)練過程總對(duì)更加重要的實(shí)例加權(quán),對(duì)沒那麼重要的實(shí)例進(jìn)行降權(quán),從而讓最終訓(xùn)練結(jié)果更好。

  基於特征的遷移學(xué)習(xí)

  該方法指的是在特征空間進(jìn)行遷移,這種方式一般需要將源領(lǐng)域和目的領(lǐng)域的特征投影到同一個(gè)特征空間,然后從源領(lǐng)域?qū)W習(xí)一個(gè)好的特征,將學(xué)到的通過特征形式進(jìn)行編碼傳到目的領(lǐng)域,從而提升目的領(lǐng)域的學(xué)習(xí)效果。

  基於參數(shù)的遷移學(xué)習(xí)

  該方法要求源領(lǐng)域和目標(biāo)領(lǐng)域的任務(wù)之間共享相同的模型參數(shù),或者服從相同的先驗(yàn)分布。從而將已經(jīng)學(xué)到的參數(shù)相關(guān)知識(shí)遷移。

  基於關(guān)係知識(shí)的遷移學(xué)習(xí)

  該方法假設(shè)源領(lǐng)域和目的領(lǐng)域的數(shù)據(jù)之間的聯(lián)繫是相同的,通過在源領(lǐng)域和目的領(lǐng)域的關(guān)係模型之間建立一個(gè)映射模型從而達(dá)到遷移的目的。

  挑戰(zhàn)與展望

  遷移學(xué)習(xí)作為人工智能領(lǐng)域的方向,說明人工智能領(lǐng)域?qū)?huì)往更加“智能化”的方向發(fā)展,將會(huì)為人類解決更多的問題。不過就目前來說,遷移學(xué)習(xí)仍然是一個(gè)新興領(lǐng)域,目前主要是學(xué)術(shù)界在進(jìn)行算法的研究,在業(yè)界的實(shí)際應(yīng)用落地方面還需進(jìn)一步的發(fā)展。

  就遷移學(xué)習(xí)技術(shù)特點(diǎn),以及目前的發(fā)展現(xiàn)狀,我們可以推測(cè),遷移學(xué)習(xí)未來可能的發(fā)展方向有以下幾種:(1)跨領(lǐng)域的遷移學(xué)習(xí)。(2)遷移學(xué)習(xí)與多種深度學(xué)習(xí)方法相結(jié)合。(3)利用遷移學(xué)習(xí)處理數(shù)據(jù)之間的偏差。(4)將遷移學(xué)習(xí)應(yīng)用到非平穩(wěn)環(huán)境的大數(shù)據(jù)分析平臺(tái)。

  總之,遷移學(xué)習(xí)代表了人工智能的“明天”,一定會(huì)成為人工智能領(lǐng)域發(fā)展的又一個(gè)重要推動(dòng)力。

  下期“3C科技”將於3月5日刊登

點(diǎn)擊排行