0
| 本文作者: 高婓 | 2016-08-13 12:41 | 專題:CCF-GAIR | 全球人工智能與機(jī)器人峰會(huì) |
李明,加拿大皇家學(xué)會(huì)院士,滑鐵盧大學(xué)教授,現(xiàn)代信息論奠基者,國(guó)家“”專家
在 2016 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì)上,李明院士接受了雷鋒網(wǎng)的采訪,分享了他對(duì)用深度學(xué)習(xí)對(duì)付NLP(自然語(yǔ)言處理)難題的看法,及深度學(xué)習(xí)在NLP研究領(lǐng)域的未來應(yīng)用
李明院士:入選加拿大皇家學(xué)會(huì)的程序沒有那么繁瑣,獲得評(píng)選資格后,由一兩個(gè)院士寫支持信,院士評(píng)選會(huì)進(jìn)行評(píng)選,比較公正。與中國(guó)工程院的體系不同,英國(guó)加拿大皇家科學(xué)院包括科學(xué),工程,社科類,法律等。
雷鋒網(wǎng):當(dāng)前在語(yǔ)義理解方面深度學(xué)習(xí)在科學(xué)上是否有突破性的進(jìn)展?
李明院士:Siri主要通過關(guān)鍵字來識(shí)別語(yǔ)義信息,比如,你問“魚吃什么”,它會(huì)回答“海鮮館”類信息,容易犯錯(cuò)誤,而模版(icon)匹配,太嚴(yán)格,不靈活,“美國(guó)總統(tǒng)是誰(shuí)”,你可以獲得準(zhǔn)確答案“奧巴馬”,但是對(duì)于“美國(guó)總統(tǒng)是誰(shuí)啊”這樣的問題形式,基于模板的語(yǔ)義理解則不能識(shí)別。而我們運(yùn)用的深度學(xué)習(xí)不同于別的公司,可以把對(duì)這個(gè)問題的回答變得具有魯棒性,不會(huì)出現(xiàn)很多錯(cuò)誤,而這是非常關(guān)鍵的,也就是說,深度學(xué)習(xí)可以解決這一問題。深度學(xué)習(xí)也存在局限性,比如需要很多大數(shù)據(jù)來訓(xùn)練,而我們公司的優(yōu)勢(shì)在于我們可以自己生成大量數(shù)據(jù)。
雷鋒網(wǎng):微軟的聊天機(jī)器人是通過網(wǎng)絡(luò)公開采集數(shù)據(jù)進(jìn)行訓(xùn)練,回答問題時(shí)可能會(huì)出現(xiàn)不友好的現(xiàn)象,未來有沒有可能制造出個(gè)性化聊天機(jī)器人?
李明院士:比如,聊天機(jī)器人小冰之所以出現(xiàn)這么多問題,主要原因是信息復(fù)制的。我們運(yùn)用的深度學(xué)習(xí)模型,可以將最主流的回答(友好的回答)篩選出來,將過濾掉支流的回答,這也是深度學(xué)習(xí)的問題所在,回答沒有特殊性,不過,深度學(xué)習(xí)可以在一定程度上避免這種不友好回答的問題?;蛘哒f,深度學(xué)習(xí)是否會(huì)因?yàn)闃颖咀銐虼?,可以包容所有的問題,實(shí)現(xiàn)個(gè)性化聊天?根據(jù)統(tǒng)計(jì)結(jié)果顯示,豆豆比小冰可以回答的問題多十倍。現(xiàn)在的深度學(xué)習(xí)有很多不是真正意義上的深度學(xué)習(xí)。我們的豆豆,有20多個(gè)深度學(xué)習(xí)模式,可以篩選出最優(yōu)的回答結(jié)果。此外,我們的聊天機(jī)器人的對(duì)話模式與方言無(wú)關(guān),只管語(yǔ)義信息的輸入。
雷鋒網(wǎng):在實(shí)際應(yīng)用中,“信息距離”理論是否存在理論上的局限性或技術(shù)上的難題?
李明院士:我們的“信息距離”理論在理論上無(wú)局限性,但是技術(shù)上有局限性,語(yǔ)義距離沒有定義,不可計(jì)算,信息距離有定義,但是也不可計(jì)算,只能通過壓縮的方式來度量,用“信息距離”來近似“語(yǔ)義距離”。具體壓縮方法:簡(jiǎn)單來講,如“明天明天”將被壓縮為一個(gè)詞語(yǔ)“明天”,實(shí)現(xiàn)信息方面的簡(jiǎn)化。
雷鋒網(wǎng):在實(shí)現(xiàn)大型文本關(guān)系理解(理解人類語(yǔ)言表達(dá)的結(jié)構(gòu)和意義)方面,相比其他算法與模型,深度學(xué)習(xí)的優(yōu)點(diǎn)體現(xiàn)在哪里?
李明院士:相比其他算法與模型,深度學(xué)習(xí)的優(yōu)點(diǎn)在于其對(duì)話魯棒性。一般用于實(shí)現(xiàn)機(jī)器人對(duì)話的辦法多為關(guān)鍵字法,模板匹配法,但是,相比這兩種方法,深度學(xué)習(xí)處理的對(duì)話信息可以以多種形式出現(xiàn),能夠容忍一些錯(cuò)誤,實(shí)現(xiàn)較為自然的人機(jī)交互對(duì)話。
李明院士:相比于漢語(yǔ)分詞,我們的系統(tǒng)不需要考慮英文分詞,因?yàn)橛⒄Z(yǔ)單詞之間有空格隔開,不用進(jìn)行分詞。
雷鋒網(wǎng):您認(rèn)為,深度學(xué)習(xí)在計(jì)算機(jī)智能處理自然語(yǔ)言方面需要做哪些方面的提升?
李明院士:下一步,基于大數(shù)據(jù),深度學(xué)習(xí)訓(xùn)練的好的話,未來的智能機(jī)器人可以讀書看報(bào),比如,讀紅樓夢(mèng),未來的智能機(jī)器人可以分辨清楚人物關(guān)系,譬如,小說中誰(shuí)喜歡誰(shuí),誰(shuí)是誰(shuí)的大姨媽,再比如,能夠分辨出三國(guó)演義中,誰(shuí)與誰(shuí)結(jié)義了?,F(xiàn)在深度學(xué)習(xí)可以回答類似下面的一類問題:林黛玉去了賈寶玉的房間。問:誰(shuí)去了賈寶玉的房間?當(dāng)前的深度學(xué)習(xí)可以回答:林黛玉,其回答問題的精度精確度可以達(dá)到70%到80%。
雷鋒網(wǎng):深度學(xué)習(xí)可以區(qū)分指示代詞的歧義現(xiàn)象嗎?
李明院士:現(xiàn)階段深度學(xué)習(xí)還不具備擁有的足夠量的背景知識(shí)來區(qū)分上下文語(yǔ)言歧義現(xiàn)象,不過,經(jīng)過訓(xùn)練,我想是可以實(shí)現(xiàn)的。機(jī)器人對(duì)話當(dāng)前可以實(shí)現(xiàn)寬泛的問答,不過,對(duì)于一些小的語(yǔ)言問題,比如,怎么理解“雞不吃了”,深度學(xué)習(xí)還沒有兼顧到。
雷鋒網(wǎng):當(dāng)前的人機(jī)對(duì)話模型發(fā)展得比較迅速,對(duì)于“機(jī)器會(huì)有意識(shí)嗎?”這樣的問題,可以與我們分享一下您的觀點(diǎn)嗎?
李明院士:其實(shí),目前的機(jī)器人自然語(yǔ)言對(duì)話,多是訓(xùn)練出來的。在眾多研究,沒有任何人能夠清楚地定義:什么叫意識(shí)?我認(rèn)為,機(jī)器人說話,類似于人說夢(mèng)話,你問一個(gè)夢(mèng)游的人一些問題,他是回答問題時(shí)是沒有意識(shí)的,卻能說的頭頭是到,機(jī)器人對(duì)話其實(shí)是一樣的。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章