新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 清華大學史元春:人工智能使人機交互成為現(xiàn)實

清華大學史元春:人工智能使人機交互成為現(xiàn)實

作者: 時間:2018-01-15 來源:新浪科技 收藏

  1月15日消息,在“新時代 新發(fā)展”的清華五道口金融EMBA&EE 2018年新年思想?yún)R活動中,清華大學計算機系人交互與媒體集成研究所長、信息科技術(shù)國家實驗室普適計算研究部主任、全球創(chuàng)新學院 (GIX) 學院院長史元春,進行了題為“智能交互——讓機器更懂你”的分享。她認為在普適計算機時代,隨著更多的嵌入式設(shè)備的出現(xiàn),如何更加自然地進行人機之間的信息交換具有重要意義。

本文引用地址:http://m.butianyuan.cn/article/201801/374416.htm

  史元春指出,在計算機幾十年的發(fā)展過程中,也就是人和機器之間的信息交換的技術(shù),我們可以不夸張的說,也是一項引領(lǐng)性的技術(shù)。而和大數(shù)據(jù)的進步使成為現(xiàn)實、可用。

  史元春認為,的目的是為了讓機器更懂“你”,讓用戶更加自如。她還通過“胖手指”、“空中打字”等案例分享了人機交互領(lǐng)域一些前沿的技術(shù)突破。

  “智能技術(shù)的研究,也就是我們把一些模糊和用戶行為習慣識別為具體、準確交互意圖的研究,大有可為”,史元春認為,未來有望通過數(shù)據(jù)采集和建模來捕捉用戶的所有姿態(tài)和行為,從而生產(chǎn)出真正理解用戶的手機,讓手機交互行為的感知更加精準和智能。

  史元春表示,技術(shù)的深度應(yīng)用,能做到從模糊的行為習慣中解讀出準確的意圖,將為未來人機共生提供可靠的技術(shù)基礎(chǔ)。(王上)

  以下為史元春演講實錄:

  各位下午好,非常榮幸有這個機會和五道口金融學院的老師和學生們交流,我叫史元春。我跟大家的經(jīng)歷不太一樣,來自于計算機系。并且我在這個學校和計算機系有30多年了,從學生到老師。簡介中談到我是GIX學院院長。GIX的英文叫Global Innovation Exchange,是清華大學全球創(chuàng)新學員,它也是清華第一個在海外辦起來的學院。

  是我們在兩年多以前在美國的西雅圖和華盛頓大學聯(lián)合創(chuàng)辦,也很歡迎我們更多的五道口金融學院的同學,能夠有機會去西雅圖,我們清華那樣一個特別的學區(qū)來學習和交流。

  今天這個演講的題目是關(guān)于我的科研的,科目叫智能交互。這里的交互是指人機交互。我們知道計算機的發(fā)展歷史只有幾十年,不是很長,但是這幾十年來它已經(jīng)和正在為我們的社會發(fā)展帶來了巨大的變化,在計算機幾十年的發(fā)展過程中,人機交互也就是人和機器之間的信息交換的技術(shù),我們可以不夸張的說,也是一項引領(lǐng)性的技術(shù)。

  從我的這個表上大家應(yīng)該可以看的出來,隨著接口技術(shù)的變化,交互模式也發(fā)生了變化,計算機從實驗室、機房已經(jīng)走到了我們的辦公室、家庭,甚至今天已經(jīng)都走到了我們的手上,計算機的臺數(shù)也發(fā)生了極大的數(shù)量級變化。

  到了今天,我們已經(jīng)走到了所謂的普適計算的時代,也就是說在我們的工作和生活的很多方面,我們有特殊的手持的設(shè)備,像今天的手機,也有更多的嵌入式的系統(tǒng),像家電設(shè)備,還有更多實業(yè)以及社會生活場景會有越來越多這樣的設(shè)備,我們?nèi)藗儠懈?、更頻繁的,并且希望與更自然的方式,和這個機器發(fā)生著關(guān)系。

  也就是說我們可能會與手持的設(shè)備、家電的設(shè)備、穿戴的設(shè)備,機器人和無人車,以更自然的模態(tài),G比如說包括用語音、用語義豐富的手勢,甚至是我們?nèi)粘5男袨椋诤芏嗟膱鼍爸?,可以跟機器的系統(tǒng),計算的系統(tǒng)發(fā)生互動,有效的來進行信息訪問和信息系統(tǒng)提供給我們的現(xiàn)實服務(wù)。這些接口、終端和任務(wù),我都在我們使用過程中,首位的自然,就是需要我們的人不需要那樣很精準的表達,是一種模糊的表達和傳達的方式。

  但是,在機器端能夠給我們精準的理解和服務(wù)。

  我們今天的這些交互方式其實還是很規(guī)范的,甚至我們都在用的手機,它是一個嚴謹?shù)慕Y(jié)構(gòu),一個抽象的概念,我們有一點的學習甚至是記憶的附和,還要有比較準確的表達。

  如果要實現(xiàn)這個人的模糊的表達,到精準的服務(wù)之間,需要克服這樣一些技術(shù)挑戰(zhàn):

  比如我們的交互意圖很內(nèi)在,那么我們獲得的數(shù)據(jù)隨機性很大,用故行為的差異性也非常大,應(yīng)用的場景也是各式各樣的。因此,這些問題需要我們在相應(yīng)的研究中來進行克服,并且人機交互它既包括我們所使用的各種直接的、離用戶很近的接口也包括一個交互過程的優(yōu)化。這里我簡單看看接口,它應(yīng)該保包括從我們?nèi)藱C交互的研究來看,包括計算機用戶,輸入接口和計算機處理結(jié)果,反饋給用戶的輸出接口。

  從輸入來看也就是說我們的人意念產(chǎn)生了一個訪問的請求,當然未來如果我們的腦機接口的技術(shù),也就是所謂讀腦的技術(shù)能夠發(fā)明的話,那我們就可以直接來獲取這個用戶的意圖。但是,大家可以看到我這個圖上畫的還是一個虛線,今天還是不太現(xiàn)實的,那么我們的意念還是要通過我們的行為系統(tǒng)傳達給機器。

  我們的行為可以是在使用工具,也可以剛才講到,像自然語言和各種姿態(tài)。

  今天在我們的傳感技術(shù)和識別的技術(shù)都有了很多的進步,比如說大家用的這個手機屏,可能留了一個小劉海,今天的大手機屏,那是因為那個上面有10幾個傳感器,還不能在屏下,只能單獨的露出來。我們現(xiàn)在的家庭里面可能已經(jīng)有智能音箱來幫助我們服務(wù),這個是語音識別技術(shù)的進步。甚至于人臉識別已經(jīng)變成了我們這種身份ID。

  這些技術(shù)實際上在幾十年前都已經(jīng)提出來,最近的和大數(shù)據(jù)的進步使得成為現(xiàn)實、可用。但是,在交互接口上還有很多需要優(yōu)化和需要創(chuàng)新的的一些方面。這里我舉兩個具體的例子:

  大家都有用手機,手機上面我們還是要有我們本輸入這樣一個基本的任務(wù)的。大家在用微信,今天這個場合也有幾個人在用,這個時候你通常是在敲,而不是用語音識別,因為需要一個靜默的環(huán)境。你敲的時候,大家如果用過電腦的話,你會覺得你的速度比用物理鍵盤慢了一倍,為什么慢?這就是人機交互中很典型的一個問題“胖手指問題”,是因為我們的手指,遠比我們點擊的對象要模糊的多。也就是對象的精準點擊,用我們的fat finger是很難完成的,所以點不準你就慢下來了。

  今天在場有不少人也戴了智能手表,就像這個圖一樣,我可以給你裝一個軟件,也會有一個軟件全鍵盤,但有人會用嗎?你肯定想著我不會用,因為與我們在手機上進行輸入的速度和體驗來說,2毫米的小鍵盤根本不可能用,這是一個典型的fat finger問題。

  可以給大家看一個我們在實驗室的研究結(jié)果,我們在手機上做了一個全鍵盤,會看到輸入的速度還是可以接受的,實際速度一個實測的結(jié)果,跟你在用手機進行輸入的速度是一樣的,每秒30-40個字左右。這是靠我們對電容圖像的智能處理和自然語言模型相結(jié)合獲得的結(jié)果,在一定程度上克服了所謂的胖手指問題。

  用同樣的原理,我們還可以提供比如現(xiàn)在手機上很現(xiàn)實的技術(shù),叫防誤觸。手機的屏幕現(xiàn)在越來越大,有全面屏和曲面屏,同時也會帶來一個問題,你握著它的時候會誤處。

  同樣我們在多特征的圖像處理算法上的一些進展,使得我們在防誤觸上有比較大的進步。最近華為剛發(fā)布的mate10以及剛剛在美國發(fā)布的,相信在座也有人在用這個手機,如果你再用它的話,它上面每秒120次,一直在運行,是一個高性能的算法,就是我們實驗室給它做出來的。

  這個做的結(jié)果是什么?是從其他原有產(chǎn)品,誤觸率在13%,這個體驗很不好,我們給它的算法直接降到0.3%,這個體驗還是非常好。

  自然交互中,我們還很期待一些很科幻的場景,比如我們在很多科幻片中會有這樣的,像手勢、姿態(tài)的交互和識別。實際上手勢識別或者姿態(tài)的識別,在人機交互是一個很難的命題,像一些具體的任務(wù)上,比如空中打字,也就是我抬手,現(xiàn)在很多人有盲打的能力,實際上你一抬手就在敲你想打的字,你已經(jīng)有了這個習慣。

  在20多年前,大家就已經(jīng)設(shè)想,未來應(yīng)該能夠?qū)崿F(xiàn)這樣的技術(shù)。這個圖雖然不是很清楚,右下角是蘋果20多年前曾經(jīng)設(shè)想的,在臺式機上,不用這個鍵盤,抬手就可以打字。

  上面這個照片,是我在hollow lens即將發(fā)布的時候,在微軟的時候帶著它的,今天如果你帶了hollow lens,就是VR、AR的技術(shù)使得我們眼前可以呈現(xiàn)三維的虛擬對象,那么你跟他進行交互的時候,我那個照片在打的時候,因為hollow lens只支持這樣一個動作。那么它的軟鍵盤在我面前,我只能一個一個的點,并且非常不準確。

  看一下我們做的實驗結(jié)果,對人在空中打字行為所攜帶的信息量充分挖掘而進行建模。處理充分挖掘是說,我們的主動手、被動手,主動手指、被動手指,以及位置隨意的變化、落點和語言模型的結(jié)合,可以使得我們實現(xiàn)幾十年的理想,科幻的一個結(jié)果。實際上用這樣的技術(shù),我們還可以實現(xiàn)很多場景下跟蹤、交互和自動理解用戶的意圖。

  交互意圖的理解,我們建立了一套,通過數(shù)據(jù)采集、行為建模以及AI的一些分類算法,最終實現(xiàn)特定交互任務(wù)的一套研究方法和體系。我們把它用在手機上,目前希望能有更多的捕捉,因為手機上其實大家不知道,里面有非常多的傳感器,并且進去更多所謂的building sensor,還會專門從體系結(jié)構(gòu)上制造一個sensor heart的出現(xiàn),我們可能能夠捕捉更多外在用戶的心態(tài),包括臥姿、面部甚至眼神等能力,我們會提供一個手機交互全行為感知的能力,未來大家在使用手機上會有更好的體驗。

  從這個角度,所謂智能技術(shù)的研究,也就是我們把一些模糊和用戶行為習慣識別為具體、準確交互意圖的研究,大有可為。即便從我們今天在手機這個問題上來看,我們也僅僅剛剛開始。大家不要以為我們今天的智能手機只是10年前才有,其實30年前就有,這是美國很普及的一本雜志叫《大眾科學》,這是它1995年的封面文章,這個圖上大家注意到,是1988年左右帕克研制的智能手機,實際上是iPhone原型系統(tǒng)。這cap model當時有各種計算、傳感和應(yīng)用,以及識別的能力。

  這個照片上我們可以看到,它跟我們?nèi)祟惖乃枷胝呔o密的結(jié)合在一起,共同互相了解和支持,更多的發(fā)現(xiàn)世界和獲得能力的過程。隨著計算超速手機滲入到我們生活更多方面,智能技術(shù)的進步,也將為人機共生的美好前景提供支撐的技術(shù)。

  很高興有這樣的機會跟大家分享,祝大家新年好!



關(guān)鍵詞: 人工智能 人機交互

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉