人工智能的博弈百度是失誤還是作弊

作者：時間：2015-06-08 來源：騰訊科技

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：這在給國內(nèi)太正常了，比如為了過某些國際認證，專門對提交的版本進行優(yōu)化，以便能占領頭名，再進行大肆宣傳，我就想不通，你好好的做產(chǎn)品，做用戶體驗不行，鍍一堆金，只是為了讓外表光鮮，然后并沒有什么用。

　　這一周，百度因為在一個比賽中作弊被推到輿論的風頭浪尖。

本文引用地址：http://m.butianyuan.cn/article/275338.htm

　　2張彩票和200張彩票

　　事情原委還要回到5月中旬，彼時百度宣稱其在ImageNet(圖像識別最大數(shù)據(jù)庫)的圖像識別測試挑戰(zhàn)賽中擊敗了谷歌和微軟，稱其圖像識別錯誤率低至4.58%，而微軟是4.94%，谷歌為4.8%。而在這種測試中，人類辨識ImageNet照片的錯誤率為5%左右。

　　ImageNet這項比賽的全稱為Imagenet Large Scale Visual Recognition Challenge(ILSVRC)，由來自斯坦福大學、密歇根大學以及北卡萊羅納大學教堂山分校的學者舉辦，是目前最權威的圖像識別測試。該測試主要衡量計算機識別圖片中的物件的能力，其原理基本上和百度谷歌都有的識圖應用一致，不過測試的數(shù)據(jù)集規(guī)模極大，標準更加嚴謹詳細。

　　失誤or作弊?百度人工智能遭遇刷分危機

　　該比賽從2010年開始舉辦，至今已經(jīng)是第六屆，參與比賽的學術組織和機構達到了50余所，大多來自世界知名大學的人工智能研究所以及科技界巨頭企業(yè)如谷歌、微軟等。

　　參與者需要掃描擁有100多萬張圖片的數(shù)據(jù)庫，將它們歸到1000個不同的類別之中，并對通過識別自動給每張圖片添加注釋，最后將結(jié)果上傳到ImageNet的評估服務器上。最終比賽排名結(jié)果及各項指標將由ImageNet在比賽結(jié)束后審核公布。

　　然而本月初，ImageNet隨后卻發(fā)文指責百度在測試中存在違規(guī)作弊行為。因為按照測試的官方規(guī)定，參與者每周只能向服務器提交2次測試結(jié)果，而百度卻在5天內(nèi)提交了40次結(jié)果。此外，ImageNet表示，百度還使用了30個不同的賬號，在過去6個月中提交了約200次測試結(jié)果。

　　通俗的來講，百度這種做法可以理解為在其他團隊只購買2張彩票的情況下，它卻購買了200張彩票以提高中獎概率。

　　ImageNet將此情況通報給了所有參賽團隊，對百度的成績予以否認并禁止百度1年內(nèi)不得參加該比賽。

　　百度的不遺余力

　　與谷歌類似，百度都是以互聯(lián)網(wǎng)搜索為基礎的技術導向型公司，手頭握有大量的用戶和數(shù)據(jù)積累，對于進行大數(shù)據(jù)挖掘，探索人工智能有著天然的優(yōu)勢。它也確實學著谷歌一樣在各個領域加強自己的創(chuàng)新技術探索，人工智能就是其中極為重要的一部分。

　　在人工智能這個大領域百度的探索和研究都可謂不遺余力，且在多個細分小類別都有巨大的投入。

　　其中，就包括引進權威人才吳恩達及組建硅谷研究中心。2014年5月，百度宣布在美國硅谷成立人工智能的專門研發(fā)中心，并從谷歌挖來了深度學習權威學者吳恩達(AndrewNg)任命其為百度深度學習研究院首席科學家。吳恩達不僅是斯坦福大學計算機科學和電子工程學的學術風向標，更因其一手創(chuàng)建并領導了谷歌深度學習團隊，被業(yè)界譽為“谷歌大腦之父”，百度能聘到這樣的權威級人才實屬不易，可見其重視和投入。

　　去年底，美國《福布斯》發(fā)布文章稱，吳恩達及研究團隊發(fā)明了一種新的語音識別方法，這款基于深度學習的名為“DeepSpeech”語音識別系統(tǒng)可以在嘈雜環(huán)境下實現(xiàn)將近81%的辨識準確率。卡耐基梅隆大學工程學助理研究教授IanLane對其的評價是“百度研究院最近的工作有可能顛覆語音識別在未來的應用效果。”

　　而百度目前在國內(nèi)擁有十幾座云計算中心，為滿足大數(shù)據(jù)在計算和存儲上的高要求，還投入使用了4萬兆交換機，并在探索10萬兆的交換機。百度在GPU高性能計算機上的投入也是十分下血本，其美國研發(fā)中心的科學家吳韌稱百度在2013年剛開始準備組建Minwa超級計算機的時候，購買量在國內(nèi)達到了第二，“拿不到第一是因為天河當然得是第一”。