久久精品亚洲中文字幕无码麻豆-好吊色青青草视频在线-国产一区二区三区久久精品-日韩精品极品视频在线观看免费-欧美成人一区二免费视频软件-中文字幕精品亚洲无线码一区-亚洲欧美一区二区三区国产精图文-国产日韩欧美啊啊啊-蹂躏美女校花大学生翘臀

物聯(lián)傳媒 旗下網站
登錄 注冊

用戶大數據是高校開展互聯(lián)網應用研究的必選項

作者:劉挺
來源:百度百家
日期:2015-08-31 09:48:11
摘要:用戶大數據是高校開展互聯(lián)網應用研究的必選項。


  高校適合做基礎研究、超前研究,應用研發(fā)留給企業(yè)去做,這個觀點得到越來越多的同仁們的共識。然而,高校里還是活著兩種人,一種人喜歡也擅長做基礎研究,比如Hinton這樣的學者,能夠從算法上推動機器學習的進步,進而對工業(yè)界產生重大的影響;更多的人在從事應用研究,試圖解決應用中出現(xiàn)的問題。從事應用研究的學者在互聯(lián)網時代,在大數據時代,如何才能做出真的對工業(yè)界有用的成果?換句話說,怎么做才能使大企業(yè)在當下或未來真的需要借鑒或購買高校的技術成果呢?

  在回答這個問題以前,我們先把當前互聯(lián)網大企業(yè)與高校互聯(lián)網域的實驗室在6項技術研發(fā)要素上做一個對比:

  互聯(lián)網大企業(yè):

  1. 人才:都是各大學(尤其是重點大學)培養(yǎng)出來的優(yōu)秀人才,都是成手,他們帶著在校門里掌握的技術加入企業(yè)

  2. 工作效率:全職工作,高工資加期權,KPI嚴格考評,行動力極強

  3. 資金:不需要解釋了

  4. 計算設備:以GPU為代表的大批高性能服務器,以及工程化的支持大規(guī)模計算的軟件架構

  5. 數據:T級,甚至P級海量真實數據

  6. 用戶:海量用戶,每天提供大量用戶行為數據,這是群體智慧之源

  高校互聯(lián)網領域實驗室:

  1. 人才:資深教師有眼光和經驗,有限數量的青年教師掌握核心技術,科研力量主要是研究生,每畢業(yè)一批學生,實驗室的實力都會減弱,新入學的研究生需要從頭培養(yǎng)

  2. 工作效率:組織松散,教師需要講課、指導學生、申請項目、學術交流等,學生要上課、找工作等,效率比較低

  3. 資金:國家投入不斷增加,但跟互聯(lián)網大企業(yè)相比差幾個數量級

  4. 計算設備:國家投入不斷增加,但跟互聯(lián)網大企業(yè)差幾個數量級

  5. 數據:總體上,跟企業(yè)相比差幾個數量級

  6. 用戶:幾乎等于零

  從對比中,我們可以看出,1-5項,高校雖然弱,但還是有,而第6項,對于絕大多數高校實驗室而言就是0。弱,會帶來很多問題,1-4項的弱會導致高校的技術生產力明顯不如互聯(lián)網大企業(yè),而5的不足將直接導致一些需要大數據支撐的科研工作,在高校里做出的成果對企業(yè)無意義,這又分兩種情況:一種是高校在小數據上做出的結果很好,但到企業(yè)大數據上一跑,失效了;另一種是高校在小數據上做的效果不佳,而企業(yè)使用同樣的方法在大數據上卻取得了很好的效果。如此,高校成果對企業(yè)的借鑒意義降低了,這也是國外一些著名的學者,如Hinton、吳恩達等,紛紛離開高校,加盟企業(yè)的主要原因。

  不過,“弱”畢竟還是”有“,可以通過集中優(yōu)勢兵力,超前布局等在一定程度上去克服。更要命的是第6項,在高校里做研究普遍脫離了用戶!吳恩達在2014年的百度世界大會上講述了“人工智能正循環(huán)”的思想,訊飛研究院的胡郁院長也曾提出非常類似的“漣漪效應”的觀點,就是把一個不成熟的系統(tǒng)放到互聯(lián)網上讓用戶使,用戶在使用過程中會貢獻大量的群體智慧,這種群體智慧會快速地幫助提高系統(tǒng)的技術指標。任何一個系統(tǒng)的能力提升,都必須有外界知識、能量的注入,互聯(lián)網大企業(yè)有海量用戶,每天可以吸收到大量的知識,而高校由于與用戶脫節(jié),只有靠人工標注的小規(guī)模(甚至可以說是微規(guī)模的數據),加上教師學生們在算法上下的功夫來改進系統(tǒng),這就失去了當前人工智能研發(fā)范式中極其重要的一環(huán)。

  在很多研討會上,都看到高校的老師在問企業(yè)到底能夠向學術界開放多少數據?其實,數據有兩種,一種是用戶貢獻的內容數據(UGC),一種是用戶行為數據,前者由于微博等開放數據平臺的存在,是可以支持高校做不少研究的,但更為重要的是用戶行為數據,用戶查詢了什么,點擊了什么,最最重要的是用戶怎樣使用你開發(fā)的系統(tǒng),給出了什么樣的具體反饋。而用戶行為數據,一方面有隱私問題,另一方面由于其價值非常高,企業(yè)是不會開放的。

  結論:在當前條件下,高校從事互聯(lián)網應用研究的學者,必須與企業(yè)緊密結合,或者自己做出能夠吸引一定數量用戶使用的原型系統(tǒng),才能獲得用戶行為數據。最好在企業(yè)已經搭建起來的大平臺、高平臺上開展企業(yè)暫時做不好或無暇去做的研究,保底也要自己拿到足夠的真實的用戶行為數據,如此才有可能在某個很聚焦的點上做出真正有價值的應用技術來。否則大企業(yè)在諸多互聯(lián)網應用研究上領先于高校的情況將繼續(xù)存在,高校開展應用研究的價值真的就只是培養(yǎng)學生了。

  注:本文的觀點是對我四年前關于高校應該與工業(yè)界松耦合想法的一個否定,自我否定的主要原因是意識到用戶大數據在技術提升方面迸發(fā)出的超能量,用戶大數據對于高校不是可有可無的,而是必選項。本人的研究領域:自然語言處理、社會媒體處理、信息檢索,本文所謂互聯(lián)網應用研究,主要指的也是這幾個研究領域,受本人視野所限,偏頗之處,請讀者見諒、指正。