久久精品亚洲中文字幕无码麻豆-好吊色青青草视频在线-国产一区二区三区久久精品-日韩精品极品视频在线观看免费-欧美成人一区二免费视频软件-中文字幕精品亚洲无线码一区-亚洲欧美一区二区三区国产精图文-国产日韩欧美啊啊啊-蹂躏美女校花大学生翘臀

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

王守崑:大數(shù)據(jù)時(shí)代社交圖譜與興趣圖譜的融合

作者:RFID世界網(wǎng)收錄
來(lái)源:騰訊科技
日期:2013-11-18 08:56:29
摘要:中國(guó)技術(shù)商業(yè)論壇組委會(huì)主辦、《IT經(jīng)理世界》雜志社承辦的“中國(guó)技術(shù)商業(yè)論壇”在京舉行,豆瓣首席科學(xué)家王守崑與會(huì)進(jìn)行了主題演講。王守崑表示,個(gè)性化推薦會(huì)是整個(gè)互聯(lián)網(wǎng),包括移動(dòng)互聯(lián)網(wǎng)的下一件大事。能夠成為大數(shù)據(jù)它的首要條件必須是增長(zhǎng)非常快,就是必須得以線性增長(zhǎng),然后快,這是第一個(gè)。第二個(gè)它必須有復(fù)雜的內(nèi)部結(jié)構(gòu)。

  中國(guó)技術(shù)商業(yè)論壇組委會(huì)主辦、《IT經(jīng)理世界》雜志社承辦的“中國(guó)技術(shù)商業(yè)論壇”在京舉行,豆瓣首席科學(xué)家王守崑與會(huì)進(jìn)行了主題演講。王守崑表示,個(gè)性化推薦會(huì)是整個(gè)互聯(lián)網(wǎng),包括移動(dòng)互聯(lián)網(wǎng)的下一件大事。能夠成為大數(shù)據(jù)它的首要條件必須是增長(zhǎng)非常快,就是必須得以線性增長(zhǎng),然后快,這是第一個(gè)。第二個(gè)它必須有復(fù)雜的內(nèi)部結(jié)構(gòu)。

  騰訊科技對(duì)本次盛會(huì)進(jìn)行了全方位專題報(bào)道。

  以下是文字實(shí)錄:

  謝謝各位,感謝主辦方和《IT經(jīng)理世界》能給大家提供這樣一個(gè)平臺(tái)。今天我演講的題目是“大數(shù)據(jù)時(shí)代社交圖譜與興趣圖譜的融合”也是豆瓣在過(guò)去幾年在數(shù)據(jù)和科技化方面的一個(gè)經(jīng)驗(yàn)的積累。首先,我想問(wèn)大家一個(gè)問(wèn)題,這個(gè)詞我們聽(tīng)了好長(zhǎng)時(shí)間了,大數(shù)據(jù),什么是大數(shù)據(jù)?這個(gè)詞大概從去年,然后很多人就不停的聽(tīng)到,可能很多同學(xué)在跟硬件相關(guān)的廠商那邊聽(tīng)到,所以有的同學(xué)說(shuō)是不是硬件廠商把其他的東西重新包裝一下,讓我們都賣產(chǎn)品。

  我們看這個(gè)例子,第一個(gè)如果我們把全球所有的移動(dòng)電話和用戶的通話記錄放在一起,這個(gè)叫大數(shù)據(jù)嗎?我聽(tīng)有同事說(shuō)算大數(shù)據(jù)。第二個(gè)是所有的門戶網(wǎng)站,我們說(shuō)中文的門戶網(wǎng)站,幾個(gè)大的門戶網(wǎng)站,每天產(chǎn)生的新聞,這個(gè)算大數(shù)據(jù)嗎?有同學(xué)說(shuō)算,有同學(xué)說(shuō)不算。第三個(gè)這個(gè)東西可能用的不多,原來(lái)還有,就是特別厚的一本,上面各種機(jī)構(gòu)或者有些時(shí)候還有個(gè)人的電話和他的地址,如果假設(shè)有這么一個(gè)東西,全世界的各個(gè)機(jī)構(gòu)的電話跟他的地址綜合在一起,可能也是非常大的數(shù)據(jù)量,幾十億,幾百億的數(shù)據(jù)量,這個(gè)算大數(shù)據(jù)嗎?

  下面,我用我自己的理解,這純粹是我個(gè)人的一家之言,不代表任何人來(lái)看一看這幾個(gè)東西到底算不算大數(shù)據(jù)?我覺(jué)得大數(shù)據(jù)的第一個(gè)條件就是所謂的超線性增長(zhǎng),你得增長(zhǎng)特別快,超線性這個(gè)詞有一個(gè)廣義的理解,有一個(gè)狹義的,狹義的就是增長(zhǎng)的斜率必須是固定的,必須大于1,必須得比線性斜率不能是恒定的。廣義的理解,就是即便是線性的,只要你是大于1的,就叫超線性增長(zhǎng)。我在這里使用的是廣義的含義,就是你只要斜率大于1就算超線性。這個(gè)詞在美國(guó)的一個(gè)研究所,有一位物理學(xué)家是研究所有城市和機(jī)構(gòu)為什么能夠長(zhǎng)這么大,為什么我們這個(gè)世界上有超大型的城市,他在研究這個(gè)的時(shí)候提出的這樣一個(gè)理論。我把這個(gè)東西借鑒到這個(gè)理論來(lái),就是一個(gè)數(shù)據(jù)源產(chǎn)生數(shù)據(jù),能夠成為大數(shù)據(jù)它的首要條件必須是增長(zhǎng)非常快,就是必須得以線性增長(zhǎng),然后快,這是第一個(gè)。第二個(gè)它必須有復(fù)雜的內(nèi)部結(jié)構(gòu),為什么說(shuō)要有復(fù)雜的內(nèi)部結(jié)構(gòu)呢?如果僅僅是簡(jiǎn)單的數(shù)據(jù)機(jī)構(gòu),沒(méi)有辦法分析出更深的結(jié)果,沒(méi)有辦法從里面得到更多的信息。有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)之后,再配合上超線性的增長(zhǎng),我們就可以從里面分析出很多有意思的結(jié)果,能夠得到很深的一些洞察。

  滿足前面這兩條的其實(shí)最最簡(jiǎn)單的例子大家每天接觸的就是互聯(lián)網(wǎng),它為什么能滿足前面兩條呢?第一、首先它是網(wǎng)絡(luò),網(wǎng)絡(luò)的本質(zhì)就是互相有連接。我們這個(gè)屋子里大概有100多人,假設(shè)150人,這樣一個(gè)狀態(tài),如果是線性增長(zhǎng),我們每個(gè)人產(chǎn)生的數(shù)據(jù)肯定是一定比例的線性增長(zhǎng),但是如果我們之間互相之間都認(rèn)識(shí),兩兩之間都認(rèn)識(shí),這就是一個(gè)平方量級(jí),就是150×149,或者150平方的關(guān)系。在這個(gè)關(guān)系上產(chǎn)生的數(shù)據(jù)就叫做超線性增長(zhǎng)的數(shù)據(jù),具備這樣條件的把它叫做大數(shù)據(jù)。

  除此之外,當(dāng)然還有第三點(diǎn),不是硬性的一個(gè)規(guī)定,只是說(shuō)為什么我們?cè)诂F(xiàn)在這個(gè)條件下大家會(huì)更多的討論什么是大數(shù)據(jù)?那就是我們現(xiàn)在能夠以非常低的成本去接觸大數(shù)據(jù),從大數(shù)據(jù)中挖掘出有意思的信息。這張圖是大概二三十年內(nèi)存下降的趨勢(shì),縱軸是對(duì)數(shù),這實(shí)際上是線性下降的。我自己的印象也非常深刻,大概在20多年前,我念大學(xué)的時(shí)候,我的第一臺(tái)電腦,想把內(nèi)存搞大一些,所以我花了差不多快2000塊錢買了一個(gè)內(nèi)存條,當(dāng)時(shí)看來(lái)已經(jīng)非常大了,16兆的一個(gè)內(nèi)存條,當(dāng)時(shí)2000塊錢。我們現(xiàn)在2000塊錢可以買好幾十G的內(nèi)存了,這個(gè)下降非常快。這個(gè)也就使得普通的公司,非常小的公司,甚至是個(gè)人都能夠去從硬件的角度來(lái)看,都能夠處理大數(shù)據(jù),都能夠從大數(shù)據(jù)中挖掘出對(duì)自己有用的,或者對(duì)用戶有用的價(jià)值。所以,這個(gè)是我個(gè)人的一個(gè)看法,就是什么是大數(shù)據(jù),哪些東西能夠成為大數(shù)據(jù)?

  回來(lái)看前面說(shuō)的三個(gè)數(shù)據(jù)源,這是我個(gè)人的觀點(diǎn)。第一、我覺(jué)得它是大數(shù)據(jù)?為什么?因?yàn)槲覀冎g的通話,交往的過(guò)程,它是一個(gè)網(wǎng)絡(luò)狀的,是超線性增長(zhǎng)的,并且我們的通話內(nèi)容是非常復(fù)雜的,具有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),包括我們的時(shí)間,包括方方面面的算法。第二個(gè)例子是這樣,如果只是每天產(chǎn)生的新聞,它不算大數(shù)據(jù),為什么?因?yàn)檫@個(gè)量是有限的,每天也就是大概幾十萬(wàn),上百萬(wàn)條,而且每天的增長(zhǎng)也是有限的。但是,如果把用戶的瀏覽記錄,甚至把新聞的內(nèi)容,比如說(shuō)你對(duì)這個(gè)文本做分解,把這個(gè)文本之間產(chǎn)生互相的聯(lián)系的話,這個(gè)就算大數(shù)據(jù)。因?yàn)檫@些新聞網(wǎng)站的用戶量是非常龐大的,從瀏覽記錄能夠分析出用戶的興趣,這個(gè)超線性的增長(zhǎng),它的數(shù)據(jù)結(jié)構(gòu)會(huì)是非常復(fù)雜的一個(gè)結(jié)構(gòu),所以這個(gè)算是大數(shù)據(jù)。第三個(gè)在我個(gè)人來(lái)看,它不算大數(shù)據(jù),雖然它的量非常大,幾十億,上百億的量,但是它的數(shù)據(jù)結(jié)構(gòu)非常簡(jiǎn)單,并且它的增長(zhǎng)不是超線性的增長(zhǎng),僅僅是線性的增長(zhǎng)。這個(gè)純粹是我個(gè)人的一個(gè)觀點(diǎn),跟大家分享一下。

  我們豆瓣上線已經(jīng)有八年多的時(shí)間了,我們專注于一個(gè)都市青年的文化圈和生活的這樣一個(gè)線上服務(wù)。我們管我們自己叫做基于興趣圖譜的社會(huì)化網(wǎng)絡(luò)服務(wù)。從上線開(kāi)始,我們就做一件事情,就是個(gè)性化推薦,我們依據(jù)用戶的歷史的興趣,或者他表現(xiàn)出來(lái)的偏好,給他推薦他可能感興趣的,但是他還不知道的東西。這也是個(gè)性化推薦所能做到的最重要的一點(diǎn),就是它能夠幫你發(fā)現(xiàn)未知的,它跟搜索引擎不一樣,你在搜索引擎做搜索的時(shí)候必須心里有一個(gè)想法,或者你要知道是什么東西,你搜現(xiàn)在最熱的電影。但是,如果你不知道你想看什么電影的時(shí)候,這個(gè)時(shí)候推薦引擎就可以幫到你。

  這是我個(gè)人的一個(gè)簡(jiǎn)單的分類,個(gè)性化推薦到現(xiàn)在大概有20多年的發(fā)展歷史,最早在Web1.0的時(shí)代,那時(shí)候有非常多的垃圾郵件,當(dāng)時(shí)用協(xié)同過(guò)濾的算法找到這些垃圾郵件的發(fā)送者。隨著亞馬遜把個(gè)性化推薦用到它的電子商務(wù)網(wǎng)站之后,其他很多網(wǎng)站都使用了這種個(gè)性化推薦的技術(shù),豆瓣在05年一上線我們的創(chuàng)始人就使用了這個(gè)個(gè)性化推薦的技術(shù)為大家做推薦。

  截止到目前來(lái)看,個(gè)性化推薦可以用在社交圖譜里面,社交的社會(huì)網(wǎng)絡(luò)里面,可以用在興趣圖譜里面,比如像豆瓣,還有像一些電子商務(wù)網(wǎng)站,用戶依據(jù)興趣挑選商品,或者挑選產(chǎn)品的這樣兩個(gè)大的緯度。縱向來(lái)看,我們可以把這個(gè)服務(wù)分成信息服務(wù),是工具、體型的服務(wù),以及交易類的服務(wù),我用方塊的大小表示個(gè)性化推薦技術(shù)在這些領(lǐng)域的使用。從目前來(lái)看,基于交易的興趣圖譜和基于信息的興趣圖譜上是使用的最多的。豆瓣對(duì)各種各樣的產(chǎn)品都去做推薦,這是我們嘗試后的一些結(jié)果,這里只是一個(gè)大概的數(shù)字,并不是實(shí)際的產(chǎn)品數(shù)據(jù)。從我們這邊來(lái)看,比如說(shuō)單曲的推薦,圖書(shū)的推薦,小組的推薦,都會(huì)獲得很好的效果。我們用幾個(gè)緯度衡量個(gè)性化推薦的效果,一條目數(shù)和用戶數(shù),一個(gè)是時(shí)效性和多樣性,比如時(shí)效性,這個(gè)產(chǎn)品出來(lái)多長(zhǎng)時(shí)間之后,用戶就對(duì)它沒(méi)興趣了。比如新聞,一般來(lái)說(shuō)我們的經(jīng)驗(yàn)是一天半以前的新聞?dòng)脩艟筒粫?huì)有興趣了,但是比如書(shū)的話,時(shí)效性非常強(qiáng),幾百年前,幾千年前寫(xiě)的東西,人們還在讀。興趣的不同,對(duì)個(gè)性化推薦的選擇會(huì)有很大的影響。我們還嘗試了很多我喜歡的這些東西,可能稍微偏技術(shù)性一點(diǎn),就是用不同的算法,不同的模型看個(gè)性化推薦在不同緯度上的表現(xiàn)。我們的結(jié)論是說(shuō)比較簡(jiǎn)單的算法,比如最簡(jiǎn)單的協(xié)同過(guò)濾算法,其實(shí)它在各個(gè)方面都有必須好的結(jié)果,也就是在數(shù)據(jù)量達(dá)到一定程度之后,其實(shí)算法和選擇更多需要看你實(shí)際用戶的需要,其實(shí)往往簡(jiǎn)單的算法會(huì)有好的一些結(jié)果。

  個(gè)性化推薦技術(shù)可以給我們網(wǎng)站帶來(lái)非常大的效果上的提升,這是一個(gè)大概的數(shù)據(jù),它的最大的優(yōu)勢(shì)就在于新用戶的轉(zhuǎn)化率,尤其是新用戶在頭幾個(gè)訪問(wèn)的時(shí)候,如果你能抓住他的興趣,迅速給他推薦一些他感興趣的產(chǎn)品,或者是感興趣的信息,它的轉(zhuǎn)化率會(huì)大大的提升。豆瓣上線沒(méi)多長(zhǎng)時(shí)間我們就發(fā)現(xiàn)在依據(jù)興趣的這樣一個(gè)社交會(huì)給用戶的活躍度帶來(lái)很大的提升,所以我們?cè)诋a(chǎn)品中也加入一些社交的元素。當(dāng)然,社交圖譜方面我相信大家都非常了解了,在這里就不做介紹了。

  我們做社交圖譜的時(shí)候發(fā)現(xiàn)這個(gè)東西比興趣圖譜要復(fù)雜的多,它的復(fù)雜其實(shí)來(lái)源于一個(gè)是人與人關(guān)系的復(fù)雜性,人跟產(chǎn)品之間的關(guān)系相對(duì)比較簡(jiǎn)單,我喜歡這個(gè)產(chǎn)品,我不喜歡這個(gè)產(chǎn)品,這個(gè)描述大概能描述你80%的情況。但是,人跟人之間的關(guān)系就很復(fù)雜,沒(méi)有一個(gè)簡(jiǎn)單的,或者說(shuō)是清晰的模型去描述人與人之間關(guān)系的這個(gè)復(fù)雜性,或者人與人之間關(guān)系很難用單一緯度描述的,我們?nèi)伺c人之間的關(guān)系非常復(fù)雜。第二、人與人之間交互在網(wǎng)站上表現(xiàn)成文字了,現(xiàn)在互相的回帖,或者互相說(shuō)個(gè)話等等,這個(gè)語(yǔ)義的復(fù)雜性也不是現(xiàn)在計(jì)算機(jī)技術(shù)能夠完全掌握,或者完全攻克的一個(gè)難題,所以語(yǔ)義的復(fù)雜性也帶來(lái)描述人和人之間關(guān)系的復(fù)雜性。

  我們解決這個(gè)東西的一個(gè)辦法,最后我們用了一個(gè)相對(duì)比較簡(jiǎn)單的辦法,效果還不錯(cuò)的辦法,其實(shí)就是我們用人來(lái)描述人,結(jié)合編輯的一些力量,結(jié)合算法的力量,用人描述一群人,給每一群人找到一些代表性的人物,然后用這些代表性的人物的特點(diǎn)表現(xiàn)他的興趣描述整個(gè)一群人這樣的特點(diǎn)。這一點(diǎn)在我們個(gè)性化推薦方面,就是我把人和人之間的社會(huì)關(guān)系用到個(gè)性化推薦方面也取得了不錯(cuò)的效果。

  興趣圖譜跟社交圖譜的一個(gè)重大區(qū)別,在這里做了一個(gè)簡(jiǎn)單的描述,在興趣圖譜中人群更多是一個(gè)生人的網(wǎng)絡(luò),大家來(lái)到興趣圖譜之前互相之間不太認(rèn)識(shí),依據(jù)興趣來(lái)結(jié)合新的網(wǎng)絡(luò)。但是,社交圖譜更多是熟人的網(wǎng)絡(luò),尤其是強(qiáng)社交的關(guān)系,像大家現(xiàn)在用的微信,手機(jī)里的通訊錄等等,這個(gè)是熟人的關(guān)系。不同的人群它表現(xiàn)出的特點(diǎn)其實(shí)也是不太一樣的,比如說(shuō)社交圖譜在黏性上和頻度上都很高,但是它在持久性上,有時(shí)候有的產(chǎn)品比較高,但是有的產(chǎn)品其實(shí)也沒(méi)有那么高。興趣圖譜一般來(lái)說(shuō)黏性和頻度都沒(méi)有那么高,但是它的持久性會(huì)比較好一些,因?yàn)榕d趣一般都會(huì)是長(zhǎng)期的興趣。依據(jù)這樣不同的特點(diǎn),在我們做個(gè)性化推薦的時(shí)候可以有不同的一些考量。

  我們把社交圖譜融入興趣圖譜也有一個(gè)很大的提升,首先是推薦準(zhǔn)確率提升了,純粹用興趣圖譜做推薦的時(shí)候,新用戶轉(zhuǎn)化率比較好。把社交圖譜融合進(jìn)來(lái)最大的挑戰(zhàn)其實(shí)就是數(shù)據(jù)層面的挑戰(zhàn),我們有上億量級(jí)的用戶,每個(gè)用戶細(xì)分的興趣大概有上千種,我們整個(gè)用戶的興趣。每個(gè)用戶相對(duì)比較強(qiáng)的社交的關(guān)系大概有幾百種的樣子,或者上百類。那么,這個(gè)乘起來(lái)其實(shí)就會(huì)是一個(gè)非常大的數(shù)據(jù)量,也就是我們會(huì)用幾十萬(wàn)的維的向量描述一個(gè)人,甚至擺成一千量級(jí)的數(shù)據(jù)描述一個(gè)人,我們還要找人跟人之間的關(guān)系,在數(shù)據(jù)上就會(huì)是非常大的一個(gè)挑戰(zhàn),也是我們每天的工作要做的事情。

  對(duì)于我們來(lái)說(shuō),我們期待下一代推薦系統(tǒng)就是除了融合興趣圖譜和社交圖譜之外,我們真正想做的事情其實(shí)是給用戶的一個(gè)引導(dǎo),能夠幫助用戶發(fā)現(xiàn)它真正有價(jià)值的東西。其實(shí)現(xiàn)在的個(gè)性化推薦往往很難解決一個(gè)驚喜的問(wèn)題,現(xiàn)在的個(gè)性化推薦很多時(shí)候,你看過(guò)天龍八部,給你推薦笑傲江湖,這個(gè)沒(méi)有什么興趣,我們主要要解決的就是幫助你進(jìn)一步探索你未知的,而且對(duì)你很有用,而且能給你帶來(lái)驚喜的這樣的推薦的領(lǐng)域。

  從我個(gè)人來(lái)看,我也認(rèn)為在現(xiàn)在的網(wǎng)絡(luò)融合的時(shí)代,有云計(jì)算好的基礎(chǔ),有強(qiáng)大的社會(huì)網(wǎng)絡(luò)和興趣網(wǎng)絡(luò),然后隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,我們大家也更愿意去把自己的信息放在網(wǎng)絡(luò)上,我們的手機(jī)是非常個(gè)人化的一個(gè)產(chǎn)品,從我個(gè)人來(lái)看,我也認(rèn)為個(gè)性化推薦會(huì)是整個(gè)互聯(lián)網(wǎng),包括移動(dòng)互聯(lián)網(wǎng)的下一件大事。謝謝各位!

人物訪談