![](https://hfnxjk.com/statics/images/logo.png)
大數(shù)據(jù)時代,音樂界正迎來一場革命:下一首歌流行什么,聽眾說了算。昨天,記者從阿里音樂得到證實,阿里音樂正在開展一項嘗試:將阿里音樂平臺上的用戶行為數(shù)據(jù)與社交網(wǎng)絡(luò)數(shù)據(jù)、新聞資訊數(shù)據(jù)等結(jié)合,借助阿里云“數(shù)加”上的大數(shù)據(jù)工具,預(yù)測哪些音樂人會成為下一個音樂巨星。
有猜測指出,這項技術(shù)同阿里音樂一直秘而不宣的新平臺有密切聯(lián)系。
據(jù)阿里音樂的數(shù)據(jù)工程師介紹,用戶在音樂平臺上收聽、分享、收藏音樂的行為,以及在社交網(wǎng)絡(luò)、視頻網(wǎng)站、貼吧論壇上做出關(guān)注、評論、轉(zhuǎn)發(fā)、點贊等動作,反映了對音樂人的喜好程度。“我們用word2vector算法對關(guān)鍵詞進行聚類,結(jié)合轉(zhuǎn)發(fā)點贊等原始及衍生特征,通過gbdt分布式算法進行預(yù)測分析。尋找隱藏在其中的下一個TFboy”。
不過,收集所有人的意見并做出判斷,并非易事。阿里音樂的工程師透露,該項目僅每天要處理的阿里音樂平臺數(shù)據(jù)就達到了100TB,更不用說海量的外部互聯(lián)網(wǎng)數(shù)據(jù)。
值得慶幸的是,大數(shù)據(jù)技術(shù)的飛躍發(fā)展為這一設(shè)想的實現(xiàn)提供了基礎(chǔ)。在過去的5年里,全球大數(shù)據(jù)計算性能實現(xiàn)了超過21倍的提升。2011年,Tritonsort排序100TB數(shù)據(jù)需要8274秒;到2015年,阿里云的MaxCompute只需要377秒。除了MaxCompute,阿里云的分析性數(shù)據(jù)庫Analytic DB可以對90億條的粉絲關(guān)系數(shù)據(jù)進行實時查詢計算。