在微博上經(jīng)常抱怨“去死”,或許會被甄別為抑郁患者。近期,一項“利用社交媒體數(shù)據(jù)挖掘識別抑郁傾向人群”的研究成果在網(wǎng)絡(luò)引發(fā)熱議,來自哈爾濱工業(yè)大學的研究人員稱,通過構(gòu)建抑郁傾向識別模型,實驗室在新浪微博近億用戶中識別出幾百名重度抑郁癥患者,研究結(jié)果經(jīng)醫(yī)學機構(gòu)確認準確度可達83%。相關(guān)人士表示,這項研究結(jié)果或成為抑郁癥臨床診斷之外的新興診斷方法。
建構(gòu)預(yù)測模型在新浪過億用戶中掃描
該項研究由哈工大“社會網(wǎng)絡(luò)與數(shù)據(jù)挖掘”聯(lián)合實驗室與國內(nèi)社交媒體數(shù)據(jù)挖掘公司“宏博知微”共同開展。實驗室負責人哈工大博士于霄告訴記者,他是在微博上幾位抑郁癥患者自殺事件發(fā)生后開始關(guān)注抑郁癥患者這一群體的,“仔細看這些人的微博,非常觸目驚心,負面情緒在每一條都很明顯,當時我們就感嘆,如果通過數(shù)據(jù)識別這一群體,讓其親友能早點干預(yù),也許可以避免悲劇發(fā)生。”
如何識別抑郁群體?于霄和同事首先是挑選新浪微博用戶中被確認為抑郁癥的人群作為樣本,通過計算機強大的計算能力分析樣本數(shù)據(jù),從這些數(shù)據(jù)獲取出規(guī)律后建構(gòu)預(yù)測模型。有了數(shù)據(jù)模型,計算機就可以用這一模型掃描新浪微博上過億用戶了。
“計算機算法會包括自然語言處理、時間序列、機器學習等,比如失眠在抑郁癥患者中比例非常高,會成為語言處理的關(guān)鍵詞,機器還會對關(guān)鍵詞出現(xiàn)的頻率和時間段打分。”于霄說道。
約200用戶被人工判定為抑郁患者
計算機最終統(tǒng)計的數(shù)據(jù)比他們想象中要更為豐富:存在抑郁傾向的微博用戶與普通用戶發(fā)博時間有明顯差異,這部分人群發(fā)博高峰在23點,其夜間活躍度比普通用戶平均約高出30%。該群體微博關(guān)鍵詞為:死、抑郁癥、生命、痛苦、自殺。有60%為女性,40%為男性,女性比例比男性略高,也與之前兩位女性微博用戶@走飯、@ sienna賽娜因抑郁癥而自殺的報道相符。
“有很多數(shù)據(jù)很值得關(guān)注的,比如有些表現(xiàn)出抑郁癥傾向的用戶除了喜歡用小號來表達痛苦情緒,還有群落聚集趨勢,他們會同時關(guān)注很多其他同類人群,有的甚至會習慣每天到已經(jīng)自殺的用戶微博上評論‘今天你還好嗎?’,這聽起來有點瘆人。”
截至目前,實驗室從識別出的抑郁傾向用戶中,輔以人工判定約200名抑郁癥患者,研究者發(fā)現(xiàn),有多人在微博中稱準備自殺。
據(jù)于霄介紹,除了抑郁傾向人群外,精神類疾病、危害社會行為(有暴力傾向人群)也是實驗室數(shù)據(jù)研究的方向,希望能夠?qū)@些人群的提前干預(yù)提供數(shù)據(jù)支持。
焦點爭議
數(shù)據(jù)挖掘觸犯網(wǎng)友隱私?
有網(wǎng)友稱:“一想到死了微博還要被翻,就連死都毫無尊嚴”
事實上,利用大數(shù)據(jù)干預(yù)抑郁癥診斷及治療是否可行,微博用戶對此看法不一。持反對態(tài)度的網(wǎng)友@ sen哥-認為:“一想到萬一我死了微博也會被素不相識的人翻出來,就覺得連死這件事都他媽的毫無尊嚴。”持支持態(tài)度的網(wǎng)友@ La_Prairie認為:“多一些關(guān)愛,就少一些遺憾。”
中山大學心理學系教授周欣悅也對此表示擔憂,”抑郁癥患者未必就愿意讓別人知道自己有抑郁癥,如果公開給別人貼標簽就不太好。
霄告訴記者,大數(shù)據(jù)的隱私權(quán)一直是敏感話題,當用戶看到自己的性格特征、人際交往等通過數(shù)據(jù)挖掘整理被羅列出來,肯定會很驚訝,但實驗團隊認為,由于搜集的是微博上用戶自愿公開的數(shù)據(jù),并非私人聊天記錄,用戶被侵犯的感覺會小很多,當然這還需要整個社會對大數(shù)據(jù)挖掘的理解。
不過于霄強調(diào),不會把識別出的抑郁癥用戶數(shù)據(jù)對外公布,他們希望的是這些數(shù)據(jù)能得到衛(wèi)生部門或醫(yī)療機構(gòu)的重視和介入。“對愿意為這部分人群提供幫助的專業(yè)機構(gòu),他建議可以聯(lián)系其新浪微博@社會網(wǎng)絡(luò)與數(shù)據(jù)挖掘,共同研究微博抑郁傾向用戶自殺干預(yù)方案。
大數(shù)據(jù)識別,結(jié)論科學嗎?
心理醫(yī)生:可做初篩不適合作為確診手段
“大數(shù)據(jù)”正在成為當下的一個熱詞,于霄與其伙伴們所運用的正是這一利器。但這項研究的科學性到底如何?業(yè)界如何評價?能否作為公認的心理學評估手段?于霄告訴記者,他們把這些數(shù)據(jù)提供給北京、上海的一些精神病醫(yī)院,得到了不少專家的認可,“不過專家會私下里說,應(yīng)該就是(抑郁癥患者)了,但不會明確判別,從醫(yī)學手段來看,這樣就做判斷會顯得不嚴謹。”
中山三院精神科副主任醫(yī)師陶炯昨日接受南都記者采訪時認為,利用大數(shù)據(jù)來識別抑郁癥患者,有一定參考價值,一定程度上反映了用戶的情緒,可以作為對這個群體初篩的一種方式。但就此給這名微博用戶貼上“抑郁癥”標簽還不行,因為每個人都會有情緒發(fā)泄的時候,如何甄別這些是否“假陽性”,要確診還需要醫(yī)生面談。他建議,可以給識別出的高危人群做些專業(yè)測試,比如可以讓用戶在網(wǎng)絡(luò)上填些量表問卷。
與陶炯看法不太相同的是,中山大學心理學系周欣悅教授認為,這種關(guān)鍵詞聯(lián)系是相關(guān)關(guān)系,不是因果關(guān)系,預(yù)測的人群能否作為真正適合干預(yù)的人群很難說,需要更深入地研究。
背景資料
據(jù)公開數(shù)據(jù),我國抑郁癥發(fā)病率約為3%~5%,目前已有超過2600萬人患抑郁癥。全國地市級以上醫(yī)院對抑郁癥的識別率不到20%。
數(shù)據(jù)還顯示,在過去50年里,我國平均每年有28.7萬人死于自殺,200萬人自殺未遂。自殺人群中有63.5%患有抑郁癥,但僅9%在自殺前曾到精神科或心理咨詢機構(gòu)就診。