預(yù)警信息內(nèi)容的正確性直接關(guān)乎預(yù)警發(fā)布的有效性和權(quán)威性。目前的信息敏感詞檢測技術(shù)常見的方法是“黑名單”法,即事先把能群舉的敏感詞錄入庫中,發(fā)布預(yù)警信息時通過對比是否有“黑名單”中的敏感詞,起到質(zhì)控作用。
和“黑名單”法不同,安徽省預(yù)警信息中心利用雙向長短期記憶條件隨機場(Bi-LSTM-CRF)算法,通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)對已有的合法預(yù)警信息文本數(shù)據(jù)集和開放域中文分析公開數(shù)據(jù)集進(jìn)行訓(xùn)練,建立預(yù)警信息合法“白名單”。通過該技術(shù)建立的檢測系統(tǒng),能直接有效地對新的預(yù)警信息中可能含有的敏感字(詞)、錯別字等進(jìn)行智能監(jiān)測。