看起來紛繁復雜的海量數據資料,通過分析,可以發現很多有用的信息,可以告訴我們很多隱藏在數字背后的秘密,并有效提高決策的準確性。淘寶根據購物記錄可以推薦買家可能會喜歡的商品,餐廳根據用餐記錄可以推薦消費者可能喜歡的菜單。大數據審計分析可以通過對相關領域長年累月形成的數據的分析,挖掘出某種群體行為的特點,提示某種社會現象的潛在規律,為政府制定政策提供關鍵依據,同時還可以評估政府政策的實施效果,從而幫助政府不斷發現問題,改進問題。下面筆者結合自己從事的地稅審計業務淺談在大數據審計分析中的心得體會,以達拋磚引玉之目的。
一、大數據環境下面對的數據類型
我們平常所說的計算機數據分析,是對結構化數據運用SQL查詢進行的分析。所謂結構化數據,即行數據,是存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。結構化數據通過SQL Server、Oracle等關系型數據庫系統進行存儲,是我們開展地稅審計工作中最常使用的數據類型。而不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。所謂半結構化數據,就是介于完全結構化數據(如關系型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,HTML文檔就屬于半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。
在稅務部門的日常工作中,有很多信息是以非結構化數據的形式存儲和使用的。比如納稅人基本資料、經營狀況、辦公場所情況及企業財務報表等是以圖片資料或報表的形式提交至地方稅務機關;某些與應納稅額相關的信息則可以在工商、房產交易等有關職能部門的公開網站上進行查詢,同時百度等搜索引擎能夠在互聯網范圍內為審計人員提供幫助。如在核查房地產企業繳稅情況時,其開發樓盤的行政審批進度、樓盤屬地及性質、項目完成情況及市場運行情況、售賣情況等信息是核定其應納稅額的重要參考依據,在稅收征管審計過程中,審計人員可以從網絡上獲取這些信息,讓這些以圖片或網頁方式存在的非結構化數據為我所用。
二、大數據環境下的地稅審計技術方法
在目前的地稅大數據審計分析中,審計人員以地稅部門稅款征收、管理、稽查等主要業務環節的內部控制為主線,通過對稅款申報、征繳數據和相關外部數據等內外結構化數據的分析,結合收集到的半結構化和非結構化數據,對稅收收入的真實性、合法性進行重點審計。同時,把握稅收征管改革方向,關注與宏觀經濟發展相協調的稅收政策執行情況的審計,促進強化稅收執法力度,規范稅收管理行為,提升稅收征管質量和效率。
1、多表數據關聯分析
(1)多稅種分析。根據現有稅收法律法規,在商品房預售過程中,營業稅(銷售建筑物或構筑物)、核定征收的印花稅(產權轉移書據)、土地增值稅(未開始清算)之間的計稅依據應該是一致的。審計人員通過多個數據表的關聯,對(房地產)企業全年的繳稅記錄按照稅款所屬期和稅種進行排序,然后分析比較同一個所屬期中,企業的銷售建筑物或構筑物營業稅、核定征收產權轉移書據印花稅和未進行過清算的土地增值稅之間的計稅依據是否一致,如不一致,則作為疑點進行延伸了解。當然,這樣的疑點可能會比較多,我們可以設定一個閾值,比如可以選擇營業稅應繳稅費超過100萬元以上企業進行分析比較。
審計分析需要注意的是,如果印花稅實行查賬征收(合同總金額),則其計稅依據與其他稅種就不具備上述每個所屬期一致的特點。對于實行尾盤銷售的項目,其土地增值稅計稅依據與其他兩個稅種也會不一致。
(2)網絡發票開票數據與繳款數據關聯分析。網絡發票是指開票單位或個人通過稅務部門的網絡發票管理系統開具的發票。審計人員首先對發票有關的表進行分析,了解各字段含義,并統計企業全年開票總金額(開票方)超過一定閾值以上單位。然后分析開票額超過閾值以上的單位當年營業稅納稅情況,比較并篩選出開票額與營業稅計稅依據差距較大的企業。通過“開票金額”與“營業稅計稅依據”相減,在差額結果中,挑選有開票金額無營業稅交納情況的單位和開票金額和營業稅計稅依據均存在但其差額為一定金額以上的單位。最后把得到的疑點數據推送地稅部門進行分析和核實。
(3)稅費數據對比分析。以娛樂業文化事業費征繳為例, 審計人員以納稅人實際交納的娛樂業營業稅為基礎,測算出應交納文化事業建設費金額,對比該納稅人實際交納的文化事業建設費,得出疑似少交文化事業建設費的疑點數據。
2、通過趨勢分析,查找企業提前或延遲入庫稅款情況
對稅收收入構成和年度變化趨勢進行分析,各稅種間橫向變化趨勢與稅種自身縱向變化趨勢進行分析,各行業稅收趨勢進行分析,掌握稅收增減變化情況,分析影響增減變化的原因,對差異較大的異常情況,則作為下一步延伸核查的內容和重點。
(1)稅款異常波動情況分析。一方面通過對企業全年12個月每個月繳納稅款形成的曲線圖,分析企業是否存在某一段時間突然顯著降低或上升,比較某稅種在持續可比的稅收期間(月度、季度等)入庫數額是否有較大異動,核查是否存在某部分稅款少征漏征,初步判斷企業是否存在延遲或提前入庫稅款。另一方面,通過對統計報表中分地區分稅種分年度數據對比,掌握某區域稅收收入增減變化趨勢,了解各地之間是否有爭奪稅源的情況。
(2)大額整數稅款分析。挑選單筆入庫稅款為10萬(或100萬)整數倍的企業進行分析,分析其真實性及合理合規性。同時,關注入庫日期為6月(所屬期為5月)、12月(所屬期為11月)的營業稅、城建稅、教育費附加、地方教育附加4項合計金額整數倍或接近整數倍的企業,關注其稅款入庫情況。此外,印花稅、土地增值稅一般在各年度按當期實際的銷售收入繳納入庫,因此如出現營業稅及附加稅費配比正常但沒有預繳土地增值稅和印花稅的情況,則也需考慮其是否存在提前或延遲入庫的現象。
(3)特征分析。通過分析繳款明細數據中稅款來源為風險自查等特征數據,了解地稅部門去年的關注重點,進而找到審計人員的關注重點。
3、結合外部數據,開展地稅數據審計分析
(1)城建稅、教育費附加和地方教育附加均是以三稅(增值稅、消費稅、營業稅)實際繳納稅額為依據,按照一定比例征繳。而增值稅、消費稅數據均在國稅部門,因此審計部門需要通過獲取國稅部門的相關數據,以對企業在地稅部門是否涉及少繳附加稅費情況開展審計。同時,關注城建稅、教育費附加和地方教育附加征收范圍和地方教育附加征收標準調整后,執行落實情況,有無違規減免、有無少征漏征等。
(2)通過獲取工商登記數據,查找是否存在已經在工商部門進行了注冊登記,卻未在稅務部門辦理稅務登記而少繳稅的企業;通過對工商股權變更數據的關聯分析,關注企業、個人股權轉讓中個人所得稅是否足額繳納。
(3)通過獲取國土部門土地出讓數據,分析企業是否足額繳納印花稅。并關注土地轉讓過程中的契稅和營業稅,了解是否存在稅收流失的情況。
4、通過時間等多個維度對多個稅種繳款數據進行分析
(1)對房產稅、城鎮土地使用稅的審計。通過對近兩年地稅部門房產稅和城鎮土地使用稅明細數據的分析,審查近兩年房、土兩稅變化較大的企業其稅款變化是否合理;重點審查有無繳納房產稅未繳城鎮土地使用稅、以及繳納城鎮土地使用稅未繳納房產稅的企業。
(2)對房地產公司企業所得稅進行審計。以2016年開展地稅部門2015年度預算執行情況審計為例。首先,計算2014年全年房地產企業入庫銷售建筑物或構筑物的營業稅和企業所得稅情況(2014年入庫,所屬期為2014年度); 其次,計算2015年對應房地產企業入庫銷售建筑物或構筑物的營業稅和企業所得稅情況(2015年入庫,所屬期為2014年度); 第三,合并前兩步得到整個所屬期為2014年度的入庫企業所得稅金額和營業稅金額; 第四,以營業稅金額測算得到銷售收入金額,進而分別測算企業毛利潤、毛利率,考慮企業相關稅費等因素,因此篩選毛利率低于一定閾值的企業。同時統計各企業的企業所得稅納稅申報次數及實際納稅次數。最后根據分析得到的疑點數據,了解企業所屬期2014年度,企業所得稅額偏少的原因以及部分企業沒有按月(或季度)申報繳納企業所得稅的原因。
(3)對重點稅源戶的審計。分析重點稅源戶和納稅大戶(年納稅額一定閾值以上)近兩年入庫稅收收入變動情況。重點關注房地產企業的稅收分析:通過整體分析房地產行業納稅人營業稅、城市建設稅及附加、企業所得稅、土地增值稅、印花稅等之間的內在關系,審查其是否及時足額繳納各項稅收。
5、利用大數據開展穩增長等政策執行情況審計
在稅務管理情況審計上,通過對涉稅大數據的分析,把握稅收征管改革方向,重點關注與宏觀經濟發展相協調的稅收政策執行情況;關注對小微企業降費清稅等相關稅收政策的執行落實情況,促進加強納稅服務,確保相關稅收政策落到實處。根據營改增稅目清單,關注地稅部門在營改增后如何加強稅務管理、稅款征收等方面的工作,分析其對地方稅收的影響。關注預征土地增值稅稅率2014年調整后企業是否少繳等。
6、結合半結構化數據開展總體分析
(1)在稅收預算執行情況審計上,首先,通過匯總整個地區稅收數據,與取得的當年稅收統計報表相比對,以確認該地區稅收征管審計取得數據的真實完整性。其次,通過對稅收征管數據的分析,結合金庫報表、地稅部門會統報表,審計地稅部門稅收預算執行情況,分析評價其組織收入的措施及能力。最后通過分稅種、分地區、分級次分析稅收征管數據、與地稅部門會統報表進行核對等方式,了解核實前一年度收入組成及同比增長情況。
(2)根據稅務稽查數據分析結果,確定審計疑點,抽審案件卷宗,關注稽查任務執行情況,審查查補稅款是否及時足額入庫。了解前一年土地增值稅已清算房地產企業名單,審查地稅部門對符合清算的是否及時進行清算,稅款是否及時入庫。
(3)企業所得稅審計中,通過分析企業提供給稅務部門的多年財務報表,并集合外部房地產銷售形勢,分析判斷企業利潤情況真實性。
7、結合非結構化數據開展地稅審計
審計人員通過全國工商信息網查閱企業工商登記信息核實經營范圍和開發資質,通過在房地產市場信息網查詢某樓盤開發項目的信息,了解該樓盤開發總套數、銷售情況以及是否為保障性住房等信息,來核實其營業稅計稅依據,是否享受稅收減免及是否應進行土地增值稅清算,最后結合結構化的稅款繳款明細數據,核實該企業稅款繳納是否及時、足額。
8、開發工具開展各稅統籌分析
有的時候我們用SQL查詢語句無法直接實現我們希望達到的功能,而目前市面上還沒有符合審計人員特定需求的審計分析工具,因此審計人員就通過有關高級編程語言編寫小工具、小軟件,實現我們需要的功能。
三、大數據環境下的審計取證與數據安全
大數據時代,一個微小的數據泄密,就可能使被審計單位蒙受巨大損失,并可能使得審計部門處于很被動的地位。因此,審計人員和審計機關對取證和數據安全應引起足夠的重視,千里之堤,不可潰于蟻穴。必須加大投入,嚴格管理,保證數據安全。
1、大數據環境下的審計取證
在大數據環境下,審計證據的存在形式、內容、獲取的方式等與傳統紙質證據有明細的區別。一方面,各種數據管理軟件(包括會計軟件)的更新換代,增加了數據提取的難度。被審計單位的數據由于軟件版本的更新和數據的逐年積累,數據量越來越大,也越復雜,審計人員不得不從浩如煙海的資料中收集整理相關數據,因此帶來了更多的檢查風險。另一方面,軟件公司為了維護公司利益、保守其技術秘密和商業秘密,會采用愈來愈嚴格的防范與保密措施,增大了審計取證的困難。
審計人員在取證時,除了傳統取證方式外,還可以采取外部調查、重新計算操作、分析等方法向有關單位和個人獲取審計證據。審計人員可以根據情況采取如數據分析結果存盤、數碼拍攝照片、屏幕拷貝圖片等多種電子取證方式。
2、證據判斷與處理處罰意見
證據的準確判斷可以迅速鎖定重要問題。在大數據環境下,我們必須進一步審慎對待審計分析結論,并與被審計單位充分溝通。審計組對審計發現的問題提出處理處罰意見時,除了應當關注法律法規的條款外,還應當關注行業標準和規定,在審計實施過程中還需要持續關注標準的適用性。
3、電子資料的安全保管
審計人員獲取的被審計單位的數據經常涉及相關工作秘密或商業秘密等,因此審計組負有保管和保密義務。由于信息化環境下,他人只要能訪問電腦,就可能對數據文件進行復制并帶走,因此應對相關服務器設置高強度的密碼,并定期更換。審計組應對相關計算機及移動存儲設備采取必要的安全防范措施,落實專人保管,非相關的人員不允許接觸,以防止不法份子盜取審計保密資料。另一方面,從被審單位采集的各類電子數據及技術資料,在審計過程中形成或取得的資料、數據、文件,未經批準,不得向外泄露或向其他人提供。電子資料管理不善,可能給審計人員和被審單位帶來不可彌補的損失,甚至將審計人員自身推上被告席。同時,要注意電子資料(證據、底稿等)的備份,以防由于軟硬件故障導致資料丟失而使得前面的工作毀于一旦。
審計結束,各種數據文檔等,屬歸檔范圍的應及時整理歸檔(可以刻盤存儲),不屬歸檔范圍的應定期銷毀,切實消除各種不安全隱患。
四、當前開展地稅大數據審計存在的制約因素
1、涉稅數據大集中未形成制度化,數據共享有困難
長期以來,涉稅數據分散在各個相關單位,沒有進行統一的管理與分析,不利于稅源控管。為了加強綜合治稅,實現涉稅信息全覆蓋管理,提高稅收征管效率,促進財政收入持續穩定增長,部分地區開展綜合治稅工作,要求涉稅數據集中共享,但一些地方仍存在一些制約因素。
(1)數據大集中未形成穩定的長效機制。目前對涉稅單位缺乏可行的約束機制,導致一些涉稅單位在綜合治稅工作中,存在遲報、缺報等現象,數據更新不及時,有的單位只是初期一次性共享一批數據(一次性數據),后期就再無更新,或者數據更新有停頓。隨時間推移,這些數據已經逐步失去了時效性和使用價值。另外,參與單位年末內部人員崗位變動后經常不能及時上報有關部門更新其聯系人,導致出現找不到聯系人的情況。
(2)涉稅數據的分析利用率有待進一步提高。涉稅數據來之于全市多個部門,數據內容豐富,數據量也越來越大,含有很多有利用價值的信息,然而當前對數據利用的深度和廣度有不足。據筆者了解,很多審計部門如要使用涉稅大數據,經常要經過復雜的申請審批程序,而其中國稅部門由于不是我們的審計對象,因此對國稅的數據共享更是存在比較大的困難。
2、各部門之間的涉稅數據的關聯性不強,數據質量有待提高
大數據環境下開展審計,要求各個部門之間的數據一定要能夠有關鍵字段進行關聯,否則就很難達到1加1大于2的效果。
(1)部分部門的數據之間缺乏統一的數據關聯標準和規范。涉稅數據來源于不同的部門,涉及的機構多,信息化水平不等,最為突出的是納稅人身份識別碼不統一。工商部門、供電部門、自來水公司、民政局等政府部門及社會公共事業單位都有各自的編碼規則。結果同一納稅人在不同的機構、不同的系統有不同的代碼,導致歸集、利用這些不規范數據時效率偏低,在數據處理過程中可能會造成有效數據的遺失或數據匹配錯誤,影響到涉稅大數據應用的成效。據筆者了解,國家目前已明確要求今后將把組織機構代碼作為一個單位的唯一識別碼,就有如自然人的身份證一樣。但此一要求有待各部門對其信息系統的進一步升級。
(2)涉稅各部門的數據質量有待提高。一是部分單位的數據中缺乏某些重要字段,使得數據不具有使用價值;二是金額單位不一致,比如土地轉讓數據的“轉讓金額”字段,有時候以元為單位,有的則又以萬元為單位,導致數據不便于統計分析;三是部分數據缺乏完整的數據字典,部分單位提供的報表和數據項目,無法利用。
3、部分審計人員還未做好開展大數據審計的思想準備
常見的大數據技術有關聯規則學習、分組、數據挖掘、模式識別、預測模型等。因此對審計人員來說,不僅僅要懂得看電子賬和利用SQL語句進行結構化數據查詢分析,還要了解非結構化數據的特點,學會利用大數據工具分析查找規律、發現線索。這就需要建立包括懂審計業務、數據分析以及熟悉常用大數據分析工具等方面的審計人才團隊。因此,對審計人員開展大數據分析培訓的工作任重而道遠。
另外,當前開展大數據審計的思路和方法還不是很多,適合審計人員使用的大數據分析工具還比較少。