中國智慧稅務:從稅務大數據走向稅務大算法
數據智能的要素包括了算量(數據)、算力和算法,由於金稅系統的建設,在數據獲取與匯集上,我國稅務系統的算量建設水平相當高,由於國家整體重視包括超算、雲存儲與雲計算、數據存儲中心、區塊鏈等在內的建設,因此可使用的算力水平也不低。在算法方面,正如國家稅務總局王軍局長在出席中辦國辦印發的《關於進一步深化稅收征管工作改革的意見》專家座談會上所說的那樣,在稅務系統所進行的個人所得稅匯算清繳計算機制、大數據支持的稅務稽查等環節,已經在關注與應用算法技術了。但中國稅務算法是稅務數據智能三要素中提升價值與空間最大的。
算法與稅務算法
算法(Algorithm)是一系列指令的集合,這些集合型的運算規則,使得在保証有特定化數據輸入的時候,就能形成特定化的成果輸出。稅務算法則是一系列對應特定稅務工作場景的專業處置規則所構成的指令集合,借助於這些集合型的運算規則,使得隻要有一定數量和條件的稅務數據輸入,就能形成一定的分析成果、判別結果、行動對策與預測預警信息,支持高質量決策與決策執行追蹤與“稅務數據分析—決策指揮—行動追蹤—成效評價一體化”機制。稅務算法在不斷的數據訓練與實景應用中優化升級,特定的算法針對性地解決某個或者某類特定稅務場景問題,而集合型的稅務算法可以解決多類多型稅務場景問題,對應全場景與全類型稅務場景的全量稅務算法集合構成“稅務腦核”,有無“稅務腦核”決定著是否真正擁有稅務系統數字化管理中樞,是當下稅務系統大腦內容建設的核心。
從稅務工作數字化轉型與數字化治理三層次(Digitization數字型信息體系的形成、Digitalization運用數據進行工作模式的數字化優化、Digitalization Transformation / Digitalization Governance實現具有常態化的數據自動分析—智能決策—創新行動管理一體化機制)邏輯架構出發,則稅務算法集合是數字化稅務治理從第一層次躍升到第二層次以上的關鍵和達到第三層次的構成要件。
稅務算法的類型及其典型實例
稅務算法分類最典型的可以按照問題場景類型進行,比如參照 12366咨詢與投訴訴求分類,可以(在分到第五級、第六級情況)將稅務問題場景分成大約 300類左右的細分小類(考慮社保繳費則可以達到 400左右),由於算法需要針對最具體的問題場景及其原始數據,因此深度細分類目更有價值,這就意味著針對稅務熱線訴求可以形成不少於 400個以上的稅務算法與算法集合。同樣,針對線上線下稅務辦事大廳的工作主項則接近 250項左右、稅務稅務違規違法查處事項 150項左右。在上述近 800項稅務工作場景中,每個關鍵信息與數據來源都可能有數百上千類別的問題場景,每個場景都需要個或數個算法對應。不同信息來源的場景問題本來就可能有重疊和共性,因此多來源的場景數據可幫助我們鑒別共性、有一定代表性與個性特定問題,通常前兩類問題更有用算法加以系統高效管理的價值。
稅務算法的第二種分類是按照針對問題場景的處置功能來分類,比如我們針對問題需要進行判別判定(比如判定是否虛開發票、納稅人風險與稅收信用評估)、分類排序(如確認虛開發票的類型及其變化周期)、場景匹配(比如納稅企業與可享受優惠政策的匹配)、預測預警(行業納稅能力通脹影響預測、特定問題的可視化地圖分布與關聯關系空間關系分析)、搜索推薦(特定減稅降費政策推送)、指令模擬(稽查案件智能提示)、指令分發(任務工單智能派發)、任務追蹤(處置工作全程追蹤)、成效評估(指數化自動分析),這些都可以形成相應的判別算法、分類算法、分布算法、排序算法、匹配算法、預測算法、搜索算法、推薦算法、指令模擬算法、分發算法、追蹤算法和評估算法。理論上,稅務算法可以覆蓋稅務管理行為全程。
稅務算法的第三種分類是按照算法構建留存的技術形態而分為朴素模型化算法與軟件化算法兩類。前者通常以文字和圖形描述的模型邏輯架構+一定的計算公式的形式存在,通常大部分的算法也是有這樣的模型基礎的﹔后者則以程序語言的方式將算法的模型與非模型邏輯,開發為可以在系統上進行容器化或者插件化部署的微軟件、微軟件組合或軟件模塊。目前學術界所稱的算法前一種會多一些,而在專業數據智能應用界,軟件化算法因其具備置入硬件、軟件系統、網絡而實現在線運行和快速自動計算的優勢而成為主流形態。未來中國稅務算法可以在金稅系統之上建設插件化部署的工作台形態。
典型的軟件化稅務算法部署實例包括,使用在稅務熱線管理后台的熱線訴求管理智能分析工作台上的分析類算法、業務導航類算法指令、專項問題(熱點問題、重點問題、難點問題與新點問題)解析型算法﹔使用在稅務大廳服務管理系統上的探頭影像中的問題事項甄別算法、問題事項智能派發與追蹤算法、多類問題網格分布可視化關聯分析算法、多類數據問題時空序列分析算法等﹔個人與企業所得稅匯算清繳算法﹔基於各類稅務違規違法的立案、查處、破案文本信息進行的知識圖譜建設與深度算法開發而形成的行為類型(比如虛開發票)判別算法與分類算法﹔基於發票和社保費用繳納數據進行的區域經濟發展、行業發展、就業變動分析、企業運行連續性算法﹔基於稅務知識庫而進行的特定納稅主體自動化政策過濾分析算法與政策推薦算法﹔針對稅務工作最佳工作標杆(工作部門、稅務所)的數字化解析與算法化指令設計,形成培植“超能稅務官”、“超能服務大廳”、“超能稅務所”的算法化管理模式等等。
稅務算法的來源及其構建
稅務算法的形成,在起始處往往是因為有某些需要處置的稅務工作事項或者場景性問題,這些問題有一定的共性,也形成了一定的痕跡資料、相關信息與數據,因此結合過去對於這類問題的處理經驗與最佳做法,就可以提煉與開發初步的核心要素及其關聯規則,形成一定的模型邏輯,來進行相應的模擬分析與運算,在分析運算基礎上可以通過數據訓練(場景數據化的成效檢驗、參數和變量調整、再檢驗、再調整)達到提升算法精度的目的,算法模塊一旦成型則可以在規定的數據輸入下形成相應的算法計算結果。如果模型與模式能夠用程序語言編輯為軟件,則算法化的軟件雖增加了前面的開發成本,但在后續的運算效率因算法模塊部署在政務系統上自動智能運行而會更高。
這裡,我們大致會看到稅務算法構建的操作步驟:1、可使用或者可訪問的場景性問題信息與數據﹔2、業務團隊與算法架構師針對問題處置經驗的梳理與相關支持信息與數據﹔3、業務團隊與算法架構師在前兩者基礎進行的提煉與算法邏輯構建﹔4、程序技術團隊利用基礎算法技術與其他系統開發技術,將算法業務邏輯進行程序化語言的轉化,形成初步軟件化的算法模塊﹔5、算法訓練(在應用場景中的多輪測試與場景性數據化檢驗)﹔6、達到一定精度后的成型算法模塊的部署﹔7、算法模塊在特定數據輸入下形成特定結果輸出的常態化能力﹔8、算法升級與調整部署。
面對海量數據尤其是文本型的稅務數據(稅務熱線工單、涉稅案件查處資料、大廳辦事數據、金稅系統對應業務數據、非稅關聯社會數據),專業團隊往往還需要通過知識圖譜技術開發大量的稅務知識圖譜,以支持高效的機器化的深度學習,並在知識圖譜基礎上開發高精度的稅務算法。同時作為對應具體稅務服務與征管場景的應用算法,稅務算法開發需要在充分利用基礎算法工具與通用算法工具的條件下進行。總之,稅務算法是對於特定稅務場景問題的解決方案,因此開放稅務工作場景並不是目的,推動稅務數據共享也不是目標,場景提供與數據提供是提出問題與提供各類專業團隊進入問題解決環節的機會,獲得稅務算法才是開放稅務場景與附條件提供稅務數據的目的。有價值的稅務算法開發既不能隻依賴系統內團隊,因為其算法架構往往缺少創新性與超越性﹔也不能變成外部技術團隊的專利,那樣的算法往往不能有效解決特定場景問題。稅務算法的開發需要特定稅務領域的業務團隊、掌握算法系統開發技術的技術團隊、具備邏輯架構與跨界協調能力的稅務算法架構者高效協同。
稅務算法開發是問題驅動型的對策開發,也是需求驅動型的解決方案開發。而且同一個稅務服務場景,需要的算法也不是隻有一個、一種或者一類角度開發出來的算法,不同業務背景、不同技術背景、不同內外協同工作模式的團隊可能會開發出不同的稅務算法,其精度效能會有一定的差異,因此在選擇合作的稅務算法團隊的時候需要充分考慮這些因素,當然在可能的條件下,允許針對同一稅務場景問題嘗試開發運行不同算法,以起到糾偏趨准的作用。在技術上,因為智能化稅務算法微軟件具有模塊化、插件化部署的特點,不同特點的算法也同樣可在相關系統上兼容部署,並不需要不斷重復投入建設系統和平台,但需要原有與現有的系統開發商確保開放算法模塊接口,而不至形成技術阻隔與低效部署。
稅務算法集合及其應用
在稅務算法軟件化的前提下,同一團隊開發的稅務算法模塊可根據需要形成不同的集合,用於解決不同的問題。不同團隊開發的稅務算法模塊同樣也可以參與形成組合,即使是不同開發團隊開發的稅務算法本身可以通過一定的接口連接起來。一旦有稅務問題場景需要,就可以招標購買更多的算法開發團隊參與稅務算法的構建。因此,不同時期、不同類型、不同功能的算法模塊達到一定規模與數量,就可以構建分類、分級的“稅務算法池”或者“稅務算法貨架”。類型豐富充分、結構合理清晰、可以自動聯結運行的算法集合構成“稅務腦核”,並將“稅務腦核”在稅務算法模塊的不斷橫向類型豐富與縱向升級的過程中,實現整體的持續升級,模擬出人類腦核運行的基本機理(人的腦核=腦區—皮質—神經元—細胞體—突觸﹔政務腦核=智能區塊—算法集成模塊—特定稅務算法—算法接口)。
在智慧稅務建設中,稅務算量是稅務算法構建的基礎也是稅務算法訓練、算法運轉的原料供應要素,數據建設追求匯融但不必也不容易實現跨系統匯融,匯融中也特別容易出現“能匯融的無大用,有大用的不匯融”的現象,因此數據建設的關鍵應放在數據清理到可訪問、規定授權下有條件可訪問可貫穿使用、常態化分布式存儲﹔稅務算力保障了稅務算法運算的效率,尤其是海量數據輸入下的運算,但應該盡量減少算力重復建設、算力的無效過度應用(海量存儲、過多大屏呈現、無意義的分布式存儲)﹔稅務算法集合涉及稅務智能腦核的實現,是得以面對大量稅務工作中的場景性問題、尋求問題解決方案的中樞部位。未來結合大規模稅務算法與稅務知識圖譜資源的累積,基於深度學習與自動算法生成能力,形成新一代的具有面對新型稅務場景問題的多模態算法自動生成腦核,同時實現對於算量的精准調用、調度,對於算力的精准借用。
由於我國稅務系統數據留存、維護與運行的綜合水平很高,實現稅務大數據向稅務大算法遞升也最具備條件。在整體政府服務版圖中,稅務系統也以其數據總量大、數據質量高、系統升級周期算、全系統數字化程度高、智慧化探索積極而走在數字化政務治理建設的前列,而中國稅務大算法建設,也將使得稅務系統在新一代智能政務建設與數字化治理轉型中,為政務大算法建設提供引領性的思路觸動、標杆示范與資源支持。
前后台效應:稅務算法與稅收征管工作
稅務數據的智能化應用幫助納稅繳費人高效辦事,而大量的辦事痕跡形成更多數據,如果數據轉化為算法並不斷精化算法,則可以支持辦事效率持續提高與辦事方式持續優化﹔站在稅收征管與納稅繳費服務角度,如果數據轉化為算法並精化算法,則可以支持高效處置特定事項並優化處置方式。對於稅務算法工作重視,將更多領域的辦事標杆與大量數據洞察中轉化而出的稅務算法,用於支持稅收征管與納稅服務最佳辦事方式的普及化、辦事中遇到的共性問題優化解決高效化、監測數據中問題的垂直深度發現與聯動分析常態化、多類問題整合分析與決策提示上升到更高的層次,有了稅務算法支撐的智能后台,能有效實現稅收征管工作前后台問題場景的“發現—判定—決策—解決—反饋”一體化。從稅務系統之內通稅務數據,到稅務系統之上有稅務算法集合,形象地說,不斷升級豐富的稅務算法集合使得,現有的擁有即時場景數據感應供應與問題反射能力的“八爪魚”體系,上升到擁有“稅務腦核”智能對策系統覆蓋的有機稅務智慧體系。
稅務算法的能力體系與賦能機制
稅務算法構建需要較大規模的稅務場景問題及其相關數據(包括在必要的實地大調研數據)的匯集能力、稅務服務與管理領域的經驗規則提煉能力、運用程序語言表達最佳業務規則的轉化能力、稅務算法邏輯架構與稅務解決方案運籌能力、推動稅務算法通俗化推廣與應用能力。以稅務算法集合為內容的稅務腦核一旦形成,將極大地提升有目的地調用稅務數據資源的能力、合理利用稅務算力的能力、甚至應用相關數據監測國民經濟實際運行狀況及提供智慧對策的能力。中國稅務算法體系與稅務腦核的建成,可有效推動“雙賦能”目標:稅務部門透過算法分享與政務服務其他板塊之間實現算法支持與算法對接﹔實現不同層級稅務部門之間稅務算法資源的賦能與分享,尤其是上級稅務部門集中開發的算法與下級稅務部門的分享。過往不同部門間與不同層級間的數據交流關系,將進一步因算法資源交流關系而得到新的充實,這將引領數字化治理生態的新發展。
中國稅務算法建設應引領中國政務算法建設的先聲
建設中國稅務算法,當前需要做六件事:一是建設高水平的“中國稅務算法中心實驗室”(CLTA)和“中國稅務算法資源中心”(CRTA)作為稅務算法建設的前沿載體單位,鑒於全球算法產業化不同於算量產業、算力產業的巨頭化特性而更具豐富化樣態,因此 CLTA和 CRTA建設應在總局層面由信息化部門和納稅部門共同參與,可以適度引進互聯網界與 IT系統建設界的實力機構,還應充分考慮計算界、應用數學界、數據科學界的海歸型專家,部分在政務算法領域有先行實踐經驗的專業架構共同參與,CLTA也可在全國不同區域稅務部門選擇建設 6-7個分實驗室﹔二是形成“中國稅務算法建設三年行動計劃”,重點規劃重點聚焦的稅務工作場景、稅務知識圖譜建設、稅務算法建設年度建設成果預期、中心實驗室與分實驗室工作分工及其內部合作伙伴業務分工、制定鼓勵與推動稅務算法發展的專項政策,將稅務算法建設納入到智慧稅務建設與智慧納稅服務的工作大框架中﹔三是展開稅務算法開發“金算計劃”,推動以 12366稅務服務熱線問題與訴求、稅務稽查與稅收征管中遇到的典型問題場景、線上線下稅務辦事大廳事項、大廳服務探頭系統與感知數據系統中的事項為線索,以集中採購、開發擂台賽、平行算法應用實驗等途徑,在現有金稅系統建設開發的基礎上,實現稅務算法模塊的豐富化,為“稅務腦核”初期提供足夠的啟動性算法資源﹔四是規劃年度中國稅務算法最佳實踐案例大賽,讓更多的專業團隊能聚焦所發布的稅務工作場景,為稅務算法發育與壯大實現供需匹配,讓一批獲得“金算獎”的優秀機構,列入稅務部門可重點對接服務的稅務算法供應商長名單和短名單﹔五是支持發展“產教融合以產主導”的稅務算法人才實訓培養基地,在財經專業與計算專業交叉的基礎上,支持 5-6個應用型高校基地每年實訓超過 1000名稅務算法師(算法工程師、算法科學家、算法架構師)人才﹔六是經費投入,要切實改變預算投入中重系統輕應用的做法,保証稅務算法與稅務腦核達到支持高質量智慧警務運作的水平,其預算水平應不低於整體智慧稅務投入的 7-15%。(作者:零點有數董事長 袁岳)
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注