整治費徵收金額預測AI分析系統

2023/02/13

因整治費徵收的變項因素繁雜,每一季廠商所申報的金額皆因複雜的變項而致費率浮動率大,難以掌握,故案主─土壤及地下水污染整治基金管理會(以下簡稱土基會)的主要問題點在於─需要提高在徵收整治費的「精準度」;因信諾在大數據分析以及機器學習演算法上,深耕有成,擁有豐富的專案經驗,因而誕生了本專案計劃。

緣起背景

土基會為了解決在徵收整治費的誤差問題,想加強預測之精準度,故希望透過人工智慧演算法來處理繁雜的大數據資料;但因整治費的數據龐大,每一季之數據皆為以億為單位起跳,而影響整治費變多或減少的變項條件繁雜,在引進大數據機器學習分析技術前,採用傳統的迴歸(regression) 分析方法常造成預測值浮動幅度大、誤差高,且運算的維度有限,故無法有效提高準確度。

3分鐘掌握專案績效重點

因信諾在AI演算模型的類別、數目、執行程序之嚴謹性皆優於傳統的方法以外,更精益求精,引入時間序列(time series),能有效地控制因時間因素而產生的誤差,並針對不同樣態的數據資料,能提供相適配的演算模型。

透過檢測適配資料樣態的AI模型之方式,導入了多種類的AI演算模型,並做不同方法的排列組合測試的繁複演算工程(多種模型協作),在提升運算之維度與方法之多元性後,能更有效提升案主在做各種情況模擬時的選擇性與準確度。

重要功能展示

圖說:圖為系統實際使用的畫面,能針對各年份的資料進行6種預測模型的運算,在精確性上已實證比較過,確實較傳統方法優良。
圖說:在系統的選擇性(預測模型)上,信諾提供6種模型來提供案主更多的選擇性。

成果具體效益價值簡要列點如下:

  1. 導入時間序列,從而拉高運算的維度,並透過嚴謹繁複工法造就高精準度,成就更精準,也更少的誤差值;例如透過因子模型與時間序列模型共同測試,尋找最佳的模式。
  2. 信諾擁有許多工具及技術,可以為數據挑選合適的模型,並且配合仿生優化法來最佳化參數,因此便能達到最合適的處理,也能提供給案主更多不同面向的選擇性。
圖說:以110年的整治費預測為例,可以看出信諾在誤差值中的表現,從4.00%的誤差降到1.15%,表現的確更為優良。

可以看到在信諾系統之誤差,對於實際值,每年最低可降至0.28%,且額外提取出之數據誤差亦只有1.85%,對於該案來說每季約為3億的徵收費用,誤差約為600萬,相較之前已有顯著提升。而在平均絕對百分比誤差(MAPE, Mean absolute percentage error)上,信諾能將誤差值壓制在2%中,而傳統方法則為2%以上。

因為信諾採用多種模型協作的方式來進行數據運算,在單一模型中有:線性回歸、決策回歸樹、支援向量機與人工神經網路以及複合模型(Ensemble Model):表決法以及重複採樣平均表決法,再依適配性搭配不同樣態的數據,進行多種模型協作,並透過敏感度測試的繁複運算工程來獲得最佳模型;為了避免過度擬合(Overfitting)的問題,公平地比較各模型,再使用交叉驗證法去評測模型的可靠度,減少過度擬合導致的不可靠之結果,以獲得更高的精準度。

圖說:透過多種模型協作的方式,在繁複工法與嚴謹流程下建立的最佳模型能確保達到更準確的預測效能。

目前信諾所使用的運算程序是使用臺科大PIM研究室(Project intelligence & Management,PiM)的審核流程;從資料拿到之後,進行文獻回顧、觀察資料處理、資料分析,然後建立模型,接著預測,並在建立模型當中採用多種方法以求公正(交叉驗證法) 一整套下來可以給予該組數據較合適的模型。

圖說:信諾在嚴謹的研究架構流程上保障了預測效能的精準度。

結語

信諾導入時間序列,更特別針對不同樣態的數據資料,提供相適配的演算模型,並藉著臺科大PIM研究室的嚴謹作業流程,透過多種不同模型的排列組合測試的繁複演算工程與交叉驗證法去評測模型的可靠度,不僅在方法上更為嚴謹,誤差值自然也更低,且能提供給案主更多種選擇性(六種預測模型)。

 

回上一頁