CAC反垃圾分類系統是Coremail的后端反垃圾引擎。垃圾郵件經過前端反垃圾GT網關引擎評分判斷之后,大部分的垃圾郵件都被過濾到垃圾箱,正常郵件投遞到收件箱,少部分郵件(在一定分值范圍內)進入了可疑郵件隊列。進入隊列的郵件再經過CAC郵件分類系統過濾,將郵件分類成:正常郵件、訂閱郵件、廣告郵件、垃圾郵件四大類型。其中正常郵件和訂閱郵件將會投遞到用戶的收件箱,而廣告郵件和垃圾郵件將會投遞到用戶的垃圾箱。
反垃圾郵件服務運營中心反垃圾分類系統,對可疑郵件進行智能分析,并進行人工判定。 在反垃圾GT網關的基礎上,進一步降低了郵件的漏判率。
n基本原理如下圖所示:
n判定過程:
n郵件進入CAC分類系統后,先將相似的郵件聚類到一起,然后進入分類引擎對郵件進行分類,將郵件標記為正常郵件,訂閱郵件,廣告郵件,垃圾郵件四者之一,并將郵件標記和分類結果置信度返回給客戶端,由客戶端做后續的處理,對于置信度小于指定區間或重復次數過多的郵件,將會要求人工確認此郵件的分類。
n學習過程:
n反垃圾郵件服務運營中心郵件分類系統后臺會定時啟動學習模塊,學習過去n天的分類系統處理結果,來不斷的進化和處理新垃圾郵件類型。
反垃圾郵件服務運營中心(CAC)應用幾十種世界先進的反垃圾技術,根據反垃圾技術潮流的發展,不斷對技術進行創新,為客戶提供獨特而實用的反垃圾運營服務。
n國內最好的中文垃圾郵件過濾算法
n傳統的文件比較方法,提取最重要的特征分詞,會導致某些次重要的特征分詞被丟棄,會影響分類器的準確性。CAC郵件分類系統對于中文分詞不依賴中文字典,而是通過排列組合窮舉所有可能的分詞形式,然后通過統計來確認哪些分詞比較重要,并針對html文檔和html tag進行特殊處理。
n郵件評分技術
n反垃圾郵件服務運營中心(CAC)使用多條評判垃圾郵件的規則,對郵件的發信IP,發信人地址,信件內容等部分進行評分。將總分與系統及用戶設置的閾值作比較,決定郵件是否評為垃圾郵件。使用郵件評分技術使得反垃圾郵件系統可以更靈活地組合各種過濾規則,系統管理員可以設定劃分垃圾郵件的系統過濾閾值參數,從而動態調整系統對垃圾郵件的過濾強度。
n二次學習機制
n反垃圾郵件服務運營中心(CAC)聚類服務器使用半人工的分類器對未知郵件樣本進行分類,SVM生成第一次分類結果之后,將所有學習樣本都投入分類器,抽取部分點讓人工再做一次糾偏,最終將糾偏之后的信息傳遞給分類器進行訓練,再學習一次,由此形成一個正向循環,讓學習結果準確性提高。
[1]反垃圾郵件服務運營中心(CAC)為超過50個VIP客戶、140個IP提供RBL監控和移除處理服務。CAC監控的RBL組織包括9個國際著名反垃圾組織,第一時間監控用戶IP是否被列入RBL,并幫助客戶提交相關信息,申請移除。
n截至2012年,CAC反垃圾中心已為70多個客戶移除RBL共208個。
針對企業的郵件類型,CAC可提供個性化的反垃圾算分服務。經過算分后,能獲取到某一企業內郵件的特征,從而調整判斷規則的分值,有效地解決郵件誤判和漏判的問題。