黄大色黄大片女爽一次,丁香一区二区三区,精品一区日韩,www.国产网站,日韩欧美视频在线播放,性视频久久,欧美日日日日bbbbb视频

 首頁 > 新聞 > 專家觀點 >

App主流反垃圾服務難點和技術實現(xiàn)全解析

2016-03-24 10:56:25   作者:環(huán)信聯(lián)合創(chuàng)始人 馬曉宇   來源:CTI論壇   評論:0  點擊:


  在近期做的一項2015年App統(tǒng)計中,以微信為首的社交類App占據(jù)了排行榜第一位,新聞類App位居第二,可見人們對社交的需求大過了獲取新聞資訊的需求。在馬斯洛需求層次理論中,社交需求僅次于生理需求和安全需求,位居第三,可見社交的重要性,恐怕這也是流行的那句話“無社交、不App”的真實本源。
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
環(huán)信聯(lián)合創(chuàng)始人 馬曉宇
  App開發(fā)者想方設法在App里集成IM功能,鼓勵用戶溝通、互動、分享。但在享受用戶量迅速上漲的同時,卻也面臨著不小的麻煩——垃圾信息。用戶數(shù)量上來后,各種廣告、釣魚、色情等垃圾信息也不請自來。影響用戶體驗不說,一旦涉及到政治類信息,甚至會給App帶來下架的風險,這實際上已經(jīng)有過前車之鑒。即使是過百萬用戶量,由于沒有即時采取措施遏制垃圾信息泛濫,最終導致被用戶拋棄的App也已是不乏其數(shù)了。有人對此總結了一句話:“始于約炮,發(fā)展于炫耀,終結于代購”。
  App植入IM功能是大勢所需,關鍵在于,如何有效過濾各種垃圾消息,讓App滿足用戶真正的社交需求。
  垃圾消息分類與偽裝術
  “知己知彼,百戰(zhàn)不殆”,我們先了解一下當前IM軟件上垃圾信息的特點。
  從內容上來看,垃圾信息通常分成這么幾類:
  廣告類:用于推銷商品、網(wǎng)站、店鋪等,例如減肥藥、化妝品、四六級答案等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務難點和技術實現(xiàn)全解析
  釣魚類:通過發(fā)布一些虛假信息,誘使人們點擊或是回復,從而一步步陷入騙局;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務難點和技術實現(xiàn)全解析
  色情類:用于色情交易或事色情網(wǎng)站宣傳等;
  環(huán)信聯(lián)合創(chuàng)始人:App主流反垃圾服務難點和技術實現(xiàn)全解析
  SEO類:通過讓用戶點擊提高小網(wǎng)站的搜索排名;
  政治類:例如境外勢力支持下的對重大事件的負面輿論。這類信息風險極大,一旦廣為擴散極有可能造成App被下架。
  對于簡單的垃圾信息,管理員只要設置好關鍵字過濾即可。但發(fā)送者為了逃避攔截,通常都會對垃圾信息進行偽裝,幾種典型的偽裝術:
  • 不相關內容+垃圾內容。例如在四、六級或考研季來臨時,常常會收到這種垃圾消息:“白日依山盡,黃河入海流?佳写鸢,聯(lián)系QQ******”。前半句“白日依山盡,黃河入海流”即為干擾項。
  • 添加隨機噪聲,包括文字變換,隨機字母,不同字體等。例如,“QQ群”改寫成“藤訓裙”、“叩叩裙”等,或者同時使用符號、文字變換:
  • 使用多媒體技術,例如使用圖片或者音視頻來封裝廣告。
  垃圾信息檢測技術
  從垃圾消息的偽裝技術來看,僅依靠傳統(tǒng)關鍵字過濾顯然是無效的,必須另辟蹊徑。目前在學術界和業(yè)界的幾個研究方向:
  1. antispam_based_user_keyword,基于敏感詞的模糊匹配技術。
  這項技術的核心是實用雙數(shù)組字典樹算法進行關鍵詞的查詢。首先服務會對輸入的內容先進行簡繁體、全半角、火星文、同義詞、特殊字符過濾等一系列預處理。然后進行高效的關鍵詞查詢,主要功能點:
  基于基本詞庫進行過濾(如政治、色情、暴力等),同時支持用戶自定義詞庫;
  大小寫模糊匹配;
  將需要屏蔽的關鍵詞替換為通配符(如星號*);
  2. antispam_based_user_behavior,基于用戶行為檢測
  基于用戶行為的反垃圾算法的核心是使用聚類算法對用戶行為進行識別,識別維度包括行為要素(如發(fā)送者、發(fā)送時間、內容類型等等)和行為關系。所謂行為關系,是指用戶的社交屬性,例如消息發(fā)送頻率,時間間隔,消息響應率等等。通過高效的聚類算法可實現(xiàn):
  單用戶行為識別:如單一用戶發(fā)送大量的垃圾信息;
  多用戶行為識別:大量馬甲發(fā)送大量的垃圾信息;
  識別圖片、語音、視頻等多媒體類型的垃圾信息。
  3. antispam_based_user_content,基于用戶內容的識別
  基于內容的反垃圾服務的核心是構建分類器模型,采用自然語言處理技術(NLP),對內容進行語義分析,利用持續(xù)的機器學習與分類器訓練,使機器能夠理解語句的真實含義。該技術可實現(xiàn):
  經(jīng)過內容偽裝的垃圾信息。例如加入了隨機干擾內容的垃圾信息;
  局部熱點聚類并攔截。通過聚類算法可識別一些特定范圍內大量傳播的垃圾信息,通過生產規(guī)則遏止這些信息進一步擴散。
  國內市場上為APP提供即時通訊能力的廠商中,目前市場占有率第一的環(huán)信率先將上述技術集成至其IM產品中,為APP提供反垃圾信息服務。可以在APP中實現(xiàn)幾種垃圾信息的攔截:
  單一用戶行為,如發(fā)送大量重復的“你好”、“hi”、可愛表情等打招呼行為,或冒充官網(wǎng)人員發(fā)送惡意鏈接、營銷廣告、色情信息等,這種類型的垃圾信息可基于用戶行為檢測技術+內容檢測技術,同時借助NLP及訓練模型對內容進行識別和攔截,緊急情況下可使用敏感詞進行攔截。
  多用戶行為。例如垃圾信息發(fā)送者擁有馬甲庫,切換不同馬甲來進行垃圾信息發(fā)送,甚至展開小型DDoS攻擊,此類可基于全局用戶行為檢測技術,以及全局消息內容聚合進行識別和攔截;
  高級形式的垃圾信息。如“目的內容+隨機干擾”,這種形式的垃圾信息可通過局部聚類檢測技術對熱詞進行識別,同時結合語義分析技術進行識別攔截;
  對于內容完全隨機的垃圾信息,可以采用發(fā)送頻率限制技術增加發(fā)送者的成本,讓他們趨于正常用戶的行為,削減影響。
\
環(huán)信反垃圾技術流程圖
  從在APP中實際部署的效果來看是非常明顯的,過濾率基本在99%左右。下圖是在環(huán)信產品后臺看到的實際攔截效果,分別是基于行為的攔截和基于內容的攔截。
\
基于行為的垃圾信息攔截
\
基于用戶內容的垃圾信息攔截
  反垃圾信息服務是一項“長期斗爭”,除了技術手段外,還可以采取一些管理手段。例如,注冊時要求綁定手機號,而非郵箱號。設置舉報機制和拉黑功能等等,從而提升垃圾消息發(fā)送者的成本。通過技術手段,再輔以管理手段,必將遏止App中的垃圾消息,打造一個健康的網(wǎng)絡社交環(huán)境。
  作者簡介:
  馬曉宇,環(huán)信聯(lián)合創(chuàng)始人,擁有17年研發(fā)經(jīng)驗,先后任職于Symbian、Nokia,帶領團隊主持開發(fā)了數(shù)款Nokia手機的操作系統(tǒng)及內核軟件,手機操作系統(tǒng),手機應用軟件專家。

相關熱詞搜索: 環(huán)信

上一篇:“過氣網(wǎng)紅”BYOD的逆襲之旅

下一篇:最后一頁

分享到: 收藏

專題