㈠ 群智感知(Crowd Sensing)解讀
由於學術研究需要,筆者在最近半個月泛讀了十幾篇關於群智感知的論文,因此想對群智感知這個概念作個整體的框架分析,給大家普及理論知識的同時也希望和大家一同學習進步。
移動群智感知 最早是由Raghu K. Ganti在2011年發表於IEEE的文章《Mobile crowdsensing: current state and future challenges》中提出,後於2012年清華大學劉雲浩教授發表文章《群智感知計算》並在國內首次闡述 群智感知 (Crowd Sensing),而這個概念所依託的思想卻源自於美國雜志《Wired》於2006年發明的一個專業術語——眾包(Crowd Sourcing)。眾包指的是一個公司或機構把過去由員工執行的工作任務,以自由自願的形式外包給非特定的大眾志願者的做法,通俗來講,眾包就是指在互聯網上把工作分配給社會大眾共同參與完成的一種社會生產模式。在這種分布式協作的模式下,解決問題的人數從一人增長至多人,這種集大家之所長的形式更能發揮問題本身的價值,所謂「眾人拾柴火焰高」嘛。而劉雲浩教授則將眾包與感知兩個概念進行融合,提出了立足於物聯網的新概念—— 群智感知 。
群智感知 指的是結合眾包思想和移動設備感知能力的一種數據獲取新型模式,詳細點講,就是指大規模的普通用戶通過其自身攜帶的智能移動設備來採集感知數據並上傳到伺服器,服務提供商對感知數據進行記錄處理,最終完成感知任務並利用收集的數據給用戶提供日常所需服務的過程。近些年隨著各種移動設備和可穿戴設備(如智能手機、手錶手環、平板電腦、聯網汽車等)的普及,其內置感測器(如加速計、陀螺儀、攝像頭、指南針、GPS、麥克風、車載電話等)的存在逐漸被企業重視,利用這些感測設備收集的數據可以分析提取許多有用信息。傳統的感測器感知網路在面對大范圍大規模的感知任務時需要安裝大量專業感測設備,導致維護成本高且覆蓋范圍受限,使得感知任務的完成效果和效率都大打折扣。與傳統感知網路不同, 群智感知 網路利用大量普通用戶手中設備的單一感知單元收集數據,這種方式因為移動設備的普遍性和用戶位置移動的靈活性,完美解決了前者的問題,同時互聯網+的發展更是加快了群智感知的研究與應用。如今 群智感知 在環境污染監測、環境雜訊地圖、城市交通路況、社交網路與醫療保健等方面都已經得到了應用,在可預見的未來它將會應用到更多的業務場景中。
上圖是筆者對 群智感知 系統作的結構劃分圖。根據關注因素的不同,劉文彬博士將其劃分為移動群智感知(Mobile Crowd Sensing)和稀疏群智感知(Sparse Crowd Sensing)。其中,移動群智感知主要關注用戶,強調利用移動用戶的廣泛存在性、靈活移動性和機會連接性來執行感知任務,屬於上文Raghu K. Ganti提到概念的廣義化,即特指普通用戶利用隨身攜帶的智能設備上感測知數據;而稀疏群智感知則更加關注數據,通過挖掘和利用已感知數據的時空關聯來推斷未感知區域的數據。
典型的 移動群智感知 系統通常會由多個任務發起者、大量的移動用戶和雲端感知平台組成,最近的學術研究中有學者開始結合區塊鏈實現最大化的隱私保護。任務發起者根據自身需求,向感知平台提交任務;感知平台向所有用戶發布任務;移動用戶攜帶智能設備執行任務並上傳數據獲得報酬;感知平台為任務發起者提供數據處理與計算服務。在整個過程中,數據、任務與用戶是三個值得關注的關鍵點,因此筆者藉此歸納出以下六個具體研究方向:數據收集、用戶招募、任務分配、隱私保護、數據質量和激勵機制。
稀疏群智感知 即招募用戶感知部分區域的數據,然後利用其時空關聯推斷其他未感知區域的數據,以顯著減少感知消耗並保證數據准確度。在物理世界中,絕大多數收集到的感知信息或數據都是連續的,比如氣溫、濕度、交通情況等,拿氣溫舉個例子幫助大家理解:在同一地點,連續兩分鍾的溫度度數極為接近,或者在同一時刻,相距五米的兩個溫度度數基本一致,這就是時空關聯性。所以我們可以通過此時此地的氣溫推斷出方圓五米內及兩三分鍾內的氣溫,即利用已知數據推斷未知數據。但這樣推斷出的數據存在准確性的問題,因此筆者同樣歸納出以下四個具體研究方向:數據推斷、感知區域選擇、數據質量和激勵機制。
下面簡單講講各個方向的研究策略。
1. 數據收集 方式分為機會式群智感知和參與式群智感知。機會式群智感知是指感知平台通過直接或間接方式感知用戶的行為,對用戶干擾較小,但數據精度依賴於感知演算法和應用環境,且需較高的隱私保護機制激勵用戶的參與;參與式群智感知是指由用戶主動參與感知任務,數據精度高但容易受用戶主觀意識干擾,且易發生惡意用戶上傳虛假數據的情況,因此需強的數據質量評估機制。數據收集時一般使用馬爾科夫隨機場來建模數據關聯結構,並通過互信息理論來量化用戶的隱私損失。
2. 用戶招募 一般根據不同場景的劃分分別進行討論,包括離線場景和在線場景,或者完全信息場景、部分信息場景和動態社交影響場景等,可將其轉化為圖的加權最大割問題進行解決。
3. 任務分配 一般將其轉化為二部圖最大加權匹配問題進行解決,也可利用機器學習對用戶類型進行預測,進而給合適用戶分配合適任務。
4. 隱私保護 解決方案可分為匿名化、數據擾動和數據加密三種。匿名化一般使用k-匿名演算法,簡單理解就是在一個數據集中至少無法從k-1個數據中識別出某用戶的隱私信息,即將一條數據隱藏於k-1條數據中進而無法區分;數據擾動即給數據添加雜訊,一般使用差分隱私,即對查詢的結果加入雜訊變數,使得攻擊者無法辨別某一樣本是否在數據集中,一個形象的說法就是,雙兔傍地走安能辨我是雄雌;數據加密一般使用AES、RSA等常用加密演算法,或者使用簽名+加密的簽密演算法。
5. 數據質量 解決方案可分為真值發現、可信度和真值引出三種。真值發現是指通過對用戶的感知數據進行估計,來挖掘真實可信的數據;可信度是指通過分析用戶的歷史數據,得出用戶的可信程度,或通過感知數據中的異常點檢測手段,剔除異常的感知數據,從而選取可信度較高的數據;真值引出是指通過機制設計的手段,將用戶的數據質量作為影響用戶激勵的因素,結合對等預測等方式使得用戶主動真實地上報其感知質量。
6. 激勵機制 可劃分為基於娛樂游戲的激勵機制、基於信譽值的激勵機制和基於報酬支付的激勵機制,而基於報酬支付的激勵機制又可劃分為以平台為中心的模式和以用戶為中心的模式。以平台為中心的模式是指平台給出報價,用戶自行決定是否參與感知任務,分為基於時間的報酬支付、基於貢獻值的報酬支付和基於數據質量的報酬支付,一般採用斯塔克伯格博弈(Stackelberg game)建模;以用戶為中心的模式是指用戶決定報價,由平台決定是否接受該價格,並挑選合適價格用戶完成感知任務,分為離線和在線兩種場景下的激勵機制,一般採用反向拍賣(Reverse auction)建模,需要保證誠實性、個體理性和計算有效性。
7. 數據推斷 和 感知區域選擇 兩個方向的研究比較欠缺,筆者只看到了一兩篇關於此方面研究的文章,論文作者採用壓縮感知來設計數據推斷演算法,而對於感知區域選擇則使用機器學習理論中的強化學習演算法。
群智感知理論僅用上文這小小的篇幅無疑是講不完的,這終歸只是冰山一角,因此之後筆者會慢慢地將這個理論進行完善,感謝支持!
參考文獻:
[1]王凱. 基於差分隱私的群智感知數據保護方法研究[D].南京郵電大學,2020.
[2]劉媛妮,李垚焬,李慧聰,李萬林,張建輝,趙國鋒.基於拍賣模型的移動群智感知網路激勵機制[J].通信學報,2019,40(07):208-222.
[3]王靜. 基於強化學習的群智感知激勵機制研究[D].中國科學技術大學,2021.
[4]杜揚. 面向群智感知的數據收集與數據篩選技術研究[D].中國科學技術大學,2020.
[5]胡佳慧. 面向群智感知系統的個性化隱私保護研究[D].武漢大學,2019.
[6]倪凱敏. 面向群智感知系統的隱私保護增量真值發現演算法研究[D].安徽大學,2020.
[7]王鑫. 面向任務需求的群智感知任務分配模型[D].哈爾濱師范大學,2021.
[8]劉文彬. 面向移動用戶和時空數據的群智感知方法研究[D].吉林大學,2020.
[9]楊光. 群智感知中的激勵機制設計[D].浙江大學,2020.
[10]李夢茹. 群智感知中基於區塊鏈的安全激勵機制研究[D].北方工業大學,2019.