唐忠林,許盛宏,譚志遠(yuǎn)
(中國電信股份有限公司廣東研究院,廣東 廣州 510630)
【摘要】為了深入了解運(yùn)營商的網(wǎng)絡(luò)覆蓋程度,提升網(wǎng)絡(luò)資源投放效率,通過Mean-Shift算法對基站的MR數(shù)據(jù)做首次聚類分析,預(yù)測出局部最優(yōu)的基站覆蓋中心點(diǎn),再用DBSCAN算法預(yù)測出全局最優(yōu)的基站覆蓋中心點(diǎn)。在此基礎(chǔ)上分析三大運(yùn)營商基站小區(qū)在地理位置上的部署密集程度,從而獲得每個運(yùn)營商的網(wǎng)絡(luò)熱點(diǎn)區(qū)域分布,為網(wǎng)絡(luò)規(guī)劃和智慧網(wǎng)優(yōu)提供全方位的分析方法。
【關(guān)鍵詞】MR Mean-Shift DBSCAN 聚類算法
doi:10.3969/j.issn.1006-1010.2017.22.001 中圖分類號:TP312 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-1010(2017)22-0001-04
引用格式:唐忠林,許盛宏,譚志遠(yuǎn). 基于大數(shù)據(jù)對運(yùn)營商基站覆蓋中心點(diǎn)的預(yù)測及對比分析[J]. 移動通信, 2017,41(22): 1-4.
1 引言
隨著大數(shù)據(jù)時代的迅猛發(fā)展,人們對LBS(Location Based Services,基于位置服務(wù))的需求也快速增長,無線定位技術(shù)逐步得到重視,位置服務(wù)已經(jīng)成為一種熱門的技術(shù)。輔助GPS(AGPS)定位技術(shù)結(jié)合了GPS定位和蜂窩基站定位的優(yōu)勢,借助蜂窩網(wǎng)絡(luò)的數(shù)據(jù)傳輸功能,可以快速精準(zhǔn)地定位,在移動設(shè)備尤其是手機(jī)終端中被廣泛使用[1]。運(yùn)營商通過更新4G網(wǎng)絡(luò)主設(shè)備網(wǎng)管,即新增輔助GPS和異網(wǎng)檢測功能,實(shí)現(xiàn)了基站MR(Measurement Report,測量報告)數(shù)據(jù)版本升級。在新的數(shù)據(jù)源中不僅能夠獲取到精確的GPS地理信息,同時異網(wǎng)檢測功能也可以針對其他運(yùn)營商網(wǎng)絡(luò)覆蓋強(qiáng)度進(jìn)行周期測量,從而解決了當(dāng)前MR應(yīng)用過程中定位精度不足和只能評估本網(wǎng)絡(luò)覆蓋情況的局限[2]。通過本次研究,可以有效拓展MR的分析能力,針對三網(wǎng)(中國移動、中國電信、中國聯(lián)通)的覆蓋情況進(jìn)行對比分析。
本文通過對輔助GPS數(shù)據(jù)的挖掘分析,預(yù)測出運(yùn)營商的基站覆蓋中心點(diǎn),可以實(shí)現(xiàn)運(yùn)營商之間的網(wǎng)絡(luò)可持續(xù)化對比,為解決傳統(tǒng)三網(wǎng)對比測試樣本不充足、對比不全面的問題提供一種有效解決方案。
2 運(yùn)營商基站覆蓋中心點(diǎn)預(yù)測
以基站采集到的終端測量報告作為數(shù)據(jù)源,并將數(shù)據(jù)源按頻點(diǎn)和PCI(Physical Cell Identifier,物理小區(qū)標(biāo)識)進(jìn)行分組,對分組后的每組數(shù)據(jù)用Mean-Shift(偏移均值向量算法)算法做首次密度聚類[3-4],找到局部最優(yōu)的基站覆蓋中心點(diǎn)。結(jié)合專業(yè)的業(yè)務(wù)背景知識,對局部基站覆蓋中心點(diǎn)用DBSCAN算法做二次聚類,找到全局最優(yōu)的基站覆蓋中心點(diǎn)[5-8]。最后用本網(wǎng)的主覆蓋小區(qū)來驗(yàn)證所預(yù)測出來的基站覆蓋中心點(diǎn)的正確性。具體流程如圖1所示:
圖1 運(yùn)營商基站覆蓋中心點(diǎn)預(yù)測流程
2.1 數(shù)據(jù)源提取及清洗
本模型采用中國電信全省MR的輔助GPS相關(guān)數(shù)據(jù),主要包括:各運(yùn)營商的頻點(diǎn)、PCI、用戶個人上報的百度經(jīng)緯度、地市、中國電信主服務(wù)小區(qū)百度經(jīng)緯度等屬性,并對每條記錄中的異常數(shù)據(jù)、無效數(shù)據(jù)進(jìn)行了清洗。為減少鄰區(qū)等干擾因素影響模型的準(zhǔn)確度,本模型只提取了室外且相距主服務(wù)小區(qū)1 km以內(nèi)的MR記錄。
2.2 Mean-Shift算法聚類過程
Mean-Shift算法是一個迭代的過程。對于d維空間的N個樣本點(diǎn),首先隨機(jī)選擇一個點(diǎn),并以這個點(diǎn)為圓心、以R為半徑做一個d維的高維球,落在這個球內(nèi)的所有樣本點(diǎn)和圓心都會產(chǎn)生一個向量,每個向量都以圓心為起點(diǎn)、以球內(nèi)的樣本點(diǎn)為終點(diǎn),計(jì)算出球內(nèi)所有向量的和,最終得出Mean-Shift向量。再以Mean-Shift向量的終點(diǎn)為圓心重復(fù)上述步驟。由同起點(diǎn)向量求和法則可知,Mean-shift向量最終將收斂到概率密度最大的區(qū)域[9]。Mean-Shift向量的基本形式如下:
(1)
其中,x為空間中任意一點(diǎn);D表示在N個樣本點(diǎn)xi中有D個點(diǎn)落在SD區(qū)域中。
Mean-Shift算法的偽代碼思想如下:
(1)隨機(jī)選擇一點(diǎn)為中心點(diǎn),固定一個窗口,計(jì)算出Mean-Shift向量;
(2)判斷是否達(dá)到收斂,若收斂則終止,否則執(zhí)行第(3)步;
(3)以Mean-Shift向量的終點(diǎn)為新的中心,重復(fù)上述步驟[10]。
由于獲取到的用戶輔助GPS數(shù)據(jù)呈現(xiàn)出無規(guī)律分布,因此采用基于概率密度的Mean-Shift算法進(jìn)行聚類分析。該算法忽略了數(shù)據(jù)源中的異常值,每次只對窗口內(nèi)局部數(shù)據(jù)進(jìn)行計(jì)算,計(jì)算完成后再移動窗口。
本模型首先以中國電信的數(shù)據(jù)做訓(xùn)練集,以頻點(diǎn)和PCI作為分組條件,分別把具有相同頻點(diǎn)和PCI的個人上報百度經(jīng)緯度進(jìn)行聚類。經(jīng)過多次模型訓(xùn)練并結(jié)合業(yè)務(wù)實(shí)際,本模型最終設(shè)置的Mean-Shift窗寬系數(shù)為0.02,聚類得到多個同一頻點(diǎn)和PCI下多個基站覆蓋中心經(jīng)緯度。預(yù)測中國電信室外的基站覆蓋中心點(diǎn)有159 284個,將預(yù)測出來的覆蓋中心點(diǎn)經(jīng)緯度與中國電信MR數(shù)據(jù)本身提供的小區(qū)百度經(jīng)緯度在百度地圖上作距離對比。結(jié)果表明,對于廣州市區(qū)統(tǒng)計(jì)出基站覆蓋中心點(diǎn)有80.3%落在主覆蓋小區(qū)對應(yīng)方向角附近150 m以內(nèi),但在同一頻點(diǎn)和PCI下有部分預(yù)測的基站覆蓋中心點(diǎn)相距較近。結(jié)合專業(yè)的業(yè)務(wù)知識,運(yùn)用區(qū)域聚類算法DBSCAN進(jìn)行二次聚類,將屬于同頻點(diǎn)同PCI且相距較近的基站覆蓋中心點(diǎn)聚為一個新中心點(diǎn)。
2.3 DBSCAN二次聚類過程
DBSCAN是一種基于高密度連通區(qū)域的聚類算法,能夠?qū)⒕哂凶銐蚋呙芏鹊膮^(qū)域劃分為簇。該算法需要兩個核心的參數(shù):一個參數(shù)是半徑,表示以給定點(diǎn)P為中心的圓形鄰域的范圍;另一個參數(shù)是以點(diǎn)P為中心的鄰域內(nèi)最少點(diǎn)的數(shù)量[11]。
基于本模型需求和專業(yè)的業(yè)務(wù)知識,模型設(shè)置的半徑為200 m,鄰域內(nèi)最少點(diǎn)數(shù)量設(shè)置為1,從而可以將具有相同頻點(diǎn)和PCI且距離較近的基站覆蓋中心點(diǎn)聚類成一個新的中心點(diǎn)。將基站覆蓋中心點(diǎn)經(jīng)緯度與中國電信MR數(shù)據(jù)提供的小區(qū)經(jīng)緯度作距離核對,該模型預(yù)測出中國電信室外共有155 244個基站覆蓋中心點(diǎn)。對于廣州市區(qū)統(tǒng)計(jì)出基站覆蓋中心點(diǎn)有83.6%落在主覆蓋小區(qū)對應(yīng)方向角附近150 m以內(nèi),符合實(shí)際業(yè)務(wù)規(guī)則。
DBSCAN算法的偽代碼思想如下:
(1)選取鄰域半徑為200 m,鄰域內(nèi)最少點(diǎn)數(shù)為1;
(2)隨機(jī)選取一點(diǎn)為中心點(diǎn),計(jì)算相同頻點(diǎn)和PCI下的主覆蓋小區(qū)中心點(diǎn)的距離,若滿足條件,則加入該鄰域,并以新加入的點(diǎn)為中心判斷其余點(diǎn)是否滿足條件,直到遍歷完所有點(diǎn),計(jì)算出該鄰域新的中心點(diǎn),并把屬于該鄰域的點(diǎn)從原數(shù)據(jù)中刪除;
(3)從剩余的點(diǎn)中隨機(jī)選取一點(diǎn)為新的中心,重復(fù)第(2)步直到原數(shù)據(jù)中所有點(diǎn)都被重新歸類完畢為止。
3 運(yùn)營商基站覆蓋中心點(diǎn)對比分析
通過上述模型,采用相同的方法可以預(yù)測出異網(wǎng)基站覆蓋中心點(diǎn)的位置及其數(shù)量,預(yù)測出運(yùn)營商A室外有231 948個基站覆蓋中心點(diǎn)、運(yùn)營商B室外有92 668個基站覆蓋中心點(diǎn)。將三家運(yùn)營商的基站覆蓋中心點(diǎn)預(yù)測結(jié)果顯示在百度地圖上,以廣州兩個區(qū)域Ⅰ、Ⅱ?yàn)槔唧w如圖2和圖3所示:
圖2 區(qū)域Ⅰ運(yùn)營商基站覆蓋中心點(diǎn)對比
圖3 區(qū)域Ⅱ運(yùn)營商基站覆蓋中心點(diǎn)對比
其中,扇形表示運(yùn)營商真實(shí)的主覆蓋小區(qū)所在的位置;圓形表示用模型預(yù)測出來的基站覆蓋中心點(diǎn)所在的位置;黃色表示運(yùn)營商A、藍(lán)色表示運(yùn)營商B、紅色表示運(yùn)營商C。
從圖2和圖3可以看出,預(yù)測得到的基站覆蓋中心點(diǎn)跟真實(shí)的小區(qū)相距較近,能夠直觀地描繪出三家運(yùn)營商的覆蓋區(qū)域及覆蓋密度。通過這種直觀的比較,不僅可以掌握異網(wǎng)的大致網(wǎng)絡(luò)分布,而且也易于了解哪些區(qū)域是本網(wǎng)盲區(qū)、哪些區(qū)域需要加強(qiáng)覆蓋,為網(wǎng)絡(luò)建設(shè)規(guī)劃和智慧網(wǎng)優(yōu)提供強(qiáng)有力的支撐。
4 結(jié)束語
本文通過對MR數(shù)據(jù)的挖掘分析,預(yù)測出運(yùn)營商的基站覆蓋中心點(diǎn),可以全面掌握運(yùn)營商主覆蓋小區(qū)的大致分布和覆蓋密度,為全面評估網(wǎng)絡(luò)覆蓋程度提供有力支撐,也為掌握異網(wǎng)的網(wǎng)絡(luò)規(guī)劃和發(fā)展規(guī)模提供理論依據(jù)。后續(xù)將對全集團(tuán)的MR數(shù)據(jù)做相同的挖掘分析,為全集團(tuán)的網(wǎng)絡(luò)規(guī)劃、智慧網(wǎng)優(yōu)、優(yōu)化布局提供全方位智能化分析方法,進(jìn)一步提升網(wǎng)絡(luò)資源投放效率。
參考文獻(xiàn):
[1] 左超,耿慶鵬,劉旭峰. 基于大數(shù)據(jù)的電信業(yè)務(wù)發(fā)展策略研究[J]. 郵電設(shè)計(jì)技術(shù), 2013(10): 1-4.
[2] 顧芳,劉旭峰,左超. 大數(shù)據(jù)背景下運(yùn)營商移動互聯(lián)網(wǎng)發(fā)展策略研究[J]. 郵電設(shè)計(jì)技術(shù), 2012(8): 21-24.
[3] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[J]. Knowlegdge Discovety Data Mining, 1996: 226-231.
[4] 彭寧嵩,楊杰,劉志,等. Mean-Shift跟蹤算法中核函數(shù)窗寬的自動選取[J]. 軟件學(xué)報, 2005,16(9): 1542-1550.
[5] 何中勝,劉宗田,莊燕濱. 基于數(shù)據(jù)分區(qū)的并行DBSCAN算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2006,27(1): 114-116.
[6] 熊忠陽,孫思,張玉芳,等. 一種基于劃分的不同參數(shù)值的DBSCAN算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2005(9): 2319-2321.
[7] 榮秋生,顏君彪,郭國強(qiáng). 基于DBSCAN聚類算法的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用, 2004,24(4): 45-46.
[8] 王桂芝. 基于密度聚類分析的相關(guān)算法研究[J]. 電腦知識與技術(shù), 2013(30): 6714-6716.
[9] D Comaniciu, P Meer. Mean shift: a robust approach toward feature space analysis[J]. Journal of Image and Signal Processing, 2002,24(5): 603-619.
[10] RT Collins. Mean-shift blob tracking through scale space[J]. Computer Vision and Pattern Recognition, 2003: 234.
[11] 韓利釗,錢雪忠,羅靖,等. 基于區(qū)域劃分的DBSCAN多密度聚類算法[J/OL]. [2017-06-14]. http://www.arocmag.com/article/02-2018-06-047.html.★
作者簡介
唐忠林:工程師,碩士畢業(yè)于華南理工大學(xué),現(xiàn)任職于中國電信股份有限公司廣東研究院,從事大數(shù)據(jù)挖掘、算法模型等工作。
許盛宏:工程師,學(xué)士畢業(yè)于重慶郵電學(xué)院,現(xiàn)任職于中國電信股份有限公司廣東研究院,從事核心網(wǎng)研究及支撐工作。
譚志遠(yuǎn):工程師,學(xué)士畢業(yè)于華南理工大學(xué),現(xiàn)任職于中國電信股份有限公司廣東研究院,從事大數(shù)據(jù)數(shù)據(jù)庫、數(shù)據(jù)平臺管理、云計(jì)算等技術(shù)研究及支撐工作。