亚洲天堂无码免费观看|日韩热码一区二区视频|无码人妻丰满熟妇片毛片|国产精品无需播放器视频|亚洲不卡无码永久在线观看|韩国日本欧美一区二区三区|国产午夜婷婷丁香五月天在线|中文字幕一区二区三区在线看片

旅游大數(shù)據(jù)經(jīng)得起質(zhì)疑嗎?—兼談不同數(shù)據(jù)源的比較優(yōu)勢

  • 來源:
  • 發(fā)布時間:2015-07-31
  • 點擊次數(shù):1448

【內(nèi)容提要】


      大地云游在5月21日推出了景區(qū)大數(shù)據(jù)畫像后引起很強的反響,但另一方面,也引出了景區(qū)管理者們的眾多疑問:“樣本具有代表性嗎?”,“能像傳統(tǒng)統(tǒng)計數(shù)據(jù)一樣實在和準確嗎?”,“只統(tǒng)計百度地圖用戶數(shù)據(jù),那不用百度地圖的就不統(tǒng)計嗎?”,諸如此類,不一而足。那么,相比傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)又有什么優(yōu)勢呢?我們又該怎樣客觀地來看待旅游大數(shù)據(jù)?本文將從覆蓋維度、數(shù)據(jù)量、數(shù)據(jù)粒度等角度來系統(tǒng)分析大數(shù)據(jù)的優(yōu)勢。


      一、揭揭大數(shù)據(jù)的老底


      1.大數(shù)據(jù)可能是非結(jié)構(gòu)化的


      大數(shù)據(jù)的結(jié)構(gòu)是非常復雜的,既包括像搜索量、時間、游客量等連續(xù)型數(shù)值變量,像性別、行業(yè)、興趣等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會關(guān)系網(wǎng)絡(luò),乃至語音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊含的信息量往往更加巨大。


      2.大數(shù)據(jù)可能是殘缺的


      在現(xiàn)實的世界里,由于用戶注冊時填寫的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。但通過不同數(shù)據(jù)維度的關(guān)聯(lián)特征,能夠準確復原缺失數(shù)據(jù),并推斷產(chǎn)生新的數(shù)據(jù)指標,這就是用戶痕跡復原方法(Utra)。


     3.大數(shù)據(jù)是存在異常值的


      在現(xiàn)實的世界里,大數(shù)據(jù)里也會存在異常值(outlier)。比如某些連續(xù)型變量(如針對某景區(qū)某天的搜索量)的取值太大,就會被當做異常值,對待異常值還需要考慮實際情況。大數(shù)據(jù)分析前,首先要對數(shù)據(jù)進行清洗和去噪,以此提出異常值對分析結(jié)果的不良影響,最大程度上保證數(shù)據(jù)分析精度。


      可見,大數(shù)據(jù)存在諸多弱點,但通過一定的算法設(shè)計和數(shù)據(jù)處理流程,完全可以保證數(shù)據(jù)的質(zhì)量,加上其數(shù)據(jù)量大、抽樣范圍廣、數(shù)據(jù)維度大等優(yōu)勢,使其在不同行業(yè)里得到快速應(yīng)用,毫不夸張的說,大數(shù)據(jù)已經(jīng)給全行業(yè)帶來了顛覆性的改變,互聯(lián)網(wǎng)行業(yè)首當其沖,接著是商業(yè)智能與咨詢服務(wù)領(lǐng)域、零售行業(yè),還包括醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文……大數(shù)據(jù)催生的數(shù)據(jù)服務(wù)意識和能力,正在影響這個社會的方方面面,從旅游到醫(yī)療、政府、教育、經(jīng)濟、人文以及社會的其他各個領(lǐng)域,并催生了了各行各業(yè)的變革力量。


      二、不同數(shù)據(jù)源的優(yōu)劣比較


      那么旅游大數(shù)據(jù)對比傳統(tǒng)數(shù)據(jù)到底有哪些不同呢?下表或許會帶給我們更進一步的認識。





      三、旅游大數(shù)據(jù)的優(yōu)勢是什么?




      1.大數(shù)據(jù)擁有巨大的數(shù)據(jù)量


      大數(shù)據(jù)來源于互聯(lián)網(wǎng)文本數(shù)據(jù)、OTA數(shù)據(jù)、用戶注冊信息、搜索引擎數(shù)據(jù)等諸多數(shù)據(jù)源,這些互聯(lián)網(wǎng)用戶行為每天成萬上億次的發(fā)生在互聯(lián)網(wǎng)的各個領(lǐng)域,因此積累了極為龐大的數(shù)據(jù)量,僅針對景區(qū)而言,一年時間便能夠回溯百萬級用戶交易數(shù)據(jù),數(shù)據(jù)規(guī)模早已突破原有數(shù)據(jù)倉庫和數(shù)據(jù)集市的規(guī)模,蘊藏了極其豐富的數(shù)據(jù)價值。


      2.大數(shù)據(jù)擁有豐富的數(shù)據(jù)維度


      不同數(shù)據(jù)源的數(shù)據(jù)維度存在很大差異,以通信運營商為例,其具有十分龐大的數(shù)據(jù)量和較高的數(shù)據(jù)精度,但數(shù)據(jù)維度相對較少,僅限于用戶性別、注冊地、年齡、籍貫等信息。相比之下,搜索引擎數(shù)據(jù)、OTA數(shù)據(jù)等具有較高的數(shù)據(jù)維度,不僅包括用戶基本屬性數(shù)據(jù),還包括偏好特征和行為習慣等諸多細化指標,復合以百度地圖等LBS數(shù)據(jù),能夠進行多維度交叉數(shù)據(jù)分析(切片分析),從而產(chǎn)生更加的數(shù)據(jù)價值。


      3.大數(shù)據(jù)抽樣時間尺度大、空間范圍廣


      調(diào)查問卷通常集中于數(shù)天或數(shù)周內(nèi),且問卷集中于某一目的地,在時間和空間維度上抽樣均存在很大的局限性。旅游行業(yè)具有時間波動性、空間異質(zhì)性特征,不同的時段旅游消費行為存在很大的差異,不同的旅游目的地空間也存在很大的差異,因此,調(diào)查問卷存在抽樣范圍過小的問題。相比之下,旅游大數(shù)據(jù)能夠回溯數(shù)天、數(shù)月甚至數(shù)年的信息,抽樣時間和空間都足夠大,從而保證數(shù)據(jù)分析具有很高的可信度。


      4.大數(shù)據(jù)采集成本較低


      大數(shù)據(jù)的一個典型特征是數(shù)據(jù)積累是發(fā)生在業(yè)務(wù)或交易過程當中的,既沒有刻意查找和存儲數(shù)據(jù),大數(shù)據(jù)往往是平臺業(yè)務(wù)的一個附屬產(chǎn)品,因而相較于調(diào)查問卷、普查數(shù)據(jù)等,大數(shù)據(jù)具有相對較低的采集成本。


      由上可見,旅游大數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)更有利用和挖掘分析的價值。百度&大地云游大數(shù)據(jù)畫像,基于已經(jīng)構(gòu)建的旅游產(chǎn)業(yè)數(shù)據(jù)庫和百度50余個在線產(chǎn)品數(shù)據(jù),通過用戶痕跡復原方法(Utra)對多維數(shù)據(jù)聚合與挖掘,最大限度上規(guī)避了各數(shù)據(jù)源的弱點,最大程度上保留了大數(shù)據(jù)分析的優(yōu)勢,從而為旅游景區(qū)管理與營銷提供堅持的數(shù)據(jù)基礎(chǔ)。


來源:大地云游信息開發(fā)有限公司