人類每天都在吃飯、睡覺、工作和玩耍,這個過程就產(chǎn)生了數(shù)據(jù)——非常非常多的數(shù)據(jù)。據(jù)IBM公布的消息顯示,人類每天產(chǎn)生2.5垓(一京是一億億,一萬京為一垓)字節(jié)的數(shù)據(jù)。該數(shù)量相當(dāng)于從地球堆疊到月球又返回來的所有DVD碟片所能存儲的數(shù)據(jù)總量,其中包括了我們發(fā)送的文本、我們上傳的照片,以及工業(yè)傳感器的數(shù)據(jù),還有機器間通信的所有數(shù)據(jù)。
正因為數(shù)據(jù)如此龐大,所以我們的時代人人都在談數(shù)據(jù)。這也是為什么“大數(shù)據(jù)”現(xiàn)如今如此流行的主要原因。簡單地說,當(dāng)人們談?wù)摯髷?shù)據(jù)時,他們指的是能夠獲得大量的數(shù)據(jù)、分析數(shù)據(jù),并將其變成有用的東西。那么數(shù)據(jù)分析和大數(shù)據(jù)分析有什么區(qū)別呢?什么樣的數(shù)據(jù)才能叫做大數(shù)據(jù)呢?
億信ABI今天想和大家聊聊這些。
一、概念
1、什么是大數(shù)據(jù)?
要了解一個事物,我們首先要從概念入手。那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間。大數(shù)據(jù)的4個“V”,或者說特點有四個層面:第一,數(shù)據(jù)體量巨大。第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
一般來說,大數(shù)據(jù)概念可以分解成三個層面:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。
第三層面是實踐,實踐是大數(shù)據(jù)的最終價值體現(xiàn)。分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍(lán)圖。
2、什么是數(shù)據(jù)分析?
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,未提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析包含“數(shù)據(jù)”和“分析”兩個方面,一方面包括收集、加工和整理數(shù)據(jù),另一方面也包括分析數(shù)據(jù),從中提取有價值的信息并形成對業(yè)務(wù)有幫助的結(jié)論。數(shù)據(jù)分析的成果通常以分析報告的形式呈現(xiàn)。對于數(shù)據(jù)分析報告,分析就是論點,數(shù)據(jù)就是論據(jù),兩者缺一不可。
數(shù)據(jù)分析需要掌握數(shù)學(xué)知識和分析工具,數(shù)學(xué)知識包含統(tǒng)計學(xué)、概率論和數(shù)理統(tǒng)計、多元統(tǒng)計分析、時間序列、數(shù)據(jù)挖掘;工具一般應(yīng)該掌握Excel、SQL、R、Python等。需要學(xué)習(xí)掌握基本數(shù)據(jù)處理及分析方法,掌握高級數(shù)據(jù)分析及數(shù)據(jù)挖掘方法(多元線性回歸法,貝葉斯,神經(jīng)網(wǎng)絡(luò),決策樹,聚類分析法,關(guān)聯(lián)規(guī)則,時間序列,支持向量機,集成學(xué)習(xí)等)和可視化技術(shù)。
3、什么是大數(shù)據(jù)分析?
大數(shù)據(jù)分析是指分析無法使用現(xiàn)有的傳統(tǒng)應(yīng)用程序有效處理的龐大數(shù)據(jù)量的技術(shù)。大數(shù)據(jù)的處理始于未聚合的原始數(shù)據(jù),通常是不可能將其存儲在單臺計算機的內(nèi)存中的。
大數(shù)據(jù)分析是是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
二、數(shù)據(jù)分析和大數(shù)據(jù)分析的區(qū)別
1、分析方法
就分析方法而言,兩者并無本質(zhì)區(qū)別。數(shù)據(jù)分析的核心工作是對數(shù)據(jù)指標(biāo)的分析,思考和解釋。人腦可以攜帶的數(shù)據(jù)量極為有限。因此,無論是“傳統(tǒng)數(shù)據(jù)分析”還是“大數(shù)據(jù)分析”,都需要根據(jù)分析思路對原始數(shù)據(jù)進行統(tǒng)計處理,以獲得匯總統(tǒng)計結(jié)果供人為分析。兩者在此過程中相似,不同之處僅在于處理方法是由原始數(shù)據(jù)的大小引起的。
2、統(tǒng)計知識應(yīng)用
第二,兩者在使用統(tǒng)計知識方面有很大的不同?!皞鹘y(tǒng)數(shù)據(jù)分析”中使用的知識主要圍繞“可以通過少量采樣數(shù)據(jù)來猜測現(xiàn)實世界”這一主題。“大數(shù)據(jù)分析”主要是使用各種類型的全量數(shù)據(jù)(非采樣數(shù)據(jù))設(shè)計統(tǒng)計程序并獲得詳細(xì)而有把握的統(tǒng)計結(jié)論。
3、機器學(xué)習(xí)模型
兩者之間在機器學(xué)習(xí)模型方面存在根本差異。“傳統(tǒng)數(shù)據(jù)分析”大多數(shù)時候,知識使用機器學(xué)習(xí)模型作為黑匣子工具來協(xié)助分析數(shù)據(jù)?!按髷?shù)據(jù)分析”通常是兩者的緊密結(jié)合。大數(shù)據(jù)分析不僅會產(chǎn)生分析效果評估,而且還會基于此進行產(chǎn)品升級。在大數(shù)據(jù)分析的背景下,數(shù)據(jù)分析通常是數(shù)據(jù)上墨的序幕,而數(shù)據(jù)建模是數(shù)據(jù)分析的結(jié)果。
4、結(jié)果展現(xiàn)
數(shù)據(jù)分析報告體現(xiàn)數(shù)據(jù)挖掘的整體流程,層層闡述信息的收集、模型的構(gòu)建、結(jié)果的驗證和解讀,對行業(yè)進行評估,優(yōu)化和決策。大數(shù)據(jù)報告要求報告能體現(xiàn)大數(shù)據(jù)分析的優(yōu)勢,能清楚地闡述數(shù)據(jù)采集、大數(shù)據(jù)處理過程及最終結(jié)果的解讀,同時提出模型的優(yōu)化和改進之處,以利于提升大數(shù)據(jù)分析的商業(yè)價值。
三、數(shù)據(jù)分析和大數(shù)據(jù)分析不同的應(yīng)用場景
(1)
大數(shù)據(jù)分析應(yīng)用場景
1、購物營銷
當(dāng)我們打開淘寶,京東等購物APP時,總是會發(fā)現(xiàn),這些APP比我們自己還懂自己,能夠未卜先知的知道我們最近需要什么。商家通過手機瀏覽的數(shù)據(jù)分析,知道我們近期的需求,之后精準(zhǔn)的向我們進行推銷。如今人們網(wǎng)絡(luò)購物的行為越來越頻繁,網(wǎng)絡(luò)購物的體驗也越來越好。而影響網(wǎng)絡(luò)購物體驗的一個最重要的方面就是物流的速度。雙十一時,很多物品能保證晚上下單,第二天就送達(dá),即使購買的是新疆的葡萄干,也能在24小時到貨。速度提升的背后,離不開大數(shù)據(jù)的賦能。物流倉儲與購物平臺合作,通過分析用戶的瀏覽數(shù)據(jù),購物車,下定金情況,預(yù)知某一地區(qū)的購買量,進行提前備貨。通過大數(shù)據(jù)中心的調(diào)控,物流分揀系統(tǒng)能最科學(xué)合理的進行裝車。在智慧系統(tǒng)的指引下,快遞員也能按照最優(yōu)的線路進行高效的配送。
2、交通出行
如今百度地圖、高德地圖已經(jīng)成了我們出行必不可少的工具。沒了地圖,很多時候我們將寸步難行。手機地圖能夠做到精準(zhǔn)的導(dǎo)航和實時的路況預(yù)測得益于大數(shù)據(jù)的分析。一是地圖公司有自己數(shù)據(jù)采集車,前期采集了海量的數(shù)據(jù)存儲在數(shù)據(jù)庫中。二是每一個使用地圖的用戶,都共享了自己的位置,貢獻(xiàn)了自己的數(shù)據(jù)。通過對同一時間段同一路段用戶的使用情況進行分享,地圖很容易就能得知哪里堵車,哪里暢通,提前告知使用者。
3、政務(wù)處理
大數(shù)據(jù)在助力政府的政務(wù)處理方面同樣發(fā)揮著重要的作用。近年來精準(zhǔn)扶貧是各級政府的首要工程,扶貧如何做到精準(zhǔn),考驗著政府的執(zhí)政能力。這里我們以億信華辰的數(shù)據(jù)治理平臺睿治為例,給大家講解。
睿治智能數(shù)據(jù)治理平臺由億信華辰自主研發(fā),是一款融合數(shù)據(jù)治理十大產(chǎn)品模塊,覆蓋數(shù)據(jù)全生命周期管理的應(yīng)用平臺,也是目前國內(nèi)功能齊全的數(shù)據(jù)治理工具,助力數(shù)據(jù)標(biāo)準(zhǔn)落地,提升數(shù)據(jù)質(zhì)量,實現(xiàn)數(shù)據(jù)資產(chǎn)融合?;诖?,億信華辰幫助廣州市荔灣政數(shù)局建設(shè)了政務(wù)大數(shù)據(jù)平臺。
睿治平臺依托四標(biāo)四實基礎(chǔ)數(shù)據(jù),整合荔灣區(qū)政務(wù)數(shù)據(jù)資源,搭建全區(qū)統(tǒng)一的四標(biāo)四實數(shù)據(jù)平臺,提供多源數(shù)據(jù)采集、數(shù)據(jù)管控、數(shù)據(jù)共享交換、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)服務(wù)等核心能力,推進全區(qū)政務(wù)數(shù)據(jù)資源的共享利用,探索政府?dāng)?shù)據(jù)與社會數(shù)據(jù)的整合利用。
(2)數(shù)據(jù)分析應(yīng)用場景
1、趨勢預(yù)測和熱點營銷
社區(qū)中熱點和熱門是數(shù)據(jù)分析的結(jié)果。在社區(qū)中熱門話題、在搜索引擎中熱點分析,通常具有先兆性的特征,能夠成為一種流行趨勢的預(yù)測。比如,蘋果的土豪金讓土豪色成為一種流行。同時由于社區(qū)傳播的廣泛、快捷性,也能夠幫助企業(yè)通過病毒式營銷獲得更多關(guān)注,比如小米的病毒式營銷的策劃。
2、產(chǎn)品定價
產(chǎn)品定價的合理性需要進行數(shù)據(jù)試驗和分析,主要研究客戶對產(chǎn)品定價的敏感度,將客戶按照敏感度進行分類,測量不同價格敏感度的客戶群對產(chǎn)品價格變化的直接反應(yīng)和容忍度。通過這些數(shù)據(jù)試驗,為產(chǎn)品定價提供決策參考。
3、戶流失預(yù)測
客戶數(shù)據(jù)分析中發(fā)現(xiàn)客戶的投訴增多,客戶評價出現(xiàn)負(fù)面情緒,客戶購買量明顯減少等現(xiàn)象,根據(jù)客戶行為模型,預(yù)測客戶流失的可能性,并采取針對性措施。
4、基于環(huán)境數(shù)據(jù)的外部形勢分析
從市場競爭者的產(chǎn)品、促銷等數(shù)據(jù),從外部環(huán)境的數(shù)據(jù),例如天氣(如霧霾)、重大節(jié)日(如雙十一)、國家大事(十八大)、熱門話題(如中國好聲音)、社交媒體上人們的情緒(快樂)等中找到對外部形勢演變的先導(dǎo)性的預(yù)測,幫助企業(yè)應(yīng)對環(huán)境變化。
5、基于物聯(lián)網(wǎng)數(shù)據(jù)分析的產(chǎn)品生命周期管理
條形碼、二維碼、RFID等能夠唯一標(biāo)識產(chǎn)品,傳感器、可穿戴設(shè)備、智能感知、視頻采集、增強現(xiàn)實等技術(shù)能將產(chǎn)品生命周期的信息進行實時采集和分析,這些數(shù)據(jù)能夠幫助企業(yè)在供應(yīng)鏈的各個環(huán)節(jié)跟蹤產(chǎn)品,收集產(chǎn)品使用信息,從而實現(xiàn)產(chǎn)品生命周期的管理。
四、小結(jié)
隨著大數(shù)據(jù)的快速發(fā)展,就像計算機和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)逐漸可能成為新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機器學(xué)習(xí)和人工智能等相關(guān)技術(shù),有可能會改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實現(xiàn)科學(xué)技術(shù)上的突破。所以數(shù)據(jù)分析和大數(shù)據(jù)分析在未來區(qū)別并不重要,重要的是二者如何結(jié)合在大數(shù)據(jù)時代發(fā)揮更大的作用。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)