大數(shù)據(bigdata)是指那些超過傳統(tǒng)數(shù)據庫系統(tǒng)處理能力的數(shù)據。它的數(shù)據規(guī)模和傳輸速度要求很高,或者其結構不適合原本的數(shù)據庫系統(tǒng),為了獲取大數(shù)據中的價值,必須選擇另一種方式來處理它。大數(shù)據具有的4V特點:大量(volume)、多樣(variety)、高速(velocity)、 可信( veracity)。大數(shù)據的計量單位從目前常用的TB (240bytes)擴展到PB (250bytes),甚至ZB (270bytes),增加千倍和十億倍,大數(shù)據量以每年50%的速度增加。大數(shù)據呈現(xiàn)結構化、半結構化和非結構化的多樣性以及數(shù)據流傳輸?shù)母咚傩?。大?shù)據的分析結果具有很高的可信度和商業(yè)價值,因此大數(shù)據主要用于預測、決策和分析等用途。
大數(shù)據技術
虛擬化、物聯(lián)網、云計算技術應用催生了大數(shù)據技術,一般能夠使用傳統(tǒng)的數(shù)據庫、數(shù)據倉庫和BI工具能夠完成的處理和分析挖掘的數(shù)據,還不能稱為大數(shù)據,這些技術也不能稱為大數(shù)據技術。面對大數(shù)據環(huán)境,包括數(shù)據挖掘在內的商業(yè)智能技術正在發(fā)生巨大的變化。
1. 傳統(tǒng)數(shù)據庫技術 傳統(tǒng)的數(shù)據庫技術無法滿足大數(shù)據的處理要求,新的數(shù)據庫技術包括:①并行數(shù)據庫:通過多個節(jié)點并行執(zhí)行數(shù)據庫任務,提高整個數(shù)據庫系統(tǒng)的性能和可用性;②非關系性數(shù)據庫(NoSQL):采用更加簡單的數(shù)據模型,減少關系性數(shù)據庫的高度數(shù)據關聯(lián)性,以適應大數(shù)據的處理;③新型數(shù)據庫:對傳統(tǒng)數(shù)據庫技術進行改良和優(yōu)化,去除傳統(tǒng)數(shù)據庫中制約性能的機制,提高數(shù)據庫處理大數(shù)據的能力。2. 大數(shù)據云計算技術 云計算將計算任務分布在大量計算機構成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務。云計算分布式架構能夠很好地支持大數(shù)據存儲和處理需求,并使用戶能低價獲取巨量計算和存儲能力,使得大數(shù)據處理和利用成為可能。2011年甲骨文公司推出Oracle大數(shù)據機(oracle big data appliance), Oracle大數(shù)據機是一款集成設計的系統(tǒng),旨在簡化大數(shù)據項目的實施與管理。該數(shù)據機采用18臺Oacle Sun服務器的全機架式配置,總共擁有864GB主內存、216核CPU、648 TB原始磁盤存儲空間,采用40Gb/s的網絡連接以及10Gb/s的以太網數(shù)據中心連接,可連接多個機架進行橫向升級擴展,使其能夠獲取、組織和分析超級海量的數(shù)據。3. 大數(shù)據處理 在大數(shù)據中,結構化數(shù)據只占15%左右,其余的85%都是非結構化或半結構化數(shù)據,大數(shù)據需要解決半結構化和非結構化數(shù)據的高效處理。大數(shù)據需要使用非傳統(tǒng)工具來對大量的結構化、半結構化和非結構化數(shù)據進行處理,采用適合不同行業(yè)的大數(shù)據挖掘分析工具和開發(fā)環(huán)境,從而獲得分析和預測結果的一系列數(shù)據處理技術。大數(shù)據的應用
《紐約時報》的一篇專欄文章稱“大數(shù)據”時代已經降臨,在商業(yè)、經濟及其他領域中,決策將日益基于數(shù)據和分析,而不是基于經驗和直覺。哈佛大學社會學教授加里?金指出:這是一場革命,龐大的數(shù)據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。在醫(yī)學領域,大數(shù)據應用涉及:①藥品研發(fā):實驗室和臨床數(shù)據分析有助于加快藥品研發(fā)過程和提高藥品安全性;②臨床決策支持:通過臨床數(shù)據進行分析,為醫(yī)生的臨床診療方案提供決策支持;③藥物臨床應用分析:通過分析藥物臨床效果、副作用和不良反應等數(shù)據,對藥物進行篩選;④流行病、疫情監(jiān)控:利用搜索引擎等手段預測和監(jiān)控流行病和疫情;⑤人口健康分析和預測:對國家和區(qū)域居民健康檔案、電子病歷等數(shù)據進行分析,預測人口健康和疾病。免責聲明:轉載僅做分享,本文著作權歸原創(chuàng)者所有,如有侵權請聯(lián)系小編進行刪除。