何謂大數據（BIG DATA）？

深色模式

設定

耐美知識9 年前

何謂大數據（BIG DATA）？

大數據

數據越來越多

大數據又稱為巨量資料，是關於三種思維的改變，彼此相連、而且相輔相成：

針對特定主題分析龐大資料整體的能力，而不只是退而求其次、析較小的資料集。
願意接受真實資料會雜亂不清的事實，而不是一味追求精確。
要更看重相關性，而不是不斷追求難以捉摸的因果關係。

美國衛生署在 SARS 疫情期間，雖已經要求醫生每日通報，最快也需要 2 週才能掌握流行性感冒大爆發的地區。GOOGLE 搜尋引擎使用大數據海量運算，經過與衛生署多年資料庫分析比對，當人們感冒時會到 GOOGLE 搜尋的字串共有 42 個最常見字詞，掌握這些搜尋字串，GOOGLE 立刻就能知道哪幾個大城市「可能」（幾乎 100%）有流行感冒大爆發。

用 GOOGLE 防疫是大數據時代海量運算的最佳例子。大數據（巨量資料）所指的，是資料量一定要達到相當規模才能做的事情（得到新觀點、創造新價值），沒有一定規模就無法實現，而且這些是將會改變現有市場、組織、公民與政府間的關係。

大量資料作為預測的基礎，其中「相關性」重要性高於因果關係，GOOGLE 知道搜尋哪些字串與感冒有關，但不必要去知道是不是真的搜尋的人感冒了。「樣本=母體」時代已經來臨，以前的量化科學重視抽樣，一旦我們想要更深入、仔細研究某個有趣的資料子群，抽樣調查就無用武之地。抽樣就像是類比影像，在一定距離之外看起來不錯，但等到愈來愈靠近、把某個細節放大，影像也就變的模糊。

真正的巨量資料判斷標準，在於是否使用隨機抽樣，盡量使用最完整的資料，而非隨機抽樣。巨量資料的「巨量」，不是絕對、而是相對的概念，指的是要有完整的資料集。隨著時代進步，我們終將擁有處理全部資料的能力。使用巨量資料作研究，就像是釣魚，一開始的時候，非但不知道是否釣的到東西，連「釣的到什麼」也還在未定之數。

現實就是雜亂

簡單的模型、加上大量的資料，就會打敗很複雜、但資料較少的模型（GOOGLE V.S. 衛生署）。資料「數量」比品質更重要，資料量夠大、型態也有所不同的時候，只要能預測到大趨勢，就不再一定要以精確為目標。接受資料就是不完美、不精確，反而更能用來預測未來，理解世界。早期統計人員決定放下擴大樣本的概念，轉而追求更高的隨機性。同理，現在應該放下追求精確的概念，轉而追求更巨量資料。所有數位資料只有 5%是適合傳統資料庫的「結構化」形式。如果不接受雜亂，便無法從使用其他 95%非結構化資料。只要願意接受不精確，就等於是打開了一個窗口，可以望向過去未曾踏及的世界，取得全新的觀點。

大數據強調資料的完整和雜亂，比起過去那些規模小但精確的資料，更能接近現實。因為生活的架構並不是那麼固定，承認新的可塑性，甚至擁抱新的可塑性，就會讓我們更接近真實一大步。