大數據又稱為巨量資料,是關於三種思維的改變,彼此相連、而且相輔相成:
美國衛生署在 SARS 疫情期間,雖已經要求醫生每日通報,最快也需要 2 週才能掌握流行性感冒大爆發的地區。GOOGLE 搜尋引擎使用大數據海量運算,經過與衛生署多年資料庫分析比對,當人們感冒時會到 GOOGLE 搜尋的字串共有 42 個最常見字詞,掌握這些搜尋字串,GOOGLE 立刻就能知道哪幾個大城市「可能」(幾乎 100%)有流行感冒大爆發。
用 GOOGLE 防疫是大數據時代海量運算的最佳例子。大數據(巨量資料)所指的,是資料量一定要達到相當規模才能做的事情(得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些是將會改變現有市場、組織、公民與政府間的關係。
大量資料作為預測的基礎,其中「相關性」重要性高於因果關係,GOOGLE 知道搜尋哪些字串與感冒有關,但不必要去知道是不是真的搜尋的人感冒了。 「樣本=母體」時代已經來臨,以前的量化科學重視抽樣,一旦我們想要更深入、仔細研究某個有趣的資料子群,抽樣調查就無用武之地。抽樣就像是類比影像,在一定距離之外看起來不錯,但等到愈來愈靠近、把某個細節放大,影像也就變的模糊。
真正的巨量資料判斷標準,在於是否使用隨機抽樣,盡量使用最完整的資料,而非隨機抽樣。巨量資料的「巨量」,不是絕對、而是相對的概念,指的是要有完整的資料集。隨著時代進步,我們終將擁有處理全部資料的能力。使用巨量資料作研究,就像是釣魚,一開始的時候,非但不知道是否釣的到東西,連「釣的到什麼」也還在未定之數。
簡單的模型、加上大量的資料,就會打敗很複雜、但資料較少的模型(GOOGLE V.S. 衛生署)。資料「數量」比品質更重要,資料量夠大、型態也有所不同的時候,只要能預測到大趨勢,就不再一定要以精確為目標。接受資料就是不完美、不精確,反而更能用來預測未來,理解世界。 早期統計人員決定放下擴大樣本的概念,轉而追求更高的隨機性。同理,現在應該放下追求精確的概念,轉而追求更巨量資料。所有數位資料只有 5%是適合傳統資料庫的「結構化」形式。如果不接受雜亂,便無法從使用其他 95%非結構化資料。只要願意接受不精確,就等於是打開了一個窗口,可以望向過去未曾踏及的世界,取得全新的觀點。
大數據強調資料的完整和雜亂,比起過去那些規模小但精確的資料,更能接近現實。因為生活的架構並不是那麼固定,承認新的可塑性,甚至擁抱新的可塑性,就會讓我們更接近真實一大步。
巨量資料告訴我們,能夠找出各種可創造價值的相關性,不用知道背後的原因也沒關係,只要知道「正是如此」,不用知道「為何如此」。
很多時候無法取得必要的資料。我們已經擁有大量資料,只會越來越多,原本障礙大幅減少。過去處理巨量資料,部分因為運算能力不足,因此面對大型資料集的相關分析,還是常常只能尋找線性關係。可是許多現實世界中的關係,沒有線性關係那麼簡單。一旦運算分析能力日漸精進,我們應當也能找出資料之間的非線性關係。
有了巨量資料之後,非因果分析大行其道,常常已經取代了因果關係研究。小量資料的年代,我們都是先假設世界如何運作,再透過蒐集和分析資料,來加以驗證。在未來,則會由豐富的資料代替假設,作為瞭解的起點。巨量資料不會受到特定領域固有傳統思維及偏見影響,正可提供新的觀點和想法。
參考書目
相關文章: -AI(人工智慧) -政府該如何面對大數據(BIG DATA)時代? -什麼是比特幣? -何謂大數據(BIG DATA)? -智慧物流相關文章 -數位時代下的願景科技實現:智慧城市、智慧交通、智慧建築 -何謂共享經濟 The Sharing Economy? -AI帶來未來世代的發展與拓展工作版圖 -共同創造、共同啟動、共同對話以深入消費族群:結合社群媒體的故事行銷 -設計力創新所帶來的破壞性創新:結合數位革命帶來的智慧時代 -什麼是群眾募資 -將消費者放在心上:因運社群網路而生的行銷4.0