數據科學這個詞,相信你應該不陌生。在現代商業競爭中,數據的重要性被廣泛討論,數據科學已經成為企業勝出市場競爭不可或缺的要素之一。

數據科學,簡單來說,就是利用數據來獲取有益見解的整個過程,雖然與統計學和數據分析有一些區別。本文旨在為對數據科學感興趣的初學者提供一個簡單易懂的介紹。

對數據分析有興趣或者正在從事相關工作的商業人士,不妨參考這篇文章。

數據科學是什麼? 意義與定義

數據科學是使用企業擁有的大量數據來進行分析,並從中導出對企業有利的見解的一種方法。

數據本身不會提供答案或洞見,而是需要專業人員使用統計分析、數據圖表化、機器學習等技術,對大量數據進行有效的收集、整理、加工和分析,從而得出有價值的見解。

2011年上映的非小說電影《點球成金》中,描述了美國職棒大聯盟的一個小球隊經理,如何通過獨特的數據分析方法,在低預算下把球隊變成強隊。這部電影正好展示了數據科學的應用。

數據科學與統計學及其他領域的區別

數據分析相關的術語很多,容易讓人混淆。比如「統計學」就是容易和數據科學混淆的一個術語。

隨著時間推移,這些術語逐漸有了各自獨立的含義。以下將解釋數據科學和「統計學」「商業分析」「數據分析」的區別。

與統計學不同

統計學是應用數學來找到數據中的共性與規則性,或是針對其不規則性進行研究的學問。

舉例來說,便利商店或超市的收銀系統記錄了銷售數據。分析這些數據可以預測最佳進貨時機和數量,以及季節性需求等,而這些分析手段就是統計學的一部分。

數據科學則涵蓋了統計分析等手法,目的在於從數據中導出對企業有利的見解。

與商業分析的區別

商業分析是數據科學的一個分支,專注於利用結構化數據來進行銷售預測和業務決策。企業通常會引入行銷混合建模(MMM)和商業智慧系統(BI)來進行商業分析。

與數據分析的區別

數據分析利用統計方法來分析結構化數據,也是數據科學的一個分支。有些解釋上會將數據科學理解為工程導向,而數據分析則更偏向商業應用。

數據科學備受矚目的背景

近年來,數據科學的關注度急劇上升。以下是三個原因。

人工智慧(AI)及機器學習的重要性提升

AI和機器學習等領域的迅猛發展,對數據科學的關注也逐步提升。這些技術需要大量數據來支持其發展,而數據科學就是從這些數據中提取新知識的關鍵。

專業數據科學家的價值

2012年,管理學雜誌《哈佛商業評論》將數據科學家列為「21世紀最性感的職業」。隨著時間的推移,這一評價只增不減。在一些地區,優秀數據科學家的年薪已達到高額水平。

大數據與雲端概念的出現

自2006年大數據和雲端服務的出現以來,數據科學的重要性逐漸被認識。如今,使用雲端服務可以快速建立處理大量數據的環境,這也促使數據科學家的需求不斷增加。

數據科學家扮演的角色

數據科學家的主要任務包括:

● 與業務負責人溝通,了解數據分析目標
● 與數據庫工程師合作收集數據
● 進行數據清理和數據建模
● 驗證模型精度,確定最終模型
● 實施數據分析功能
● 報告和解釋數據分析結果
● 根據需要重複驗證數據模型

數據科學家不僅僅是與數據打交道,還需要具備高超的商業溝通技能。

所需技能

要成為一名成功的數據科學家,需要掌握以下技能:

● 應用數學
● 統計學
● 數據工程
● 程式設計
● 數據建模
● 數據清理

此外,還需要具備溝通、管理、文件編寫以及諮詢技能。

與數據分析師的區別

數據分析師和數據科學家都是數據分析的專家,不同的是數據分析師更偏重於將分析結果應用於業務。數據科學家更像是「數據分析的全方位專家」,而數據分析師則是「業務特化專家」。

初學者推薦的數據科學書籍3選

『分析者のためのデータ解釈学入門 データの本質をとらえる技術(江崎貴裕/ソシム)』

這本書幫助讀者從數據特性的角度來進行分析,是數據科學初學者的重要讀物。

『本質を捉えたデータ分析のための分析モデル入門 統計モデル、深層學習、強化學習等 用途・特徴から原理まで一気通貫!(杉山聡/ソシム)』

本書涵蓋了從統計模型到深度學習和強化學習的各種分析模型,是一本全面的數據科學指南。

『ベイズ統計モデリング: R,JAGS, Stanによるチュートリアル 原著第2版(John K. Kruschke)』

這本書介紹了貝葉斯統計模型及其應用,是進階數據科學家不容錯過的佳作。