大數(shù)據(jù) (Big Data) 與數(shù)據(jù)科學(xué) (Data Science) 已成為大眾耳熟能詳?shù)脑~匯,各行各業(yè)正在積極運用且開發(fā)大數(shù)據(jù)的價值,這些巨量數(shù)據(jù)也帶來了巨大的商機。
這時身處于「大數(shù)據(jù)時代」的我們,自然得對大數(shù)據(jù)有所認(rèn)識,在這里為大家列出了一些經(jīng)常跟大數(shù)據(jù)一起出現(xiàn)的陌生用語,認(rèn)識了這些大數(shù)據(jù)相關(guān)字匯,下次看大數(shù)據(jù)的相關(guān)文章就不會一直「卡」了。
Algorithm 演算法
出自于數(shù)學(xué)用語,在這里指的是在有限步驟內(nèi),分析數(shù)據(jù)的具體方法,而且通常由軟件來執(zhí)行。
AIDC 自動識別技術(shù)
AIDC(Automatic Identification and Data Capture)是將訊息數(shù)據(jù)自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術(shù)和通信技術(shù)為基礎(chǔ)的綜合性科學(xué)技術(shù)。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID 等技術(shù)。
AWS 亞馬遜網(wǎng)路服務(wù)系統(tǒng)
2006 年 Amazon 開始以 Web 服務(wù)的形式向企業(yè)提供各種云端運算服務(wù),包括運算、儲存、數(shù)據(jù)庫、分析、應(yīng)用程式和部署服務(wù)。現(xiàn)在許多科學(xué)家、開發(fā)人員以及各企業(yè)的技術(shù)人員都在利用 AWS (Amazon Web Services)進行大數(shù)據(jù)分析。
Avro 序列化系統(tǒng)
Avro 是 Hadoop 底下的子專案,是一個數(shù)據(jù)序列化系統(tǒng)(Data serialization system),被設(shè)計用來支援大量數(shù)據(jù)交換。
Behavioral analytics 行為分析
行為分析是指用科學(xué)方法分析環(huán)境刺激與行為之間的因果關(guān)系,藉著系統(tǒng)性的觀察來了解行為的變化原則,進而有系統(tǒng)的操作刺激,以達(dá)到行為的學(xué)習(xí)、塑造或改變。簡單來說,就是用一個有系統(tǒng)的方法去觀察、測量、收集客觀數(shù)據(jù)來分析目標(biāo)的表現(xiàn)行為。
Big Data 大數(shù)據(jù)
大數(shù)據(jù)(or 巨量數(shù)據(jù)),顧名思義是指大量的資訊,當(dāng)數(shù)據(jù)量龐大到數(shù)據(jù)庫系統(tǒng)無法在合理時間內(nèi)進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數(shù)據(jù)。有興趣深入了解請參考《巨量數(shù)據(jù)的時代,用「大、快、雜、疑」四字箴言帶你認(rèn)識大數(shù)據(jù)》以及《7 個你不可不知的大數(shù)據(jù)定義》。
BI 商業(yè)智慧
BI (Business Intelligence) 指用現(xiàn)代數(shù)據(jù)倉儲技術(shù)、線上分析處理技術(shù)、數(shù)據(jù)挖掘進行數(shù)據(jù)分析,再以圖形化的界面或報表呈現(xiàn)以實現(xiàn)商業(yè)價值。
Cassandra 數(shù)據(jù)庫系統(tǒng)
是 Apache 軟件基金會底下的開源分布式 NoSQL 數(shù)據(jù)庫系統(tǒng),適合用來管理巨量的結(jié)構(gòu)化數(shù)據(jù),由于其良好的可擴展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名網(wǎng)站所采用。
CDR 詳細(xì)通聯(lián)記錄
CDRs (Call Detail Record)是電信網(wǎng)路的使用紀(jì)錄,例如通話時間、通話長度等資訊。CDR 是電信業(yè)者與企業(yè)分析網(wǎng)路營運和客戶行為的重要資源。
Clickstream Analytics 點擊流分析
點擊流(Clickstream)就是使用者的在網(wǎng)頁間來來去去的點選記錄,也可以分成 Upstream –– 進入這個網(wǎng)站的「來源」,以及 Downstream —— 拜訪完這個網(wǎng)站之後的「去向」。對于網(wǎng)路行銷跟搜尋引擎來說,點擊流分析是十分重要的參考。
Cloud Computing 云端運算
云端運算(Cloud Computing)是一種將數(shù)據(jù)、工具及程式放到網(wǎng)際網(wǎng)路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網(wǎng)路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。
也因為所有資訊都被放置到網(wǎng)路的虛擬空間里,工程師在繪制示意圖時常以一朵云來代表這個虛擬空間,因而有了「云端(Cloud)」一名。
Data Mining 數(shù)據(jù)探勘
顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,數(shù)據(jù)探勘就是從巨量數(shù)據(jù)中提取出未知的、有價值的潛在資訊。
Data Modelling 數(shù)據(jù)建模
數(shù)據(jù)模式(Data Model)在資訊系統(tǒng)中指的是數(shù)據(jù)如何被表達(dá)、儲存及取用的方式,包括數(shù)據(jù)的格式、定義和屬性,數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的限制,而數(shù)據(jù)模式的設(shè)計過程就稱為「數(shù)據(jù)建模」。
Data Visualization 數(shù)據(jù)視覺化
是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究,數(shù)據(jù)視覺化的技術(shù)可以幫助不同背景的工程人員溝通、理解,以達(dá)良好的設(shè)計與分析結(jié)果。
Data Experts 數(shù)據(jù)專家
數(shù)據(jù)專家就是能利用數(shù)據(jù)作出研究評估的專業(yè)人士,像是數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)架構(gòu)師等都可以被歸類為數(shù)據(jù)專家,其工作內(nèi)容細(xì)分請參考《數(shù)據(jù)分析師?科學(xué)家?架構(gòu)師?大數(shù)據(jù)人才的工作內(nèi)容及年薪比較》。
Exploratory Data Analysis 探索式分析
探索式數(shù)據(jù)分析是指在沒有標(biāo)準(zhǔn)流程跟方法的情況下,在現(xiàn)有的數(shù)據(jù)中找尋數(shù)據(jù)的結(jié)構(gòu)和特點、探索潛藏于數(shù)據(jù)中的訊息,這種數(shù)據(jù)分析方法強調(diào)的是探索式的分析而非嚴(yán)謹(jǐn)?shù)哪J酱_認(rèn)。
Hadoop 技術(shù)
Hadoop 是一個能夠儲存并管理大量數(shù)據(jù)的云端平臺,為 Apache 軟件基金會底下的一個開放原始碼、社群基礎(chǔ)、而且完全免費的軟件,Hadoop 的兩大核心功能 —— 儲存(Store)及處理(Process)數(shù)據(jù)所用到的分散式檔案系統(tǒng) HDFS 跟 MapReduce 平行運算架構(gòu)。Hadoop 被廣泛應(yīng)用于大數(shù)據(jù)儲存和大數(shù)據(jù)分析,成為大數(shù)據(jù)的主流技術(shù)。有興趣深入了解請參考《認(rèn)識大數(shù)據(jù)的黃色小象幫手 –– Hadoop》。
Internet of Things 物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(Iots)是一個全球化的網(wǎng)路基礎(chǔ)建設(shè),透過數(shù)據(jù)擷取以及通訊能力以連結(jié)實體與虛擬物件,透過網(wǎng)際網(wǎng)路的發(fā)展,物連網(wǎng)可透過特定的機制,將所有裝置連結(jié)在一起,以供控制、偵測、識別,并交換所有的資訊。
NoSQL 數(shù)據(jù)庫系統(tǒng)
NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的數(shù)據(jù)庫系統(tǒng)。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結(jié)合 SQL 優(yōu)點并混用關(guān)聯(lián)式數(shù)據(jù)庫和 NoSQL 數(shù)據(jù)庫來達(dá)成最佳的儲存效果。
在巨量數(shù)據(jù)所帶動的潮流下,各種不同形態(tài)的NoSQL數(shù)據(jù)庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 數(shù)據(jù)庫軟件中較為人熟知的一種。
Predictive Analytics 預(yù)測分析
是指透過預(yù)測模型、機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)來分析現(xiàn)有和歷史的事實數(shù)據(jù)對未來作出預(yù)測的數(shù)據(jù)分析方法。
R 語言
R 是一個開放原始碼統(tǒng)計軟件,提供統(tǒng)計計算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費 而且簡單易上手,近年來成為數(shù)據(jù)科學(xué)界里的重要工具。
SaaS 軟件即服務(wù)
SaaS (Software-As-A-Service)是隨著網(wǎng)際網(wǎng)路技術(shù)和應(yīng)用軟件的成熟而興起的一種軟件應(yīng)用模式。SaaS 提供商將軟件統(tǒng)一部署在自己的伺服器上,藉由網(wǎng)路提供軟件給客戶,所以客戶不用購買軟件,而是根據(jù)需求向提供商訂購所需的服務(wù),且客戶無需對軟件進行維護,服務(wù)提供商會全權(quán)管理和維護軟件;軟件廠商在向客戶提供網(wǎng)際網(wǎng)路應(yīng)用的同時,也提供軟件的離線操作和本地數(shù)據(jù)存儲,讓客戶隨時隨地都可以使用其定購的軟件和服務(wù)。
對于許多小型企業(yè)來說,SaaS 是采用先進技術(shù)的最好途徑,它消除了企業(yè)購買、構(gòu)建和維護基礎(chǔ)設(shè)施和應(yīng)用程式的需要。
Terabyte (1 000 000 000 000 Bytes)
TB 為兆位元組,是數(shù)據(jù)量的分級,相當(dāng)于 10^12 bytes。其他數(shù)據(jù)量分級如下:
Bytes (8 Bits)
Kilobyte (1000 Bytes)
Megabyte (1 000 000 Bytes)
Gigabyte (1 000 000 000 Bytes)
Terabyte (1 000 000 000 000 Bytes)
Petabyte (1 000 000 000 000 000 Bytes)
Exabyte (1 000 000 000 000 000 000 Bytes)
Zettabyte (1 000 000 000 000 000 000 000 Bytes)
Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)