隨著大數據技術的不斷提高,大數據應用的不斷普及,大數據與各行各業的關系越來越緊密。大數據行業充斥著大量的專業詞匯,準確掌握和了解這些詞匯的含義,有助于更好的理解大數據,更好地利用大數據技術。以下整理了以數據處理為中心的14個大數據專業詞匯, 一起來看看吧~~~
本地數據庫(LDB/Local Data Base)
本地數據庫是指駐留于運行客戶應用程序的機器的數據庫。本地數據庫位于本地磁盤或局域網。典型的本地數據庫有Paradox、dBASE、FoxPro和ACCCSS。
數據采集(Data Acquisition,DAQ)
數據采集又稱數據獲取,將被測試對象的各種參量通過各種傳感器做適當轉換后,再經過信號調理、采樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。
數據采集的一般步驟:①用傳感器感受各種物理量,并把它們轉換成電信號;②通過A/D轉換,模擬量的數據轉變成數字量的數據;③數據的記錄,打印輸出或存入磁盤文件。④生產廠商為該采集系統編制的專用程序,常用于大型專用系統;⑤固化的采集程序,常用于小型專用系統;⑥利用生產廠商提供的軟件工具,用戶自行編制的采集程序,主要用于組合式系統。
數據模型(data model)
數據模型是現實世界數據特征的抽象,用于描述一組數據的概念和定義。數據模型是數據庫中數據的存儲方式,是數據庫系統的基礎。在數據庫中,數據的物理結構又稱數據的存儲結構,就是數據元素在計算機存儲器中的表示及其配置;數據的邏輯結構則是指數據元素之間的邏輯關系,它是數據在用戶或程序員面前的表現形式,數據的存儲結構不一定與邏輯結構一致。
數據整理(Data Cleansing)
數據整理是對調查、觀察、實驗等研究活動中所搜集到的資料進行檢驗、歸類編碼和數字編碼的過程,是數據統計分析的基礎。
數據處理(Data Handling)
數據處理是指對數據(包括數值的和非數值的)進行分析和加工的技術過程。也就是對數據的采集、存儲、檢索、加工、變換和傳輸,將數據轉換為信息的過程。
數據壓縮(Data Compression)
數據壓縮是指在不丟失有用信息的前提下,縮減數據量以減少數據的存儲空間,提高其傳輸、存儲和處理效率,或按照一定的算法對數據進行重新組織,減少數據的冗余和存儲的空間的一種技術方法。
數據恢復(Data Recovery)
數據恢復是指通過技術手段,將保存在臺式機硬盤、筆記本硬盤、服務器硬盤、移動硬盤、U盤等等設備上由于各種原因導致損傷或丟失的數據進行搶救和恢復的技術。
數據集成(Data Integration)
數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。數據集成維護了數據源整體上的數據一致性、提高信息共享利用的效率。
數據遷移(Data Migration)
數據遷移又稱分級存儲管理,是一種將離線存儲與在線存儲融合的技術。將高速、高容量的非在線存儲設備作為磁盤設備的下一級設備,將磁盤中常用的數據按指定策略自動遷移到磁帶庫等二級容量存儲設備上。當需要使用這些數據時,分級存儲系統會自動將這些數據從下一級存儲設備調回到上一級磁盤上。
數據冗余(Data Redundancy)
數據冗余是指同一個數據在系統中多次重復出現。消除數據冗余的目的是為了避免更新時可能出現的問題,以便保持數據的一致性。
數據抽取
數據抽取是指從源數據源系統抽取目的數據源系統需要的數據的過程。
網絡數據抽取 (Web data mining)
網絡數據抽取(Web data mining),是指從網絡中取得大量的又利用價值的數字化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Informationintegreation)和觀點挖掘(Opinion mining)等。
結構化數據抽取的目標是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在后臺數據庫中,由網頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結果頁面等。信息集成是針對結構化數據而言,其目標是將從不同網站中抽取出的數據統一化后集成入庫。其關鍵問題是如何從不同網站的數據表中識別出意義相同的數據并統一存儲。
數據標準化(data standardization)
數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。
數據備份(Data Backup)
數據備份是容災的基礎,為防著系統出現操作失誤或系統故障導致數據丟失,而將全部或部分數據集合從原來存儲的地方復制到其他地方的活動,將數據遭受破壞的程度減到最小。傳統的數據備份主要采用內置或外置的磁帶機進行冷備份。這種方式只能防止操作失誤等人為故障,其恢復時間也很長。現代企業采用網絡備份,通過專業的數據存儲管理軟件結合相應硬件和存儲設備來實現備份。
1.完全備份(Full Backup)。優點是當發生數據丟失的災難時,可以迅速恢復丟失的數據。不足之處是每天都對整個系統進行完全備份,造成備份的數據大量重復。
2.增量備份(Incremental Backup)。先實施一次完全備份,后續時間里只要對當天的或修改過的數據進行備份。優點:節省了磁盤空間,縮短了備份時間;缺點是數據恢復比較麻煩,備份的可靠性很差。
3.差分備份(Differential Backup)。先實施一次完全備份,再將當天所有與備份不同的數據(新的或修改過的)備份到磁盤上。該策略避免了以上兩種策略缺陷的同時,具備其所有優點。首先,它無須每天都對系統做完全備份,所需的備份時間短,節省磁盤空間。其次,數據恢復方便。一旦發生問題,用戶只需使用完全備份和發生問題前一天的備份就可以將系統恢復。