大數據帶來了許多新的術語,但一些術語往往不太好理解。以下是人們應該了解的大數據術語列表:
以下進行一個簡短的回顧,以前曾經介紹了算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra,云計算,集群計算,暗數據,數據湖,數據挖掘,數據科學家,分布式文件系統,ETL,Hadoop,內存計算,物聯網,機器學習,Mapreduce,NoSQL,R,Spark,流處理,結構化。非結構化數據等25個大數據的術語,現在再了解一下50個大數據術語。
Apache軟件基金會(ASF):提供了許多大數據的開源項目,目前有350多個項目。是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發行的軟件產品都遵循Apache許可證。
Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構建實時數據流管道和流媒體應用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲,管理和處理數據流,并且十分快速。鑒于社交網絡環境處理數據流,Kafka目前非常受歡迎。
ApacheMahout:Mahout提供了一個用于機器學習和數據挖掘的預制算法庫,也是創建更多算法的環境。換句話說,是一個機器學習的天堂環境。
ApacheOozie:在任何編程環境中,需要一些工作流程系統來以預定義的方式和定義的依賴關系來安排和運行工作。Oozie提供的大數據工作以Apachepig,MapReduce和Hive等語言編寫。
Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與ApacheHadoop數據的交互。如果你已經知道SQL,并處理以大數據格式(即HBase或HDFS)存儲的數據,這些功能將非常有用。
ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型數據集。
ApachePig:Pig是在大型分布式數據集上創建查詢執行例程的平臺。所使用的腳本語言叫做PigLatin。據說Pig很容易理解和學習。但問題是有多少人能從Pig學到什么?
Apach eSqoop:用于將數據從Hadoop移動到非Hadoop數據存儲(如數據倉庫和關系數據庫)的工具。
Apache Storm:一個免費的開源實時分布式計算系統。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結構化數據。
人工智能(AI):人們可能會問,為什么在這里會有人工智能?人工智能不是一個單獨的領域,所有這些趨勢技術都是如此相關,人工智能開發智能機器和軟件的方式,使得硬件和軟件的這種組合能夠感知環境,在需要時采取必要的措施,并繼續學習這些操作。
行為分析:有沒有想過谷歌如何為人們需要的產品/服務提供廣告?行為分析側重于理解消費者和應用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關于了解人們的網上沖浪模式,社交媒體互動,電子商務行動(購物車等),并連接這些無關的數據點,并試圖預測結果。
Brontobytes:10的27次冪,這是數字宇宙的大小。在這里,可以了解TB字節,PB字節,EB字節,ZB字節,YB字節,以及Brontobyte。人們今后會更多地了解這些術語。
商業智能(BI):在這里引用調研機構Gartner對商業智能的定義。商業智能(BI)是一個總括的術語,其中包括應用程序,基礎設施和工具以及最佳實踐,可以訪問和分析信息,以改善和優化決策和績效。
生物特征:這就是JamesBondish技術與分析技術相結合,通過一個或多個物理特征識別人,如面部識別,虹膜識別,指紋識別等。
點擊流分析:用于分析用戶在網絡上瀏覽的在線點擊。曾經想過為什么某些Google廣告還會繼續關注你,即使切換網站等?因為知道你在點擊什么。
聚類分析:試圖識別數據中的結構的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說,它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來識別病例組。因為它是探索性的,它確定了依賴變量和獨立變量之間的區別。SPSS提供的不同的聚類分析方法可以處理二進制,名義,順序和比例(間隔或比率)數據。
比較分析:大數據的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過濾和決策樹分析之類的統計技術來比較多個進程,數據集或其他對象。人們知道它的技術性很差,但不能完全避開這個術語。比較分析可用于醫療保健,比較大量的醫療記錄,文件,圖像等更有效和更準確的醫療診斷。
連接分析:你一定已經看到這些像蜘蛛網一樣的網絡圖表連接主題等,以識別某些主題的影響者。連接分析是有助于發現網絡中人員,產品和系統之間的這些相互關聯的連接和影響,甚至組合來自多個網絡的數據的分析。
數據分析師:數據分析師是一個非常重要和受歡迎的工作職位,除了準備報告之外,它還負責收集,操縱和分析數據。
數據清理:這有點不言自明,它涉及從數據庫中檢測和糾正或刪除不準確的數據或記錄。還記得“臟數據”嗎?那么,使用人工和自動化工具和算法的組合,數據分析人員可以糾正和豐富數據以提高其質量。記住,骯臟的數據會導致錯誤的分析和錯誤的決策。
DaaS:你有SaaS,PaaS和DaaS為代表的數據即服務嗎?通過向客戶提供按需訪問云托管數據,DaaS提供商可以幫助快速獲取高質量的數據。
數據虛擬化:這是數據管理的一種方法,允許應用程序檢索和操作數據,而不需要其存儲位置及其格式等的技術細節。例如,社交網絡將人們的照片存儲在他們的網絡中。
臟數據:現在,大數據變得很流行,人們開始在數據中添加形容詞,產生新的術語,如暗數據、臟數據、小數據,現在是智能數據。骯臟的數據就是不干凈的數據,換句話說,是不準確、重復的,以及不一致的數據。顯然,企業不希望與臟數據關聯。
模糊邏輯:人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數據聚合成部分真理,然后再抽象成某種閾值,來決定我們的反應。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算,而不是像布爾代數的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應用,并已發展成為其他與數據相關的學科。
游戲化:在一個典型的游戲中,有人們喜歡的得分要素,與他人競爭,某些游戲規則等元素。大數據中的游戲化是使用這些概念來收集數據或分析數據或通常激勵用戶。
圖形數據庫:圖形數據庫使用的概念,如節點和邊界代表人員/企業和他們的相互關系,從社交媒體挖掘數據。曾經想過,亞馬遜如何告訴你在購買產品時,別人買了什么?是的,圖形數據庫!
Hadoop用戶體驗(Hue):Hue是一個開放源代碼界面,使Apache Hadoop變得更加容易。它是一個基于Web的應用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業設計器,用于制作協調器和工作流程的Oozie應用程序,Shell,Impala和HiveUI以及一組HadoopAPI。
HANA:高性能分析應用程序,來自SAP的軟件/硬件內存中平臺,專為大量數據交易和分析而設計。
HBase:一個分布式,面向列的數據庫。它使用HDFS作為其底層存儲,并支持使用MapReduce和事務交互的批量計算。
負載平衡:跨多臺計算機或服務器分布工作負載,以實現系統的最佳結果和利用率。
元數據:元數據是描述其他數據的數據。元數據總結了有關數據的基本信息,可以使查找和處理特定數據實例更容易。例如,作者,創建日期和日期修改以及文件大小是非常基本的文檔元數據。除文檔文件外,元數據也用于圖像,視頻,電子表格和網頁。
Mongo DB:一個跨平臺的開源數據庫,它使用面向文檔的數據模型,而不是傳統的基于關系數據庫的表結構。這種類型的數據庫結構旨在使結構化和非結構化數據在某些類型的應用程序中更加容易和快速地集成。
Mashup:幸運的是,這個術語對于我們在日常生活中了解mashup的定義類似。基本上,Mashup是將不同數據集合并為單個應用程序的一種方法(示例:將房地產清單與人口統計數據或地理數據相結合)。這是一個非常好的可視化。
多維數據庫:針對數據在線分析處理(OLAP)應用程序和數據倉庫進行優化的數據庫。它只不過是數據多個數據源的中央存儲庫。
多值數據庫:它們是一種直接了解三維數據的NoSQL和多維數據庫。它們直接用于直接操作HTML和XML字符串。
自然語言處理:為使計算機更精確地理解日常人類語言而設計的軟件算法,使人們能夠更自然、更有效地與之交互。
神經網絡:神經網絡是一個美麗的生物學啟發的編程范例,使計算機能夠從觀測數據中學習。有人稱編程范例很美,本質上,人工神經網絡是由現實生活中大腦的生物學啟發的模型。與這種神經網絡密切相關的是深度學習。深入學習則是一套功能強大的神經網絡學習技術。
模式識別:當一個算法在大數據集或不同的數據集中定位遞歸或規律時,就會出現模式識別。它緊密相連,甚至被認為是機器學習和數據挖掘的代名詞。這種可見性可以幫助研究人員發現見解或得出結論,否則會被掩蓋。
RFID-射頻識別:一種使用無線非接觸式射頻電磁場傳輸數據的傳感器。隨著物聯網革命,RFID標簽可以嵌入到每一個可能的“東西”中,以產生需要分析的巨大數據量。
SaaS:軟件即服務,使供應商能夠托管應用程序并通過互聯網使其可用。SaaS提供商通過云計算提供服務。
半結構化數據:半結構化數據是指以常規方式未被捕獲或格式化的數據,例如與傳統數據庫字段或公共數據模型相關聯的數據。它也不是原始的或完全非結構化的,并且可能包含一些數據表,標簽或其他結構元素。圖形和表格,XML文檔和電子郵件是半結構化數據的示例,它在萬維網上是非常普遍的,通常在面向對象的數據庫中。
情緒分析:情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體,客戶服務代表呼叫,調查等)中表達的意見,情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標是確定或評估對公司,產品,服務,人員或事件表達的情緒或態度。
空間分析:指分析地理數據或拓撲數據的空間數據,以識別和理解分布在地理空間中的數據內的模式和規律。
流處理:流處理旨在通過“連續”查詢對實時和流數據進行操作。隨著從社交網絡不斷流出的數據,流處理和流分析的確需要在這些流中不間斷地計算數學或統計分析,以便實時處理大量的數據。
智能數據:智能數據據稱是在通過算法進行的一些過濾之后,其數據是有用的和可操作的。
TB字節:一個相對較大的數字數據單元,一T字節(TB)等于1000GB字節。據估計,10T字節可以容納美國國會圖書館的全部印刷品,而1T字節可以容納1000份百科全書。
可視化:通過正確的可視化,原始數據可以投入使用。當然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數據變量的復雜圖形,同時仍然可以理解和可讀
Yabyabytes:約1000ZB,或2500億張的DVD容量。如今的整個數字宇宙是1 Yabyabytes,這將每18個月翻一番。
Zettabytes:大約1000EB字節或10億TB字節。