來源:CIO時代網 TechTarget
【3S Market】本篇文章是合法轉載於CIO時代網的翻譯文章,其中內容談到的主軸是大數據的應用觀念,並涉及到儲存的模式與運用上的探討。
該怎麼存、存在哪裡?存了之後怎麼取、取了之後要做什麼?什麼才是合理的儲存模式?數據的應用觀念,並涉及到儲存的模式與運用上的探討。該怎麼存、存在哪裡?存了之後怎麼取、取了之後要做什麼?什麼才是合理的儲存模式?在資料爆炸的時代,怎樣才能做到資料爆炸的時代,怎樣才能做到「智慧儲存」?這個課題你我都會面對!
資料管理協會主席Jon Toigo認為物件儲存是成功實現大資料架構的最佳方式之一,因為它允許儲存管理的細微性分級。他甚至將其視為“儲存的未來”。
根據Toigo Partners
International的CEO和負責人、資料管理協會(Data
Management Institute)的主席Jon Toigo所言,人們過去認為 Big Data分析指挖掘大量資料,以發現特定的資訊這一過程,但是現在這個詞更常用於一個更廣的含義,泛指不斷增長中的大量資料。
Toigo認為物件儲存是成功實現Big Data架構的最佳方式之一,因為它允許儲存管理的細微性分級。他甚至將其視為“儲存的未來”。但是當決定如何儲存大數據時,他認為系統管理員必須首先考慮大數據的用途,比如,容量需求對於一個大數據架構來說,可能要比私密性更為重要。
在這次與編輯助理Sarah Wilson的訪談中,Toigo分享了很多想法,如關於大數據是什麼、最好的儲存方法及大數據架構下儲存管理員可能遇到的問題。可收聽該訪談或閱讀以下文本進行詳細瞭解。
www.travelandtourworld.com |
IT專業人士在大數據架構中將遇到什麼樣的儲存挑戰?
Jon Toigo:
首先,我認為我們需要知道大數據意味著什麼。我大概在四、五年前第一次聽到這個詞,它指多個資料庫的聯合,在某些情況下是將非結構資料集中到某種框架中,對即時分析做鏡像。
關鍵是我們要把所有資料集中起來。我們將資料彼此關聯,然後在任何情況下,我們都能讓資料告知我們有哪些變化,並給我們有用的資訊。
一個典型案例是基於潛在恐怖分子的已知資訊找到嫌疑犯,這些資訊可以是他在不同國家的記錄,航空預定資料庫中有他所可能會乘坐的航線,如果他會租車並填充上炸藥就需要為租車付錢,那麼就可以找到他的租用資訊,所有的事都能聯繫到一起。就像是在乾草堆中找一根針,這就是大數據。
實質上這是我們應用大數據分析的經典例子。而它們既表達了大數據是什麼,又表達了大數據分析是什麼。簡單來說大數據就是將待分析的資料收集起來。現在,我聽到很多廠商將大數據這個詞用在所有事情上面。這是對我們所面對的真實情況的一個參考——我們獲得了很多資料而且還在不斷增長,大多數以檔案的形式存在,而且我們在組織資料、儲存資料以及高效低成本使用上都存在很多問題。
所以就像如今很多詞一樣,大數據看起來被很多行銷人員使用,而且現在無論這個詞在市場行銷部門眼中意味著什麼,這個詞對市場行銷部門來說即是價值。
所以首要問題是確定“大數據”一詞的含義。然後我們進入另一個問題集:弄清楚如何儲存資料量越來越大的資料,並保存相對長時間;還是找到一個方式管理多個資料來源,共同實現一些資料分析的目的。
所以如果你瞭解我說的是什麼,這兒面臨的挑戰是,眾所周知沒有人對什麼是大數據有很好的定義。
orzmovies.com |
對於資料的超級大卷,物件儲存為何備受歡迎?
Toigo:
首先,我認為物件儲存是儲存的未來,這也是產業一致的意見。有很多廠商走在前沿,在宣傳它。物件儲存引領著下一代資料儲存的變革。檔案是唯一方法,目前在我們儲存的資料中超過一半。
他們主要是由用戶進行控制,所以我們對檔案內部是什麼沒有太多資訊。這有點像是匿名數據。如果我們想要創建某種有組織的方法來儲存一段時間的資料(或是通過分層技術遷移它們和從商業的角度來看它們的相關性)我們需要一個更細細微性的資料管理方式,這就是物件儲存未來要做的。
從理論上講,物件儲存可以使得某些類型的大數據分析過程更加容易。對於那些關注中繼資料的工作(例如統計操作),物件儲存消除與非結構化資料相關的一些問題,取決於你對物件導向系統本身的實現。它可以允許某些類型檔案的混合和匹配,以及重組比較等等。
一個叫Caringo的公司,我關注它有五年了,它做了件大事兒,很長一段時間內都在熱情地宣傳物件儲存。
提醒的一點是,市面上的物件儲存有很多不同的協定,部分原因在於流行性和時髦的大數據。像很多技術一樣,業界似乎喜歡創造專屬物件儲存方法,即混合和匹配使用不同物件儲存模式組織的資料。我認為可能會很痛苦。例如,使用雲端作為物件儲存資料庫,因為你會有多個雲,每個雲可能是圍繞不同的物件儲存模式進行組織,雲間的資料共用難以實現。這可能是一個大障礙。
物件儲存基本上是把一些額外值(把它當作一個額外的中繼資料結構)放在檔案之上,給它一個獨特的辨識字,所以不會覆蓋,你可以把它包括在某種形式的資料庫結構中,這樣你就可以移動、使用及引用它。
舉例來講,國家安全局(National Security
Agency)使用電話記錄資料和他們之間的衝突,他們對電話中談論的內容不感興趣,他們感興趣的是關係網或資料之間的關係。這是物件儲存天生適合的地方:作為一種機制,來連接各個點並顯示資料間的中繼資料關係,而不是資料本身的內容。
某篇文章發表後,知道哪些人訪問了網站對我來說並不重要,重要的是知道訪問網站的人數。在這些地方,簡單的計數操作可能代替檔案內容的詳細分析。所以我認為物件儲存絕對是儲存的未來。在我有生之年我們會達到那個階段嗎?我不知道,它可能只是像我們一直等待多時的全息儲存那樣。
除了物件儲存之外,還有什麼其他類型的儲存適用於大數據環境?
現在,再次重申,這取決於你想用你的大數據做什麼。顯然有一些實際問題需要考慮。例如,你可能需要一種方式來減少大數據的空間佔用量,來限制儲存容量需求和相關費用,這時你需要一種不影響你的物件儲存方法的方式。
所以如果你使用物件儲存,如果您對這些物件導向的資料條目進行壓縮、刪除或其他處理的話,你獲取資訊時可能會困惑。這樣可能會破壞資料,從分析的角度來看資料不可用。你需要非常謹慎:關於如何拿資料去做什麼、怎麼去儲存它、減少資料的影響又將是什麼。
另一個例子是進入大數據分析過程後的隱私的問題。可能有共用資料集的願望。例如,在醫療保健行業的治療方法,有多少人有某種特定類型的癌症和對於該類癌症的特效藥是什麼,但這屬於那些健康記錄的資料,在分享時有所限制。HIPAA(《健康保險攜帶和責任法案》)禁止披露病人的醫療保健資訊。
你不能有病人的名字、社會保險號或與資料本身有關的病人辨識資訊。對於國家安全局這也是一個問題。這是NSA監測項目背後的問題之一,對於衛生保健行業未來大數據的努力,也是一個大問題。
news.tvbs.com.tw |
那麼如何減少資料變更來修訂敏感的東西,但不要稀釋或傷害資料?從分析的角度來看,以這樣一種方式處理資料,將減少它的價值。現代加密技術,這是一種一些人喜歡使用的保護隱私的技術,據我們所知,可能不能與大數據分析協同工作。
我與Jeff Jonas聊天,他是IBM處理大數據的首席科學家。關於這個問題在大約一個月前IBM的邊緣會議上,他表達了他所說的單向散列的必要性。對於那些不熟悉單向散列是什麼的人來說,它是一種機制,可以保護資料有效性和完整性,但不包括資料的敏感細節。
Jeff Jonas這樣描述:你可以給別人一些豬肉和絞肉機,他們可以用它來做香腸,但如果你給他們香腸和絞肉機,他們不能逆向工程出一頭豬。這將是一個理想的方式,可以使用單向散列保留資料的價值沒有透露不能共用的任何細節。所以我想說在技術上仍有改進的空間,來確定我們共用資料的方式,以及儲存它的方式。
The Age of Big Data: Big Gain or Big Pain? digitalust.wordpress.com |
最後,我總會說一些後續的計畫。我捫心自問,如果這個大數據複合體(我們這個儲存大數據的基礎設施)是如此的重要和關鍵,當所有的存放裝置面臨各種問題時,無論是人為威脅或自然威脅,我們將如何保護它避免資料丟失或資料損壞?在沒有弄清楚如何保證它的連續性、可用性和完整性之前,我不會去部署一個大數據複合體。
沒有留言:
張貼留言