2018年12月3日 星期一

.十分鐘瞭解大數據處理的五大關鍵技術及其應用

Big Data 專題演講 - 大數據分析大數據之應用案例分析


NETGEAR 物聯網專用10G交換器 


來源:51CTO



數據處理是對紛繁複雜的海量數據價值的提煉,而其中最有價值的地方在於預測性分析,即可以透過數據可視化、統計模式辨識、數據描述等數據挖掘形式,幫助數據科學家更好的理解數據,根據數據挖掘的結果得出預測性決策。其中主要工作環節包括:


十分钟了解大数据处理的五大关键技术及其应用


大數據採集、大數據預處理、大數據儲存及管理、數據分析及挖掘大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

一、大數據採集技術
數據是指透過RFID射頻數據、傳感器數據、社交網路交互數據及行動網路數據等方式,獲得的各種類型的結構化、半結構化(或稱之為弱結構化),及非結構化的海量數據,是大數據知識服務模型的根本。

重點要突破分布式高速高可靠數據爬取或採集、高速數據全映像等大數據收集技術突破高速數據解析、轉換與裝載等大數據整合技術設計品質評估模型,開發數據品質技術。

大數據採集一般分為:
1)大數據智慧感知層:主要包括數據傳感體系、網路通信體系、傳感適配體系、智慧辨識體系及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智辨識、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智慧辨識、感知、適配、傳輸、接入等技術。

2)基礎支撐層:提供大數據服務平台所需的虛擬伺服器,結構化、半結構化及非結構化數據的數據庫,及物聯網路資源等基礎支撐環境。重點攻克分布式虛擬儲存技術,大數據獲取、儲存、組織、分析和決策操作的可視化接口技術,大數據的網傳輸與壓縮技術,大數據隱私保護技術等。


二、大數據預處理技術
完成對已接收數據的辨析、抽取、清洗等操作。
  
1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程,可以幫助我們將這些複雜的數據,轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。
  
2)清洗:對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據透過過濾「去噪」,從而提取出有效數據。
三、大數據儲及管理技術
大數據儲存與管理,要用儲存器把採集到的數據儲存起來,建立相應的數據庫,並進行管理和調用。重點解決複雜結構化、半結構化和非結構化大數據管理與處理技術。

主要解決大數據的可儲存、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的儲存、計算融入儲存、大數據的去冗餘及高效低成本的大數據儲存技術突破分布式非關係型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術突破大數據索引技術突破大數據移動、備份、複製等技術開發大數據可視化技術。
  
開發新型數據庫技術,數據庫分為關係型數據庫、非關係型數據庫,以及數據庫緩存系統。其中,非關係型數據庫主要指的是NoSQL數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫,以及文檔數據庫等類型。關係型數據庫包含了傳統關係數據庫系統,以及NewSQL數據庫。
  
開發大數據安全技術:改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術突破隱私保護和推理控制、數據真偽辨識和取證、數據持有完整性驗證等技術。
  

四、大數據分析及挖掘技術
大數據分析技術:改進已有數據挖掘和機器學習技術開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術突破基於對象的數據連接、相似性連接等大數據融合技術突破用戶興趣分析、網路行為分析、情感語義分析等,面向領域的大數據挖掘技術。
  
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
  
數據挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等根據挖掘對象可分為關係數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和數據庫方法。
  
機器學習中,可細分為歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳算法等。統計方法中,可細分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。

神經網路方法中,可細分為前向神經網路(BP算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
  

數據挖掘主要過程是:根據分析挖掘目標,從數據庫中把數據提取出來,然後經過ETL,組織成適合分析挖掘算法使用寬表,然後利用數據挖掘軟體進行挖掘。傳統的數據挖掘軟,一般只能支持在單機上,進行小規模數據處理受此限制傳統數據分析,挖掘一般會採用抽樣方式,來減少數據分析規模。
  
數據挖掘的計算複雜度和靈活度,遠遠超過前兩類需求。一是由於數據挖掘問題開放性,導致數據挖掘會涉及大量衍生變量計算,衍生變量多變導致數據預處理計算複雜性二是很多數據挖掘算法本身就比較複雜,計算量就很大,特別是大量機器學習算法,都是迭代計算,需要透過多次迭代來求最優解,例如K-means聚類算法、PageRank算法等。
  
從挖掘任務和挖掘方法的角度,著重突破:
1)可視化分析。數據可視化無論對於普通用戶,或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。
  
2)數據挖掘算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析,還有各種各樣五花八門的算法,讓我們精煉數據,挖掘價值。這些算法一定要能夠應付大數據的量,同時還具有很高的處理速度。
  
3)預測性分析。預測性分析可以讓分析師,根據圖像化分析和數據挖掘的結果,做出一些前瞻性判斷。
  
4)語義引擎。語義引擎需要設計,到有足夠的人工智慧,以足以從數據中主動地提取資訊。語言處理技術包括機器翻譯、情感分析、輿情分析、智慧輸入、問答系統等。
  
5)數據品質和數據管理。數據品質與管理,是管理的最佳實踐,透過標準化流程,和機器對數據進行處理,可以確保獲得一個預設品質的分析結果。
預測分析成功的7個秘訣
預測未來一直是一個冒險的命題。幸運的是,預測分析技術的出現,使得用戶能夠基於歷史數據,和分析技術(如統計建模和機器學習)預測未來的結果,這使得預測結果和趨勢,變得比過去幾年更加可靠。
  
儘管如此,與任何新興技術一樣,想要充分發揮預測分析的潛力也是很難的。而可能使挑戰變得更加複雜的是,由不完善的策略或預測分析工具的誤用,導致的不準確或誤導性的結果,可能在幾周、幾個月,甚至幾年內才會顯現出來。
  
預測分析有可能徹底改變許多的行業和業務,包括零售、製造、供應鏈、網路管理、金融服務和醫療保健。AI網路技術公司Mist Systems的聯合創始人、首席技術官Bob fridy預測「深度學習和預測性AI分析技術,將會改變我們社會的所有部分,就像十年來網路和蜂窩技術,所帶來的轉變一樣。」。
  
這裡有七個建議,旨在幫助您的組織充分利用其預測分析計劃。  
1.能夠訪問高品質、易於理解的數據
預測分析應用程序需要大量數據,並依賴於透過回饋循環,提供的資訊來不斷改進。 全球IT解決方案和服務提供商Infotech的首席數據和分析官Soumendra Mohanty評論道「數據和預測分析之間,是相互促進的關係。」
  
瞭解流入預測分析模型的數據類型非常重要。「一個人身上會有什麼樣的數據」 Eric Feigl – Ding問道,他是流行病學家、營養學家和健康經濟學家,目前是哈佛陳氏公共衛生學院的訪問科學家。「是每天都在Facebook和谷歌上收集的即時數據,還是難以訪問的醫療記錄所需的醫療數據」為了做出準確的預測,模型需要被設計成,能夠處理它所吸收的特定類型的數據。
  
簡單地將大量數據,扔向計算資源的預測建模工作注定會失敗。「由於存在大量數據,而其中大部分數據可能與特定問題無關,只是在給定樣本中可能存在相關關係,」FactSet投資組合管理和交易解決方案副總裁兼研究主管Henri Waelbroeck解釋道,FactSet是一家金融數據和軟體公司。「如果不瞭解產生數據的過程,一個在有偏見的數據上訓練的模型,可能是完全錯誤的。」
  
2.找到合適的模式
SAP高級分析產品經理Richard Mooney指出,每個人都痴迷於算法,但是算法必須和輸入到算法中的數據一樣好。「如果找不到適合的模式,那麼他們就毫無用處,」他寫道。「大多數數據集都有其隱藏的模式。」
  
模式通常以兩種方式隱藏
1)模式位於兩列之間的關係中。例如,可以透過即將進行的交易的截止日期資訊,與相關的電子郵件開盤價數據,進行比較來發現一種模式。Mooney說:「如果交易即將結束,電子郵件的公開率應該會大幅提高,因為買方會有很多人需要閱讀,並審查合同。」
  
2)模式顯示了變量隨時間變化的關係。 「以上面的例子為例,瞭解客戶打開了200次電子郵件,並不像知道他們在上周打開了175次那樣有用,」Mooney說。
  
3 .專注於可管理的任務,這些任務可能會帶來積極的投資回報
紐約理工學院的分析和商業智慧主任Michael Urmeneta稱「如今,人們很想把機器學習算法應用到海量數據上,以期獲得更深刻的見解。」他說,這種方法的問題在於,它就像試圖一次治癒所有形式的癌症一樣。Urmeneta解釋說:「這會導致問題太大,數據太亂——沒有足夠的資金和足夠的支持。這樣是不可能獲得成功的。」
  
而當任務相對集中時,成功的可能性就會大得多。Urmeneta指出:「如果有問題的話,我們很可能會接觸到那些能夠理解複雜關係的專家」 。「這樣,我們就很可能會有更清晰,或更好理解的數據,來進行處理。」
  
4.使用正確的方法來完成工作
好消息是,幾乎有無數的方法,可以用來生成精確的預測分析。然而,這也是個壞消息。芝加哥大學NORC (前國家意見研究中心)的行為、經濟分析和決策實踐主任Angela Fontes說「每天都有新的、熱門的分析方法出現,使用新方法很容易讓人興奮」。「然而,根據我的經驗,最成功的項目是那些真正深入思考分析結果,並讓其指導他們選擇方法的項目——即使最合適的方法,並不是最性感、最新的方法。」
  
羅切斯特理工學院電算機工程系主任、副教授shanchie Jay Yang建議說「用戶必須謹慎選擇適合他們需求的方法」。「必須擁有一種高效且可解釋的技術,一種可以利用序列數據、時間數據的統計特性,然後將其外推到最有可能的未來,」Yang說。
  
5.用精確定義的目標構建模型
這似乎是顯而易見的,但許多預測分析項目開始時的目標,是建構一個宏偉的模型,卻沒有一個明確的最終使用計劃。「有很多很棒的模型,從來沒有被人使用過,因為沒有人知道如何使用這些模型,來實現或提供價值,」汽車、保險和碰撞修復行業的SaaS提供商CCC資訊服務公司的產品管理高級副總裁Jason Verlen評論道。
  
對此,Fontes也表示同意。「使用正確的工具肯,定會確保我們從分析中得到想要的結果……」因為這迫使我們必須對自己的目標非常清楚,」她解釋道。「如果我們不清楚分析的目標,就永遠也不可能真正得到我們想要的東西。」
  
6.在IT和相關業務部門之間建立密切的合作關係
在業務和技術組織之間,建立牢固的合作夥伴關係,是非常重要的。 客戶體驗技術提供商Genesys的人工智慧產品管理副總裁Paul lasserr說:「你應該能夠理解新技術,如何應對業務挑戰或改善現有的業務環境。」然後,一旦設置了目標,就可以在一個限定範圍的應用程序中測試模型,以確定解決方案是否真正提供了所需的價值。
  
7.不要被設計不良的模型誤導
模型是由人設計的,所以它們經常包含著潛在的缺陷。錯誤的模型,或使用不正確或不當的數據,其所建構的模型,很容易產生誤導,在極端情況下,甚至會產生完全錯誤的預測。
  
沒有實現適當隨機化的選擇偏差,會混淆預測。例如,在一項假設的減肥研究中,可能有50%的參與者選擇退出後續的體重測量。然而,那些中途退出的人與留下來的人,有著不同的體重軌跡。這使得分析變得複雜,因為在這樣的研究中,那些堅持參加這個項目的人,通常是那些真正減肥的人。

另一方面,戒煙者通常是那些,很少或根本沒有減肥經歷的人。因此,雖然減肥在整個世界,都是具有因果性和可預測性的,但在一個有50%退出率的有限數據庫中,實際的減肥結果可能會被隱藏起來。
  
六、大數據展現與應用技術
大數據技術,能夠將隱藏於海量數據中的資訊和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。

大數據將重點應用於以下三大領域:商業智慧 、政府決策、公共服務。例如:商業智慧技術,政府決策技術,電信數據資訊處理與挖掘技術,電網數據資訊處理與挖掘技術,氣象資訊分析技術,環境監測技術,警務雲應用系統(道路監控、影像監控、網路監控、智慧交通、反電信詐騙、指揮調度等警察資訊系統),大規模基因序列分析比對技術,Web資訊挖掘技術,多媒體數據並行化處理技術,影視製作渲染技術,其他各種行業的雲計算和海量數據處理應用技術等。




雲端時代!! 你還親自跑到現場重開網路設備?NETGEAR 雲端交換器讓你無須奔波!!!

沒有留言:

張貼留言