“雲、數、智三位一體”難在哪?亞馬遜雲科技讓難題有解

這幾年,關於“雲(Cloud)、數(Bigdata)、智(Artificial Intelligence)”三位一體的說法絡繹不絕,不管是ABC還是CBA,各大雲服務商都希望充分利用雲計算這個平臺,將各種復雜的數據處理技術、機器學習技術等進行融合,以方便用戶更好地洞察數據價值來驅動數字化轉型。

但理想很豐滿、現實卻比較骨感。雲數智的融合絕非易事。一方面,從組織架構、人員能力、項目實施和工具支撐層面上,雲數智融合的需求正在不斷增加;另一方面,很多用戶受制於歷史原因、真實環境、團隊能力等因素,使得雲數智融合普遍存在着很大的障礙。

如何打破這種局面?

近日,亞馬遜雲科技推出“雲、數、智三位一體”的大數據與機器學習融合服務組合,真正從用戶真實問題與需求出發,推進大數據和機器學習的融合,加速企業機器學習規模化的落地。

三大挑戰不容迴避

IDC預測,到2022年,60%的中國1000強公司將在所有關鍵業務的橫向職能中擴大使用AI/ML,如營銷、法務、人力資源、採購和供應鏈、物流等。Gartner也預測,到2024年,75%的企業將把機器學習技術用於生產,為企業業務賦能。

隨着機器學習等AI技術在企業數字化轉型中的深入應用,使得數據驅動型的應用場景開始大量誕生。與此同時,也帶來對於基礎數據服務的需求,甚至在對企業數字化轉型方方面面產生影響。亞馬遜雲科技大中華區產品部總經理陳曉建直言,企業要想重塑數據洞察,一定會將數據和只能進行融合、統一,從而更加高效地圍繞數據構建和實施項目,使得數據在兩者之間無縫流轉,成員快速具備相關能力,推動公司企業數字化轉型邁向新的高度。

如果從企業數字化轉型的真實需求分析,雲數智融合已經是迫在眉睫。首先,在組織架構層面,分散在各個部門的機器學習實踐需要加速走向整合,並與大數據項目進行統一協調、資源配置;其次,從人員能力層面看,大數據從業者具備承接機器學習相關項目的需求,機器學習從業者則需要掌大數據處理能力;第三,從項目實施層面看,企業越來越多數據驅動型的業務場景需要融合大數據和機器學習兩者的能力;最後,需要面向大數據技術和機器學習技術構建統一的開發平臺和技術基礎,或者對已有大數據平臺改造增加機器學習相關場景或者能力,或者重新構建一個面向兩者的通用平臺。

在亞馬遜雲科技看來,在很多企業的真實情況中,企業的數據分析和機器學習融合卻絕非易事,普遍存在着三大問題:

  • 其一、由於企業數字化發展的歷史原因,大數據和機器學習通常存在不同的團隊,分而治之的方式使得數據和技術處於孤島狀態,制約了敏捷迭代。

  • 其二、很多傳統企業往往是有好演算法、卻不具備處理處理海量數據規模的能力,使得企業空有好演算法,無法對演算法進行大量數據輸入迭代與優化,從而使得演算法模型效果與實際業務目標相差甚遠。

  • 其三、模型在企業的實驗環節效果良好,一到真實業務場景中卻不盡人意,大部分企業的數據分析人員對業務參與度低,而真實的業務場景遠比實驗環境復雜。

“最開始很少有用戶會考慮將大數據和機器學習放在一起,通常採取的是分開獨立建設。”陳曉建補充道,“以如今應用廣泛的推薦系統為例,經常會用到用戶屬性進行大數據分析,通常是以文本的方式;但機器學習必須要轉成特定格式才行,一旦標簽體系比較復雜,這又是機器學習團隊所不具備的能力。”

面對上述普遍挑戰,亞馬遜雲科技的理念是從用戶需求出發,反向打造出廣泛和深入的服務,打通大數據和機器學習兩個領域的數據治理底層服務,在雲中構建起統一的數據基礎底座,實現大數據與機器學習之間的互相賦能,為企業數字化轉提供新動力。

如何做到雙劍合璧

不難看出,雖然市場上提出雲數智三位一體的雲服務商不在少數,但是真正能夠在技術、產品層面實現有效融合的不錯。因為很多幾乎都是產品錶面上的集成,缺乏統一融合的數據治理底座,以及大數據與機器學習之間高效充分的雙向互動。

亞馬遜雲科技認為,大數據與機器學習要想真正實現融合,必須具備三大核心能力:一、統一的數據共享,讓數據資產化、打破數據孤島;二、統一的許可權管控,讓數據在不同的業務系統中高效流動;三、統一的開發及流程編排,從端到端實現大數據和機器學習任務的融合,提升整體開發效率。

图片alt

亞馬遜雲科技大中華區產品部總經理陳曉建

“統一的治理底座可以實現如數據治理、數據許可權、數據開發、數據工作流、可視化等;而大數據與機器學習高效充分的雙向互動,則可以互為支撐、互為因果,形成正向循環,最終為企業級發展提供新動力。”陳曉建補充道。

事實上,高效融合意味着雲服務商需要將涉及到大數據、機器學習的大量產品、功能在技術、業務邏輯等層面實現深度的融合,對於雲服務商的產品與技術能力極為考驗。亞馬遜雲科技大中華區產品部技術專家團隊總監王曉野介紹,亞馬遜雲科技已經有針對性的服務與工具,來實現大數據與機器學習的高效融合。

首先,亞馬遜雲科技在雲中構建統一的數據治理底座,實現大數據和機器學習的數據共享,數據許可權的統一管控,以及兩者統一的開發和流程編排。

例如,Amazon Lake Formation諸多新功能實現了數據網格跨部門的數據資產共享和基於單元格的最細粒度的許可權控制機制;Amazon SageMaker Studio則可以一站式地完成數據開發、模型開發及相關的生產任務,該服務基於多種專門構建的服務,如互動式查詢服務Amazon Athena、雲上大數據平臺Amazon Elastic MapReduce (Amazon EMR)、雲數據倉庫服務AmazonRedshift、Amazon SageMaker等,為大數據和機器學習提供統一的開發平臺。

“統一的數據治理底座不僅讓大數據和機器學習高效融合,還減少大數據和機器學習重復構建的工作,大幅降低成本。”王曉野表示道。

其次,亞馬遜雲科技提供多種靈活可擴展、專門構建的大數據服務,幫助客戶進行復雜的數據加工及處理,應對數據規模的動態變化,優化數據質量。正所謂,巧婦難為無米之炊,機器學習項目成功的關鍵是對復雜的數據進行加工和準備。亞馬遜雲科技以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (AmazonMSK)和 Amazon EMR 為代表的無伺服器分析能力,可以讓客戶無需配置、擴展或管理底層基礎設施,即可輕松地處理任何規模的數據,為機器學習項目提供兼具性能和成本效益的特徵數據準備。

“Amazon Athena能夠對支持多種開源框架的大數據平臺,包括Amazon EMR、高性能關系資料庫Amazon Aurora、NoSQL資料庫服務Amazon DynamoDB、Amazon Redshift等多種數據源,對這些數據源進行聯邦查詢,快速完成機器學習建模的數據加工。”王曉野補充道。

最後,亞馬遜雲科技讓數據分析技術更加低門檻,讓業務人員也有自住式訓練機器學習模型進行探索創新的能力。例如,在日常分析工具中集成機器學習模型預測能力,其中深度集成機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結果中添加基於模型預測的Amazon Athena ML,可幫助用戶使用熟悉的技術,甚至通過自然語言來使用機器學習。

毫無疑問,亞馬遜雲科技多年以來在幫助全球數十萬的用戶通過利用大數據和AI技術的基礎上,深刻洞察到大數據與機器學習的融合所帶來的價值、作用,這對於更多行業用戶降低上雲用數賦智的門檻大有裨益,也將成為眾多行業用戶深入開展數字化和智能化轉型的關鍵。

“亞馬遜雲科技還通過數據科學實驗室、機器學習實驗室和機器學習專業服務等一系列定製化措施,幫助企業在雲上實現數智融合,重塑數據洞察。”陳曉建最後表示道。