導讀:以下是Matt Turck(美國早期基金FirstMark合伙人)總結的2019年大數據及AI領域的主要發(fā)展趨勢。他從基礎設施、分析以及應用層面分別闡述了主要發(fā)展趨勢,希望能給大家?guī)硭伎肌?
圖片來自“億歐網”
以下是Matt Turck(美國早期基金FirstMark合伙人)總結的2019年大數據及AI領域的主要發(fā)展趨勢。他從基礎設施、分析以及應用層面分別闡述了主要發(fā)展趨勢,希望能給大家?guī)硭伎肌?/p>
基礎設施層面的趨勢
第三波浪潮 從Hadoop到云服務再到Kubernetes
數據治理、數據編目、數據沿襲:數據管理的重要性與日俱增
專用于AI的基礎設施的崛起
數據基礎設施一直保持快速進化狀態(tài)。這個速度保持了很多年,近期有加速進化的趨勢,主要經歷三個階段:從Hadoop到云服務再到Kubernetes環(huán)境。
誕生于2003年10月的Hadoop可以算得上大數據領域的“鼻祖”。Hadoop是一個使用計算機網絡對大量數據進行分布式存儲和處理框架,在數據生態(tài)系統(tǒng)的爆炸式發(fā)展中發(fā)揮了絕對核心的作用。 然而,在過去的幾年里,宣布Hadoop死亡已經成為行業(yè)觀察家們的常態(tài)。隨著Hadoop供應商遇到各種各樣的麻煩,這一趨勢今年進一步加速。在撰寫本文時,MapR已經處于關閉的邊緣,也有可能已經找到了買家。最近剛剛完成52億美元合并的Cloudera和Hortonworks在6月份經歷了艱難的一天,由于令人失望的季度收益,股價暴跌了40%。Cloudera已經發(fā)布了多款云計算和混合產品,但目前還沒有正式對外售賣。
由于來自云平臺的競爭,Hadoop正面臨越來越大的阻力。Hadoop是在云沒那么完備的時候開發(fā)的,大多數數據是在本地的,那時網絡延遲是瓶頸,將數據和計算放在一起很有意義。但這一切已經改變了。
然而,Hadoop不太可能很快消失。它的發(fā)展可能會放緩,但它在企業(yè)間的部署規(guī)模之大,將使其在未來幾年保持慣性和生命力。
無論如何,向云的轉變顯然正在加速。有趣的是,在我們與《財富》1000強企業(yè)高管的交談中,2019年似乎是一個真正的轉變。在過去的幾年里,討論云的很多,但真正的行動都是本地部署,尤其是在受監(jiān)管的行業(yè)?,F在《財富》雜志1000強企業(yè)的許多高管都在積極轉向云計算,其中有一部分活動涉及從傳統(tǒng)的微軟商店轉向Azure。
因此,盡管云提供商的規(guī)模已經非常龐大,但它們仍在繼續(xù)快速增長。2018年,AWS實現收入257億美元,比2017年175億美元增長46.9%。微軟Azure的收入沒有單獨披露,但在截至2019年3月的季度中同比增長了73%。雖然這不是一個完美的對比,但是AWS的收入在同季度同比增長了41%。
隨著云計算應用的深入,客戶開始對成本望而卻步。在世界各地的董事會會議室里,高管們突然注意到一個曾經很小的賬目:他們的云賬單。云計算確實提供了敏捷性,但它通常會帶來很高的成本,尤其是當客戶的注意力離開計價器或者無法準確預測他們的計算需求時。像Adobe和Capital One等AWS客戶,他們的云賬單在2017年至2018年的短短一年里增長了60%以上,達到了2億美元以上。
成本,以及對供應商鎖定的擔憂,加速了向混合方法的發(fā)展,包括公共云、私有云和本地部署的組合。面對眾多的選擇,企業(yè)將越來越多地選擇最適合自己的工具來優(yōu)化績效和經濟效益。隨著云提供商更加積極地實現差異化,企業(yè)開始采用多云策略,利用每個云提供商最擅長的領域。在某些情況下,為了優(yōu)化經濟效益,最好的方法是將一些工作負載保留(甚至是調回)在本地,特別是對于非動態(tài)工作負載。
有趣的是,云提供商正在適應企業(yè)計算能力向混合環(huán)境發(fā)展的現實,像AWS會提供類似于AWS前哨的工具,允許客戶進行本地計算和存儲的同時,還能將本地負載與AWS云上其他程序無縫集成。
在這個新的多云和混合云時代,Kubernetes無疑是冉冉升起的巨星。Kubernetes是谷歌于2014年推出的一個用于管理容器化工作負載和服務的開源項目,它正經歷著與Hadoop幾年前同樣的熱情,有8000名與會者參加了KubeCon活動,還有源源不斷的博客文章和播客。許多分析師認為,RedHat在Kubernetes世界的重要地位,在很大程度上促成了IBM以340億美元的大規(guī)模收購。Kubernetes的前景是幫助企業(yè)實現跨環(huán)境運行工作負載,企業(yè)的混合環(huán)境會包括數據中心、私有云以及一個或多個公共云。
Kubernetes作為一個特別適合管理復雜、混合環(huán)境的編制框架,也越來越成為機器學習的有吸引力的選項。Kubernetes使用相同的基礎設施服務于多個用戶,使得數據科學家不必成為基礎設施專家,就能夠靈活地選擇他們喜歡的任何語言、機器學習庫或框架,并訓練和擴展模型,允許相對快速的迭代和強大的重現性。Kubeflow是為Kubernetes開發(fā)的機器學習工具包,它的發(fā)展勢頭迅猛。
Kubernetes相對來說還處于起步階段,但有趣的是,因為數據科學家可能更喜歡Kubernetes的整體靈活性和可控性,上述情況可能標志著一種遠離云機器學習服務的進化。我們可能正在進入數據科學和機器學習基礎設施的第三個范式轉變,從Hadoop(直到2017年?)到數據云服務(2017-2019),再到一個由Kubernetes和下一代數據倉庫(比如Snowflake)主導的世界(2019-?)。
這種演變的另一面是復雜性的增加。當然,這里會有一個綜合平臺的機會。平臺會抽象并簡化對大量云底層基礎設施的操控,讓更廣泛的數據科學家和分析師群體更容易訪問這個美麗的新世界。
盡管角度不同,Serverless模式就是這種簡化的一種嘗試。這種執(zhí)行模型允許用戶編寫和部署代碼,而無需擔心底層基礎設施。云提供商處理所有后端服務,客戶根據實際使用情況的付費。在過去的幾年里,Serverless模式無疑是一個重要的新興主題,這也是我們在今年的Data&AI領域中增加的新品類。然而,將Serverless模式應用于機器學習和數據科學仍有較多工作要做,像Algorithmia和Iguazio/Nuclio這樣的公司是早期進入者。
數據環(huán)境日益混合的另一個后果是,企業(yè)需要加大努力來獲得對數據的控制。
目前的數據環(huán)境非常復雜,有些位于數據倉庫、有些位于數據湖、有些位于各種其他數據源,跨越本地部署、私有云和公共云,那應該如何查找、管理、控制和跟蹤數據?這包含各種相關的形式和名稱,包括數據查詢、數據治理、數據編目和數據沿襲,所有這些都越來越重要和突出。
在混合環(huán)境中查詢數據本身就是一個挑戰(zhàn),其解決方案要符合存儲和計算分離的總體趨勢。
數據治理是另一個迅速成為企業(yè)首要考慮的領域。數據治理的一般思想是管理數據,并確保整個數據生命周期(涉及數據有效性、完整性、可用性、一致性和安全性)的高質量性。值得注意的是,在2019年初,Collibra進行了一輪1億美元的融資,估值超過10億美元。
數據編目是數據管理的另一種日益重要的手段。有效的數據編目是綜合企業(yè)各種數據資產的字典。它們幫助用戶(包括數據科學家、數據分析師、開發(fā)人員和業(yè)務用戶)能夠自助發(fā)現和使用數據。
最后,數據沿襲可能是最新出現的數據管理類別。數據沿襲的目的是捕獲跨企業(yè)的“數據之旅”。它幫助公司弄清楚數據在其生命周期中是如何被收集、如何被修改以及如何被分享的。許多因素推動了這一領域的增長,包括合規(guī)、隱私和倫理的重要性日益增加,也包括對機器學習管道和模型的可重復性和透明度的需求。
今年一直在加速發(fā)展的最后一個關鍵趨勢,是AI專用基礎設施的不斷涌現。
管理人工智能管道和模型的需求導致了MLOps(或AIOps)領域的快速增長。為了呼應這種新趨勢,今年的Landscape里面,我們添加了兩個新的框,一個名為基礎設施(各種早期創(chuàng)業(yè)公司包括Algorithmia、Spell、 Weights&Biases等等),一個名為開放源碼(各種各樣的項目,通常相當早,包括Pachyderm、Seldon、Snorkel、MLeap等等)。
ML工程師需要能夠運行實驗并快速迭代,在需要時訪問如GPU等資源。在我們的Data Driven NYC活動中,我們介紹了一些早期初創(chuàng)公司,它們提供了諸如Spell、Comet、Paperspace等基礎設施。
隨著GPU數據庫的崛起和新一代人工智能芯片(Graphcore、Cerebras等)的誕生,人工智能對基礎設施產生了深遠的影響。人工智能正迫使我們重新思考計算的本質。
分析層面發(fā)展趨勢
商業(yè)智能(BI)正在整合
企業(yè)AI平臺是一個趨勢
橫向人工智能仍然非常活躍
在商業(yè)智能領域, 正如前面提到的,過去幾個月的明顯趨勢是大量整合,包括Tableau、Looker、Zoomdata和Clearstory的收購,以及SiSense和Periscope的合并。因為數據可視化和自助分析服務有大量的供應商,BI中的整合在某種程度上是不可避免的。每個供應商,無論大小,都面臨著多樣化和擴展能力的壓力。對于云收購商來說,這些新產品線肯定會增加收入,但更重要的是,它們擁有附加功能,能夠幫助云收購商的核心平臺產生更多收入。
BI未來會有更多的整合嗎?微軟在Power BI方面擁有強大的地位,但當整個細分市場整合并且每家公司都有效參與時,并購市場可能會有自己的動態(tài)。AWS就可能需要更強的產品,考慮到它的QuickSight BI通常被認為有點落后。
隨著BI的整合,數據科學和機器學習平臺領域的熱度持續(xù)上升。在企業(yè)中部署ML/AI是一種巨大的趨勢,這個趨勢目前還處于早期階段,各種參與者都在爭先恐后地構建平臺。
對于該領域的大多數公司來說,明確的目標是促進ML/AI的民主化,也就是讓更大的用戶群體和更多的公司獲利于ML/AI。目前人才短缺仍然是ML/AI廣泛采用的主要瓶頸。然而,不同的玩家有不同的策略。
一種方法是AutoML。它涉及到自動化機器學習的整個生命周期,包括一些最乏味的部分。根據產品的不同,AutoML將處理包括特征生成和工程,算法選擇,模型訓練、部署和監(jiān)視等各種任務。DataRobot是AutoML專家,自2018年以來,該公司已籌集了1億美元的D輪融資(據稱自那以后還籌集了更多)。
該領域的其他公司,如Dataiku、H20和RapidMiner,提供具有AutoML功能的平臺,但也提供更廣泛的功能。以Dataiku為例, 自2018年以來,成功融了C輪1.01億美元。它的整體思路是賦能整個數據團隊(包括數據科學家和數據分析師),使得整個生命周期的數據處理簡單而有趣。
云提供商當然很活躍,包括微軟的Learning Studio、谷歌的cloud AutoML和AWS Sagemaker。盡管云提供商很強大,但這些產品的定位比較窄——通常很難使用,而且主要針對技術含量很高的高級用戶。它們還處于萌芽階段。據報道,亞馬遜的云機器學習平臺Sagemaker在2018年開局緩慢,僅向商業(yè)領域銷售了1100萬美元。一些云提供商正積極與該領域的專業(yè)第三方合作:微軟參與了Databricks的2.5億美元的E輪投資,這或許是未來收購的前奏。
除了企業(yè)人工智能平臺,橫向人工智能領域(包括計算機視覺、NLP、語音等)繼續(xù)令人難以置信地充滿活力。主要趨勢如下:
NLP領域的重大改進,特別是通過轉移學習的應用(其中包括基于大量的數據訓練模型,將其這模型通過移植和微調的方式用于解決某個特定的問題),讓它使用較少的數據就能工作:例如ELMO,ULMFit,最重要的還有谷歌的BERT。
業(yè)界為了用更少的數據實現人工智能做出了更多努力,包括單樣本學習(one-shot learning)。
深度學習與強化學習相結合。
生成式對抗網絡(GAN)的持續(xù)進展。
應用層面發(fā)展趨勢
企業(yè)部署ML/AI的階段已來
企業(yè)自動化和RPA的興起
在這個階段,我們可能需要3到4年的時間來嘗試為企業(yè)構建ML/AI應用。
當然已經有過一些遠遠早于現實的尷尬產品嘗試(第一代聊天機器人)和一些重大的營銷聲明,特別是一些公司試圖改造現有產品實現ML/AI。
但是,我們已經逐步進入了ML/AI在企業(yè)中的部署階段,從好奇和實驗到實際的生產使用。未來幾年的趨勢似乎很明顯:以一個給定的問題為例,看看ML/AI(通常是深度學習,或其變體)是否會產生影響,如果是的話,構建一個AI應用程序來更有效地解決問題。
此部署階段將以多種方式進行。一些產品將由內部團隊使用上面提到的企業(yè)AI平臺來構建和部署。其他的將是由不同的供應商提供內嵌人工智能能力的全棧產品,其中的人工智能部分可能在很大程度上對客戶是不可見的。還有一些將由提供混合產品和服務的供應商提供。
當然,現在還為時尚早。內部團隊通常從處理一個用例(例如客戶流失預測)開始,并開始擴展到其他問題。許多構建ML/AI應用的初創(chuàng)企業(yè)仍在學習克服從研發(fā)到完全規(guī)模化運營的挑戰(zhàn)。
然而,成熟正在到來。在過去的幾年里,對于任何希望在實際應用中部署ML/AI的人來說,都需要大量的學習,關于技術可以做什么和不能做什么,我們開始更好地理解機器和人之間任務的正確分配。人們從第一代人工智能應用獲得不少經驗教訓。例如,從用戶角度出發(fā),下一代客戶服務聊天機器人在ML/AI與可配置性和透明性之間提供了更智能的組合。
展望未來,隨著ML/AI在高性能數據棧的支持下逐漸普及,我們是否看到了完全自動化企業(yè)的曙光?
自從信息技術出現以來,企業(yè)就被信息孤島所困擾,各種系統(tǒng)和數據分散到各個部門,彼此之間無法溝通(這導致了大規(guī)模的系統(tǒng)集成服務行業(yè)),而人類充當了兩者之間的“粘合劑”。當前數據和系統(tǒng)日益集成、ML/AI有能力逐步將人類從某些功能中移除,企業(yè)完全有可能以一種日益自動化、系統(tǒng)化的方式運作。
例如,假設一個自動化企業(yè),需求的增加(ML預測出來的)自動觸發(fā)供應商訂單的增加,這將自動記錄在財務系統(tǒng)中(財務系統(tǒng)可以自動計算和支付補償津貼等);或者預期的需求下降會自動觸發(fā)相應的營銷支出的增加等等。
在未來的世界里,企業(yè)不僅會成為完全自動化的組織,最終還會成為自我修復和自治的組織。
然而,我們離那個階段還很遠,今天的現實主要集中在RPA上。這是一個非常熱門的領域,像UI Path和Automation Anywhere這樣的領先者增長得非???,并且籌集了大量資金。
RPA是機器人過程自動化的簡稱(盡管可能令人失望的是,它沒有利用任何實際的機器人),涉及到通常非常簡單的工作流,通常是手工的(由人類執(zhí)行)和重復的,并由軟件替代它們。許多RPA發(fā)生在后臺辦公室功能中(例如,發(fā)票處理)。
RPA是由企業(yè)數字轉型的浪潮推動的,尤其是在過去幾年里,數字轉型一直在加速。一些RPA的領先企業(yè)已經存在多年了(UiPath成立于2005年),但是當數字轉換成為日常話題時,“突然”受到了歡迎。RPA還提供了一個強大的ROI,因為它的實現可以直接與人類執(zhí)行相同任務的成本進行比較。RPA對技術服務巨頭也非常有吸引力,因為它涉及大量的實現服務(需要實現無數不同的工作流配置);因此,RPA初創(chuàng)公司從與這些大型服務公司的強大合作關系中獲益。
也許有理由懷疑RPA。一些人認為這在很大程度上是不明智的“創(chuàng)可貼”,或者是某種權宜之計——采用由人類執(zhí)行的低效工作流,讓機器來完成。從這個角度來看,RPA可能只是在創(chuàng)建下一層技術債。隨著周圍環(huán)境的變化,除了導致需要更多的RPA將舊任務重新配置到新環(huán)境之外,自動化的RPA功能會發(fā)生什么變化還不清楚。至少在這個階段,RPA更多的是關于自動化而不是智能,更多的是基于規(guī)則的解決方案而不是人工智能(盡管一些RPA供應商在營銷材料中加強了他們的人工智能能力)。
RPA應該與智能自動化區(qū)分開來,智能自動化是以ML/AI為核心的新興領域。智能自動化也以企業(yè)流程和工作流為目標,但是它更以數據為中心,而不是以流程為中心,并且最終能夠學習、改進和治愈。
智能自動化的一個例子是智能文檔處理(ADP),這是一個可以利用ML/AI來理解文檔(表單、發(fā)票、合同等)的類別,其水平與人類相當或更好。
在未來幾年觀察這些領域將特別有趣,RPA和智能自動化有可能通過并購或推出新的本土產品進行合并,除非后者的進展如此之快,限制了對前者的需求。