據悉,Data Artisans由領導開發Apache Flink(開源大規模數據處理技術)的團隊于2014年創立。該創業公司為包括Netflix,ING,Uber和阿里巴巴在內的企業客戶提供了自己的dA平臺,包括開源Apache Flink和Application Manager。
兩家公司分別在聲明中稱,自2016年以來,阿里巴巴一直與Data Artisans合作,通過支持和開源工作來幫助軟件的架構和性能。Data Artisans首席執行官Kostas Tzoumas表示,阿里巴巴還將向該公司投入一筆未公開的資金,用于開發Apache Flink,這是一種可處理大量數據的開源軟件,并可擴展到新的業務領域。
而阿里巴巴集團副總裁周敬仁在一份聲明中表示:“通過利用兩個團隊的技術專長和共同的熱情來開發開源社區,我們相信這一戰略合作將進一步加強Flink社區的發展,加速數據處理技術并幫助開放,對于那些熱衷于流處理和為現代企業提供實時應用的全球開發人員來說,這是一個協作和建設性的環境。”
阿里為什么會選擇Apache Flink
隨著人工智能時代的降臨,數據量的爆發,在典型的大數據的業務場景下數據業務最通用的做法是:選用批處理的技術處理全量數據,采用流式計算處理實時增量數據。在絕大多數的業務場景之下,用戶的業務邏輯在批處理和流處理之中往往是相同的。但是,用戶用于批處理和流處理的兩套計算引擎是不同的。
因此,用戶通常需要寫兩套代碼。毫無疑問,這帶來了一些額外的負擔和成本。阿里巴巴的商品數據處理就經常需要面對增量和全量兩套不同的業務流程問題,所以阿里就在想,我們能不能有一套統一的大數據引擎技術,用戶只需要根據自己的業務邏輯開發一套代碼。這樣在各種不同的場景下,不管是全量數據還是增量數據,亦或者實時處理,一套方案即可全部支持,這就是阿里選擇Flink的背景和初衷。
這筆交易讓人回想起阿里巴巴2017年對MariaDB的投資,這是一家開源創業公司,以提供MySQL最受歡迎的替代品:數據庫管理系統而聞名。雖然不是完整的收購,但合作伙伴關系已經看到兩家公司合作為社區開發新產品,這也是這里的目標。
轉向開源和基礎架構技術對于阿里巴巴來說是非常有意義的,眾所周知,阿里巴巴以電子商務而聞名,但同時也提供云業務,流媒體等服務。據悉,公司上一季度的凈利潤為26.6億美元,營收為124億美元,阿里巴巴肯定有足夠的資金來實施這一戰略。
當被問及為什么阿里巴巴進行收購而不是繼續合伙或投資時,阿里巴巴副總裁周敬仁表示:“我們有信心在技術和社區發展方面為Flink做出更多貢獻。這是兩個團隊聚集在一起的共同愿景和有效的工作關系。我們感謝彼此學習,努力使數據處理開源社區更加開放,協作和多樣化。”
周敬仁同時也表示:“自2016年以來,我們一直是Data Artisans的強大合作伙伴,我們一直都熱衷于使用開源流處理框架來統一實時事件驅動的應用程序和實時分析。Data Artisans和阿里巴巴已經參與Apache Flink社區多年,絕對尊重Apache軟件基金會的精神,我們打算繼續這樣做。”
Apache Flink現狀
Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中,Flink的計算平臺可以實現毫秒級的延遲情況下,每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎可以提供金融級的數據處理能力。
基于Apache Flink在阿里巴巴搭建的平臺于2016年正式上線,并從阿里巴巴的搜索和推薦這兩大場景開始實現。目前阿里巴巴所有的業務,包括阿里巴巴所有子公司都采用了基于Flink搭建的實時計算平臺。同時Flink計算平臺運行在開源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調度,以 HDFS作為數據存儲。因此,Flink可以和開源大數據軟件Hadoop無縫對接。
目前,這套基于Flink搭建的實時計算平臺不僅服務于阿里巴巴集團內部,而且通過阿里云的云產品API向整個開發者生態提供基于Flink的云產品支持。
阿里巴巴自2015 年開始改進Flink,并創建了內部分支Blink,目前服務于阿里集團內部搜索、推薦、廣告和螞蟻等大量核心實時業務。12 月20 日,由阿里巴巴承辦的Flink Forward China 峰會在北京國家會議中心召開,來自阿里、華為、騰訊、美團點評、滴滴、字節跳動等公司的技術專家與參會者分享了各公司基于Flink 的應用和實踐經驗。在大會的主題演講上,阿里巴巴集團副總裁周靖人宣布,阿里巴巴內部Flink 版本Blink 將于2019 年1 月正式開源,之后會經過社區討論合并回Flink。