亞太內容分發大會暨CDN峰會一直致力于推動CDN產業深度融合發展和市場普及,現已成為亞太地區影響力最大的內容分發網絡盛會。十年來,在以騰訊云、阿里云、網宿科技等亞太CDN產業聯盟成員孜孜不輟的努力下,CDN產業已經成為基礎性設施網絡,以堅定的基石之姿,支撐起中國成為世界最大的互聯網市場。
隨著全球數字化、“一帶一路”戰略的推進,亞太內容分大會暨CDN峰會的影響力正在逐漸向全球延伸,同時也將中國智造CDN及產業鏈推廣向全球每一個角落。
近年來,騰訊云深耕對象存儲領域,以技術創新屢次將存儲領域推上更高臺階,榮膺亞太內容分發大會對象存儲領導力獎。在6月10日下午舉辦的【對象存儲論壇】上,騰訊云存儲技術總監 王淼發表了題為《對象存儲內容分發應用:數據處理實踐》的精彩演講。
近年來,數據每年以超過30%-40%的速度爆發式增長,對于企業而言如何低成本高效的利用好數據就成為了挑戰。數據湖作為一個以原始數據格式為存儲的系統,為數據分析、數據處理、機器學習等提供了極大的便利,而云的擴展性、高性能、支持地域的廣泛性、以及云上所提供的豐富的數據處理和分析能力,都使其成為數據湖理想的載體。
從對象存儲數據治理生態全景圖中可以看到,除了對象存儲標準接口之外,還可以通過消息隊列、結構化存儲系統、視頻流等多種數據源,將數據快速方便地入湖,湖上也提供了豐富的數據處理和分析能力,消除數據孤島,實現計算存儲分離,由于部署及架構等原因,在業務實踐中也遇到了不少挑戰:主要體現在IO性能,目錄操作以及存算分離需要的大帶寬上,針對這些問題,騰訊云對象存儲作為數據湖的底座,提供了多級數據加速服務,以滿足不同場景的需要。
隨后,王淼介紹了騰訊云提供的多級加速服務:GooseFS作為近計算節點的高速緩存,不僅為計算節點提供數據加速,還能將計算節點產生的數據寫入緩存,以供二次計算或加速CDN的分發;數據加速器是部署在各個AZ的高速緩存集群,在AZ端為熱數據提供加速服務和抗熱點數據能力,高速緩存集群采用SSD作為數據盤,與計算集群之間通過高帶寬網絡連接,為數據應用訪問COS對象存儲提供Tb級別帶寬資源和毫秒級的時延;元數據加速器主要應對文件系統級元數據操作,解決對象存儲模擬文件系統的損耗,加速包括list,head的操作以及提供原子性rename接口和一些目錄操作相關接口。
對象存儲和CDN結合服務客戶的過程中,也會遇到數據處理、內容安全和容災架構等方面的挑戰,如何更高效可靠地為用戶提供服務,王淼分享了騰訊云的經驗。
數據處理-能力建設
數據處理的底層是各種原子能力,包括圖像處理、視頻處理、音頻處理、內容審核、文檔處理相等。除了對原子能力做持續的迭代和優化,騰訊云也關注業界前沿技術,保持對前沿技術的敏感性,在合適的時機盡快地應用到云上,服務客戶企業。
數據處理-流程建設
流程化的演進:之前的工作流系統,主要流轉于對象存儲和數據處理服務的內部,能解決的問題有限,在實際業務的一些場景中,用戶可能需要使用到多個云產品,那么就需要在多個產品間進行繁瑣的配置,寫很多的接口調用代碼,既復雜又容易出錯;騰訊云COS通過預置云函數,利用簡單的配置,打通多個云產品,實現業務邏輯快速實現。
以視頻上傳為例,一個視頻上傳之后可以通過數據處理服務,配置精彩封面、圖片瘦身等流程化的操作,可以對視頻進行高清、標清轉碼,同時對視頻進行審核,出現違規視頻可以進一步進行凍結。
在工作流演進的過程中,對象存儲通過對接函數服務,能為客戶提供更多可能:比如圖片瘦身后,可以通過預熱云函數直接將圖片預熱到CDN節點;審核服務如果發現違規文件,可以通過刷新云函數把CDN節點上的違規數據清理掉,防止對業務造成損害。函數服務也提供自定義函數的能力,可以對接業務系統,對接其他云服務平臺,真正讓用戶少操作,少寫代碼,少“踩坑”。
智能化演進:智能分層
在對接客戶的時候經常遇到一種場景:客戶希望根據文件的最后訪問時間來判斷是否沉降,而對象存儲提供的數據沉降、生命周期服務都是以數據上傳時間為判斷標準,無法滿足這種場景的需求?;谶@一點COS研發了智能分層服務,可以根據用戶文件的訪問頻次、大小、格式,為數據提供冷熱分離自動化機制,降低用戶的使用成本。同時,還提供毫秒級的首字節響應能力,在不斷變化的訪問模式下,首字節響應性能不降低,也不產生費用和其他運營開銷。經測算,智能分層服務可以為業務節省20%左右的成本。
智能化演進:平臺自適應
平臺自適應服務:cos 與 cdn 深度的結合,可以針對不同平臺的特性,分發給適合當前平臺最優的數據格式,如支持webp圖片的平臺,服務端可智能返回webp格式圖片,如微信小程序平臺,可智能返回騰訊云自研的tpg格式圖片,讓業務能智能的享受到帶寬的節省和加載速度的提升。
場景化能力
除了提供原子的處理能力、流程化的任務系統,騰訊云對象存儲最近還推出了兩個面向垂直場景的服務:針對視頻監控場景的明瞳智控和針對網盤相冊場景的智能媒資托管服務,后續對象存儲還會面向數據湖推出更多貼合業務場景的輕應用能力。
內容安全能力
在內容安全方面主要面臨的挑戰有以下幾個方面:一是面臨場景比較復雜,包括圖片、音視頻、欺詐類的網站、表情包惡搞、病毒程序。二是方式繁多,如隱晦的淫穢涉黃場景,變種文字廣告,拆字、干擾符號的謾罵。三是技術對抗增多,如變種繞過策略的手段,AI變臉的對抗。四是產品聯動少,用戶使用的復雜度高。
內容安全能力建設方面,除了傳統的文本、視頻、圖像、音頻的內容審核,騰訊云還在逐步豐富其他場景,比如敏感信息識別,可以識別到文本中是否存在身份證號、用戶電話號碼等隱私信息;對于一些二進制文件,可以識別是否是病毒或惡意軟件。
自動化審核
針對不同的用戶、不同的場景,騰訊云不僅可以提供場景化的運營策略,同時也會提供一些自動化的審核流程。
對象存儲上的審核,主要分為存量審核和增量審核,對存量數據審核,COS提供一鍵審核服務,只需控制臺配置后,后臺就會自動進行審核,審核完成后可以通過控制臺下載審核結果;增量審核服務,支持對新上傳到對象存儲的文件進行自動的異步審核服務,同時還支持對違規文件進行人工復審、自動凍結。
一般會推薦客戶采取高召回的審核策略,確保違規的文件不會泄露到外網,因高召回產生的誤判文件,會通過專業團隊進行人工復審,把誤判進行糾正,最大程度保證違規文件不泄露,同時又不誤封業務文件、影響業務發展,已經發現的違規文件,有可能在CDN環節被緩存過,COS也支持一鍵配置,對違規的文件刷新CDN節點。
高可用方案——多AZ
基于騰訊新一代超大規模云存儲引擎YottaStore,COS可提供完整的多AZ容災能力。在多AZ架構中,每個AZ都部署了存儲集群、高速緩存集群和數據處理集群,當遇到不可抗力災害時,統一調度模塊就會根據下游的異常,自動剔除不能服務的節點、AZ,通過其他的AZ能夠提供穩定可靠的服務。
高可用方案——跨園區
有一些業務,希望能提供地域級別的保障服務,COS也支持跨園區高可用方案:上傳請求通過高可用域名寫入主站,同時會異步的把數據同步到其他地域的備站,讀請求通過CDN節點回源到主站后,主站會把資源及實時處理后的資源異步寫入到異地的備站緩存中,確保主站異常,CDN去備站訪問時,備站的緩存集群有主站的熱緩存數據,能夠穩定可靠的為業務提供服務。
值得一提的是跨園區方案是全球可用的,所以在跨國場景下也可以使用這個方案,實現國內外園區間的數據同步,同時國內外CDN也可以配置不同的源站,就近回源,最大程度上提升用戶訪問速度和體驗。
最后,王淼表示,存儲是很多服務的基石,未來圍繞著存儲可以創造出無限的可能!