這篇文章主要介紹flink中有界數據與無界數據的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
有界數據集
有界數據集對開發者來說都很熟悉,在常規的處理中我們都會從mysql,文本等獲取數據進行計算分析。我們在處理此類數據時,特點就是數據是靜止不動的。也就是說,沒有再進行追加。又或者說再處理的當時時刻不考慮追加寫入操作。所以有界數據集又或者說是有時間邊界。在某個時間內的結果進行計算。那么這種計算稱之為批計算,批處理。batch processing
例如:計算當前訂單量。又或者是把當前mysql的數據讀取到文件中等。
無界數據集
對于某些場景,類似于kafka持續的計算等都被認定為無界數據集,無界數據集是會發生持續變更的、連續追加的。例如:服務器信令、網絡傳輸流、實時日志信息等。對于此類持續變更、追加的數據的計算方式稱之為流計算。streaming processing
場景比較
無界數據集與有界數據集有點類似于池塘和江河,我們在計算池塘中的魚的數量時只需要把池塘中當前所有的魚都計算一次就可以了。那么當前時刻,池塘中有多少條魚就是結果。無界數據集類似于江河中的魚,在奔流到海的過程中每時每刻都會有魚流過而進入大海。那么計算魚的數量就像是持續追加的。
有界數據集與無界數據集是一個相對模糊的概念,如果數據一條一條的經過處理引擎那么則可以認為是無界的,那么如果每間隔一分鐘、一小時、一天進行一次計算那么則認為這一段時間的數據又相對是有界的。有界的數據又可以把數據一條一條的通過計算引擎,造成無界的數據集。所以,有界數據集與無界數據集可以存在互換的。因此業內也就開始追尋 批流統一 的框架。
能夠同時實現批處理與流處理的框架有apache spark和apache flink,而apache spark的流處理場景是一個微批場景,也就是它會在特定的時間間隔發起一次計算。而不是每條都會觸發計算。也就是相當于把無界數據集切分為小量的有界數據。
apache flink基于有界數據集與無界數據集的特點,最終將批處理與流處理混合到同一套引擎當中,用戶使用apache flink引擎能夠同時實現批處理與流處理任務。
以上是“flink中有界數據與無界數據的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注資訊頻道!
注冊域名可以保留多久 域名購買最多可以多少年深圳定制網站建設怎么做 建站虛擬主機選怎樣的域名交易要注意哪些事項?域名交易怎么進行?43891企業采購云服務器劃算bgp云服務器租用費用是多少域名搶注持續升溫,我們該如何看待域名搶注?企業云服務器優惠推薦云服務器怎么刪除快照