Mecanwaith glanhau data Spark Streaming
(I) DSstream ac RDD
Fel y gwyddom, mae cyfrifiant Spark Streaming yn seiliedig ar Spark Core, a chraidd Spark Core yw RDD, felly mae'n rhaid i Spark Streaming fod yn gysylltiedig ag RDD hefyd.Fodd bynnag, nid yw Spark Streaming yn gadael i ddefnyddwyr ddefnyddio RDD yn uniongyrchol, ond mae'n crynhoi set o gysyniadau DStream, mae DStream ac RDD yn berthnasoedd cynhwysol, gallwch ei ddeall fel y patrwm addurno yn Java, hynny yw, mae DStream yn welliant o RDD, ond mae'r ymddygiad yn debyg i RDD.
Mae gan Dstream ac RDD sawl cyflwr.
(1) â gweithredoedd trawsnewid tebyg, megis map, reduceByKey, ac ati, ond hefyd rhai unigryw, megis Window, mapWithStated, ac ati.
(2) mae gan bob un ohonynt gamau Gweithredu, megis foreachRDD, cyfrif, ac ati.
Mae'r model rhaglennu yn gyson.
(B) Cyflwyno DSstream yn Spark Streaming
Mae DSstream yn cynnwys nifer o ddosbarthiadau.
(1) Dosbarthiadau ffynhonnell data, megis InputDStream, yn benodol fel DirectKafkaInputStream, ac ati.
(2) Dosbarthiadau trosi, yn nodweddiadol MappedDSstream, ShuffledDSstream
(3) dosbarthiadau allbwn, fel arfer fel ForEachDSstream
O'r uchod, mae'r data o'r dechrau (mewnbwn) i'r diwedd (allbwn) yn cael ei wneud gan y system DStream, sy'n golygu na all y defnyddiwr gynhyrchu a thrin RDDs yn uniongyrchol, sy'n golygu bod gan y DStream y cyfle a'r rhwymedigaeth i fod yn gyfrifol am gylch bywyd RDDs.
Mewn geiriau eraill, mae gan Spark Streaming anglanhau awtomatigswyddogaeth.
(iii) Y broses o gynhyrchu RDD yn Spark Streaming
Mae llif bywyd RDDs yn Spark Streaming yn arw fel a ganlyn.
(1) Yn InputDStream, mae'r data a dderbynnir yn cael ei drawsnewid yn RDD, fel DirectKafkaInputStream, sy'n cynhyrchu KafkaRDD.
(2) yna trwy MappedDStream a throsi data arall, gelwir yr amser hwn yn uniongyrchol RDD sy'n cyfateb i'r dull map ar gyfer trosi
(3) Yn y gweithrediad dosbarth allbwn, dim ond pan fydd yr RDD yn agored, gallwch chi adael i'r defnyddiwr berfformio'r storfa gyfatebol, cyfrifiadau eraill, a gweithrediadau eraill.