Mecanwaith glanhau data Spark Streaming
(I) DStream ac RDD
Fel y gwyddom, mae cyfrifiad Spark Streaming yn seiliedig ar Spark Core, a chraidd Spark Core yw RDD, felly mae'n rhaid i Spark Streaming fod yn gysylltiedig ag RDD hefyd. Fodd bynnag, nid yw Spark Streaming yn gadael i ddefnyddwyr ddefnyddio RDD yn uniongyrchol, ond mae'n crynhoi set o gysyniadau DStream, mae DStream ac RDD yn berthnasoedd cynhwysol, gallwch ei ddeall fel y patrwm addurno yn Java, hynny yw, mae DStream yn welliant o RDD, ond mae'r ymddygiad yn debyg i RDD.
Mae gan DStream ac RDD sawl cyflwr.
(1) sydd â gweithredoedd trawsnewid tebyg, fel map, reduceByKey, ac ati, ond hefyd rhai unigryw, fel Window, mapWithStated, ac ati.
(2) mae gan bob un gamau Gweithredu, fel foreachRDD, count, ac ati.
Mae'r model rhaglennu yn gyson.
(B) Cyflwyniad DStream yn Spark Streaming
Mae DStream yn cynnwys sawl dosbarth.
(1) Dosbarthiadau ffynhonnell ddata, fel InputDStream, penodol fel DirectKafkaInputStream, ac ati.
(2) Dosbarthiadau trosi, fel arfer MappedDStream, ShuffledDStream
(3) dosbarthiadau allbwn, fel arfer fel ForEachDStream
O'r uchod, mae'r data o'r dechrau (mewnbwn) i'r diwedd (allbwn) yn cael ei wneud gan y system DStream, sy'n golygu na all y defnyddiwr fel arfer gynhyrchu a thrin RDDs yn uniongyrchol, sy'n golygu bod gan y DStream y cyfle a'r rhwymedigaeth i fod yn gyfrifol am gylchred bywyd RDDs.
Mewn geiriau eraill, mae gan Spark Streamingglanhau awtomatigswyddogaeth.
(iii) Y broses o gynhyrchu RDD mewn Spark Streaming
Mae llif bywyd RDDs yn Spark Streaming yn fras fel a ganlyn.
(1) Yn InputDStream, mae'r data a dderbynnir yn cael ei drawsnewid yn RDD, fel DirectKafkaInputStream, sy'n cynhyrchu KafkaRDD.
(2) yna trwy MappedDStream a throsi data arall, gelwir yr amser hwn yn uniongyrchol yn RDD sy'n cyfateb i'r dull map ar gyfer trosi
(3) Yn y gweithrediad dosbarth allbwn, dim ond pan fydd yr RDD wedi'i ddatgelu, y gallwch adael i'r defnyddiwr gyflawni'r storfa gyfatebol, cyfrifiadau eraill, a gweithrediadau eraill.