ክፍልፍል የመረጃ ሂደትን የሚያፋጥኑ የI/O ስራዎችን መጠን በእጅጉ ለመቀነስ ይረዳል ስፓርክ በመረጃ አካባቢ ሀሳብ ላይ የተመሰረተ ነው። ለማቀናበር የሰራተኛ አንጓዎች ወደ እነርሱ የቀረበ መረጃን እንደሚጠቀሙ ይጠቁማል። በውጤቱም፣ መከፋፈል የአውታረ መረብ I/Oን ይቀንሳል፣ እና የውሂብ ሂደት ፈጣን ይሆናል።
መቼ ነው ክፍልፋይን በስፓርክ መጠቀም ያለብኝ?
Spark/PySpark ክፍልፍል ውሂቡን ወደ ብዙ ክፍልፍል ለመከፋፈልመንገድ ነው በዚህም በበርካታ ክፍልፋዮች ላይ ለውጦችን በትይዩ ማከናወን እንዲችሉ ይህም ስራውን በፍጥነት እንዲያጠናቅቅ ያስችላል። እንዲሁም የተከፋፈለ ውሂብ ወደ የፋይል ስርዓት (በርካታ ንኡስ ማውጫዎች) በስርአቶች ፈጣን ንባብ መጻፍ ትችላለህ።
ለምንድነው ውሂብ መከፋፈል ያስፈልገናል?
በብዙ መጠነ-ሰፊ መፍትሄዎች ውሂቡ ወደ ክፍልፋዮች ተከፋፍሏል ማስተዳደር እና ለየብቻ መድረስ። መከፋፈል ልኬቱን ያሻሽላል፣ ክርክርን ይቀንሳል እና አፈፃፀሙን ያሳድጋል… በዚህ ጽሁፍ ውስጥ ክፍፍል የሚለው ቃል መረጃን በአካል ወደ ተለየ የውሂብ ማከማቻ የመከፋፈል ሂደት ማለት ነው።
ስንት ክፍልፋዮች ብልጭታ ሊኖረኝ ይገባል?
የስፓርክ አጠቃላይ ምክር 4x ክፍልፍሎች በክላስተር ውስጥ ካሉት ኮሮች ቁጥር እንዲኖሩት እንዲኖር እና ለላይኛው ወሰን - ተግባሩ ለመፈፀም 100ms+ ጊዜ ይወስዳል።.
ስፓርክ ሹፍል ክፍልፍሎች ምንድን ነው?
የሹፍል ክፍልፋዮች በብልጭታ የውሂብ ፍሬም ክፍልፋዮች ናቸው፣ እነዚህም የተሰባሰቡ ወይም የተቀላቀሉ ክዋኔዎችን በመጠቀም ነው። በዚህ የውሂብ ፍሬም ውስጥ ያሉት የክፍሎች ብዛት ከዋናው የውሂብ ፍሬም ክፍልፋዮች የተለየ ነው። … ይህ የሚያሳየው በመረጃ ቋቱ ውስጥ ሁለት ክፍልፍሎች እንዳሉ ነው።