ทำไมเราต้องแบ่งพาร์ติชั่นแบบ Spark?

สารบัญ:

ทำไมเราต้องแบ่งพาร์ติชั่นแบบ Spark?
ทำไมเราต้องแบ่งพาร์ติชั่นแบบ Spark?
Anonim

การแบ่งพาร์ติชันช่วย ลดจำนวนการดำเนินการ I/O ที่เร่งความเร็วการประมวลผลข้อมูลให้เหลือน้อยที่สุดอย่างมีนัยสำคัญ Spark ขึ้นอยู่กับแนวคิดของพื้นที่ข้อมูล บ่งชี้ว่าสำหรับการประมวลผล โหนดของผู้ปฏิบัติงานใช้ข้อมูลที่ใกล้เคียงกว่า ด้วยเหตุนี้ การแบ่งพาร์ติชันจะลด I/O ของเครือข่าย และการประมวลผลข้อมูลจะเร็วขึ้น

ฉันควรใช้พาร์ติชั่นแบบ Spark เมื่อใด

Spark/PySpark การแบ่งพาร์ติชั่นเป็น วิธีแบ่งข้อมูลออกเป็นหลายพาร์ติชั่น เพื่อให้คุณสามารถดำเนินการแปลงบนหลายพาร์ติชั่นพร้อมกัน ซึ่งช่วยให้งานเสร็จเร็วขึ้น คุณยังสามารถเขียนข้อมูลที่แบ่งพาร์ติชั่นลงในระบบไฟล์ (หลายไดเรกทอรีย่อย) เพื่อให้ระบบดาวน์สตรีมอ่านได้เร็วขึ้น

ทำไมเราต้องแบ่งข้อมูล

ในโซลูชันขนาดใหญ่จำนวนมาก ข้อมูลแบ่งออกเป็นพาร์ติชันที่สามารถจัดการและเข้าถึงแยกกันได้ การแบ่งพาร์ติชั่นสามารถปรับปรุงความสามารถในการปรับขนาด ลดความขัดแย้ง และเพิ่มประสิทธิภาพการทำงาน … ในบทความนี้ คำว่าการแบ่งพาร์ติชั่นหมายถึงกระบวนการของการแบ่งข้อมูลออกเป็นคลังข้อมูลแยกกัน

ฉันควรมีสปาร์คกี่พาร์ติชั่น

คำแนะนำทั่วไปสำหรับ Spark คือการมี 4x ของพาร์ติชั่นตามจำนวนคอร์ในคลัสเตอร์ที่พร้อมใช้งาน สำหรับแอปพลิเคชันและสำหรับขอบเขตบน - งานควรใช้เวลา 100ms+ ในการดำเนินการ.

spark shuffle partitions คืออะไร

สับเปลี่ยนพาร์ติชั่นคือ พาร์ติชั่นใน spark dataframe ซึ่งสร้างโดยใช้การจัดกลุ่มหรือการดำเนินการเข้าร่วม จำนวนพาร์ติชั่นในดาต้าเฟรมนี้แตกต่างจากพาร์ติชั่นดาต้าเฟรมดั้งเดิม … นี่แสดงว่ามีสองพาร์ติชั่นในดาต้าเฟรม

แนะนำ: