อะไรคือข้อบกพร่องของการใส่ค่าที่หายไปด้วยค่าเฉลี่ย?

สารบัญ:

อะไรคือข้อบกพร่องของการใส่ค่าที่หายไปด้วยค่าเฉลี่ย?
อะไรคือข้อบกพร่องของการใส่ค่าที่หายไปด้วยค่าเฉลี่ย?
Anonim

การใส่ความหมายเฉลี่ย บิดเบือนความสัมพันธ์ระหว่างตัวแปร แต่การใส่ค่าเฉลี่ยยังบิดเบือนความสัมพันธ์แบบพหุตัวแปรและส่งผลต่อสถิติ เช่น ความสัมพันธ์ ตัวอย่างเช่น การเรียก PROC CORR ต่อไปนี้จะคำนวณความสัมพันธ์ระหว่างตัวแปร Orig_Height กับตัวแปร Weight และ Age

ทำไมการใช้ค่าเฉลี่ยสำหรับข้อมูลที่ขาดหายไปจึงเป็นความคิดที่ไม่ดี

Mean ลดความแปรปรวนของข้อมูล การลงลึกในวิชาคณิตศาสตร์ ความแปรปรวนที่น้อยลงนำไปสู่ช่วงความมั่นใจที่แคบลงในการแจกแจงความน่าจะเป็น[3] สิ่งนี้นำไปสู่อะไรอื่นนอกจากการแนะนำอคติให้กับโมเดลของเรา

ทำไมค่าที่หายไปจึงเป็นปัญหา

ข้อมูลขาดหายนำเสนอปัญหาต่างๆ อย่างแรก การไม่มีข้อมูลจะลดพลังทางสถิติ ซึ่งหมายถึงความน่าจะเป็นที่การทดสอบจะปฏิเสธสมมติฐานว่างเมื่อมันเป็นเท็จ ประการที่สอง ข้อมูลที่สูญหายอาจทำให้เกิดอคติในการประมาณค่าพารามิเตอร์ ประการที่สาม ลดความเป็นตัวแทนของกลุ่มตัวอย่าง

เหตุใดการใส่ร้ายป้ายสีจึงไม่ดี

ปัญหา 1: ค่าเฉลี่ย การใส่แทนไม่ได้รักษาความสัมพันธ์ระหว่างตัวแปร จริง การใส่ค่ากลางจะรักษาค่าเฉลี่ยของข้อมูลที่สังเกตได้ ดังนั้นหากข้อมูลหายไปโดยสุ่ม ค่าประมาณของค่าเฉลี่ยจะยังคงเป็นกลาง

คุณควรแทนที่ข้อมูลที่ขาดหายไปด้วยค่าเฉลี่ยหรือไม่

จุดข้อมูลค่าผิดปกติจะมีผลกระทบอย่างมีนัยสำคัญต่อค่าเฉลี่ย ดังนั้น ในกรณีเช่นนี้ ไม่แนะนำให้ใช้ค่าเฉลี่ยเพื่อแทนที่ค่าที่หายไป การใช้ค่ากลางเพื่อแทนที่ค่าที่หายไปอาจไม่สร้างแบบจำลองที่ยอดเยี่ยมและถูกตัดออก