การใส่ความหมายเฉลี่ย บิดเบือนความสัมพันธ์ระหว่างตัวแปร แต่การใส่ค่าเฉลี่ยยังบิดเบือนความสัมพันธ์แบบพหุตัวแปรและส่งผลต่อสถิติ เช่น ความสัมพันธ์ ตัวอย่างเช่น การเรียก PROC CORR ต่อไปนี้จะคำนวณความสัมพันธ์ระหว่างตัวแปร Orig_Height กับตัวแปร Weight และ Age
ทำไมการใช้ค่าเฉลี่ยสำหรับข้อมูลที่ขาดหายไปจึงเป็นความคิดที่ไม่ดี
Mean ลดความแปรปรวนของข้อมูล การลงลึกในวิชาคณิตศาสตร์ ความแปรปรวนที่น้อยลงนำไปสู่ช่วงความมั่นใจที่แคบลงในการแจกแจงความน่าจะเป็น[3] สิ่งนี้นำไปสู่อะไรอื่นนอกจากการแนะนำอคติให้กับโมเดลของเรา
ทำไมค่าที่หายไปจึงเป็นปัญหา
ข้อมูลขาดหายนำเสนอปัญหาต่างๆ อย่างแรก การไม่มีข้อมูลจะลดพลังทางสถิติ ซึ่งหมายถึงความน่าจะเป็นที่การทดสอบจะปฏิเสธสมมติฐานว่างเมื่อมันเป็นเท็จ ประการที่สอง ข้อมูลที่สูญหายอาจทำให้เกิดอคติในการประมาณค่าพารามิเตอร์ ประการที่สาม ลดความเป็นตัวแทนของกลุ่มตัวอย่าง
เหตุใดการใส่ร้ายป้ายสีจึงไม่ดี
ปัญหา 1: ค่าเฉลี่ย การใส่แทนไม่ได้รักษาความสัมพันธ์ระหว่างตัวแปร จริง การใส่ค่ากลางจะรักษาค่าเฉลี่ยของข้อมูลที่สังเกตได้ ดังนั้นหากข้อมูลหายไปโดยสุ่ม ค่าประมาณของค่าเฉลี่ยจะยังคงเป็นกลาง
คุณควรแทนที่ข้อมูลที่ขาดหายไปด้วยค่าเฉลี่ยหรือไม่
จุดข้อมูลค่าผิดปกติจะมีผลกระทบอย่างมีนัยสำคัญต่อค่าเฉลี่ย ดังนั้น ในกรณีเช่นนี้ ไม่แนะนำให้ใช้ค่าเฉลี่ยเพื่อแทนที่ค่าที่หายไป การใช้ค่ากลางเพื่อแทนที่ค่าที่หายไปอาจไม่สร้างแบบจำลองที่ยอดเยี่ยมและถูกตัดออก