สาเหตุที่พบบ่อยที่สุดของค่าผิดปกติในชุดข้อมูล: ข้อผิดพลาดในการวัด (ข้อผิดพลาดของอุปกรณ์) ข้อผิดพลาดในการทดลอง (ข้อผิดพลาดในการดึงข้อมูลหรือการวางแผนการทดลอง/ข้อผิดพลาดในการดำเนินการ) เจตนา (ค่าผิดปกติจำลองที่สร้างขึ้นเพื่อทดสอบ วิธีการตรวจจับ) ข้อผิดพลาดในการประมวลผลข้อมูล (การจัดการข้อมูลหรือการกลายพันธุ์ของชุดข้อมูลโดยไม่ได้ตั้งใจ)
อะไรคือสาเหตุที่เป็นไปได้สำหรับค่าผิดปกติ
มีสาเหตุสามประการสำหรับค่าผิดปกติ - ป้อนข้อมูล/ข้อผิดพลาดในการวัดการทดสอบ ปัญหาการสุ่มตัวอย่าง และรูปแบบตามธรรมชาติ อาจเกิดข้อผิดพลาดขณะทดลอง/ป้อนข้อมูล ในระหว่างการป้อนข้อมูล การพิมพ์ผิดอาจพิมพ์ค่าที่ไม่ถูกต้องโดยไม่ได้ตั้งใจ
สิ่งใดได้รับผลกระทบจากค่าผิดปกติมากที่สุด
Mean ค่ามัธยฐานและโหมดคือการวัดแนวโน้มจากส่วนกลาง ค่าเฉลี่ยเป็นเพียงตัวชี้วัดแนวโน้มศูนย์กลางที่ได้รับผลกระทบจากค่าผิดปกติเสมอ ค่าเฉลี่ย เป็นตัวชี้วัดที่นิยมมากที่สุดของแนวโน้มจากส่วนกลาง
ช่วงที่ค่าผิดปกติได้รับผลกระทบมากที่สุดหรือไม่
ดังนั้นถ้าเรามีชุดของ {52, 54, 56, 58, 60} เราได้รับ r=60−52=8 ดังนั้นช่วงคือ 8 จากที่เรารู้ตอนนี้มันถูกต้อง บอกว่า outlier จะส่งผลต่อการวิ่งมากที่สุด.
ควรลบค่าผิดปกติออกจากข้อมูลหรือไม่
การนำค่าผิดปกติออกคือ ถูกกฎหมายด้วยเหตุผลเฉพาะเท่านั้น ค่าผิดปกติสามารถให้ข้อมูลเกี่ยวกับหัวข้อเรื่องและกระบวนการรวบรวมข้อมูลได้เป็นอย่างดี … Outliers เพิ่มความแปรปรวนในข้อมูลของคุณ ซึ่งจะลดพลังทางสถิติ ดังนั้น การยกเว้นค่าผิดปกติอาจทำให้ผลลัพธ์ของคุณมีนัยสำคัญทางสถิติ