เป็นเทคนิคการทำเหมืองข้อมูลที่แปลงข้อมูลดิบให้อยู่ในรูปแบบที่เข้าใจได้ ข้อมูลดิบ (ข้อมูลในโลกแห่งความเป็นจริง) จะไม่สมบูรณ์เสมอ และข้อมูลนั้นไม่สามารถส่งข้อมูลผ่านแบบจำลองได้ ที่จะทำให้เกิดข้อผิดพลาดบางอย่าง นั่นคือเหตุผลที่เราต้องประมวลผลข้อมูลล่วงหน้าก่อน ส่งผ่านโมเดล
ทำไมเราต้องประมวลผลข้อมูลล่วงหน้า
เป็น เทคนิคการทำเหมืองข้อมูลที่แปลงข้อมูลดิบให้อยู่ในรูปแบบที่เข้าใจได้ ข้อมูลดิบ (ข้อมูลในโลกแห่งความเป็นจริง) ไม่สมบูรณ์เสมอ และข้อมูลนั้นไม่สามารถส่งข้อมูลผ่านแบบจำลองได้ ที่จะทำให้เกิดข้อผิดพลาดบางอย่าง นั่นคือเหตุผลที่เราต้องประมวลผลข้อมูลล่วงหน้าก่อนที่จะส่งผ่านโมเดล
ฉันควรประมวลผลข้อมูลการทดสอบล่วงหน้าหรือไม่
สาระสำคัญพื้นฐานของสิ่งนี้คือ: คุณไม่ควรใช้วิธีการประมวลผลล่วงหน้าที่ติดตั้ง ในชุดข้อมูลทั้งหมด เพื่อแปลงข้อมูลการทดสอบหรือฝึกอบรม หากทำเช่นนั้น แสดงว่าคุณกำลังนำข้อมูลจากรถไฟที่มุ่งหน้าไปยังชุดทดสอบโดยไม่ได้ตั้งใจ
ปัญหาข้อมูลรั่วไหลคืออะไร
การรั่วไหลของข้อมูลคือ การส่งข้อมูลโดยไม่ได้รับอนุญาตจากภายในองค์กรไปยังปลายทางหรือผู้รับภายนอก … การรั่วไหลของข้อมูลหรือที่เรียกว่าการขโมยข้อมูลต่ำและช้านั้นเป็นปัญหาใหญ่ เพื่อความปลอดภัยของข้อมูล และความเสียหายที่เกิดกับองค์กรใด ๆ โดยไม่คำนึงถึงขนาดหรืออุตสาหกรรม อาจร้ายแรง
คุณแปลงข้อมูลทดสอบอย่างไร
transform จะเปลี่ยนฟีเจอร์ทั้งหมดโดย ลบค่าเฉลี่ยแล้วหารด้วยความแปรปรวน เพื่อความสะดวก เรียกใช้ฟังก์ชันทั้งสองนี้ในขั้นตอนเดียวโดยใช้ fit_transform