The k-Means algorithm is not suitable for categorical data เนื่องจากตัวแปรตามหมวดหมู่จะไม่ต่อเนื่องและไม่มีที่มาจากธรรมชาติ ดังนั้นการคำนวณระยะทางแบบยุคลิดสำหรับพื้นที่ดังกล่าวจึงไม่มีความหมาย
เราใช้การจัดกลุ่มสำหรับข้อมูลหมวดหมู่ได้ไหม
ข้อมูลการจัดหมวดหมู่ได้รับการแปลงเป็นตัวเลขโดยการกำหนดค่าอันดับ มันคือชุดข้อมูลหมวดหมู่ สามารถทำคลัสเตอร์เป็นชุดข้อมูลตัวเลขได้.. สังเกตได้ว่าการใช้ตรรกะนี้ ค่าเฉลี่ย k- ให้ประสิทธิภาพเดียวกันกับที่ใช้ในชุดข้อมูลตัวเลข
หมายถึงใช้สำหรับตัวแปรหมวดหมู่ได้ไหม
ไม่มีทางค้นหาค่าเฉลี่ยจากข้อมูลนี้เพราะไม่มีสีตา "เฉลี่ย" คุณสามารถหาสัดส่วนได้ แต่หาค่าเฉลี่ยไม่ได้ หวังว่านี่จะช่วยได้!
สิ่งที่ควรใช้เมื่อข้อมูลถูกจัดหมวดหมู่
วิเคราะห์ข้อมูลตามหมวดหมู่โดยใช้ โหมดและการกระจายค่ามัธยฐาน โดยที่ข้อมูลที่ระบุจะถูกวิเคราะห์ด้วยโหมดในขณะที่ข้อมูลลำดับใช้ทั้งคู่ ในบางกรณี ข้อมูลลำดับอาจถูกวิเคราะห์โดยใช้สถิติแบบไม่แปรผัน สถิติแบบสองตัวแปร แอปพลิเคชันการถดถอย แนวโน้มเชิงเส้น และวิธีการจัดหมวดหมู่
การจัดกลุ่มด้วยแอตทริบิวต์หมวดหมู่คืออะไร
การจัดกลุ่มข้อมูลตามหมวดหมู่หมายถึงกรณีที่ วัตถุข้อมูลถูกกำหนดเหนือแอตทริบิวต์หมวดหมู่ … นั่นคือไม่มีฟังก์ชั่นการเรียงลำดับหรือระยะทางโดยธรรมชาติสำหรับค่าหมวดหมู่และ ไม่มีการแมปจากค่าหมวดหมู่เป็นค่าตัวเลขที่สมเหตุสมผล