Fuzzywuzzy ทำงานอย่างไร?

สารบัญ:

Fuzzywuzzy ทำงานอย่างไร?
Fuzzywuzzy ทำงานอย่างไร?
Anonim

Fuzzywuzzy เป็นห้องสมุด python ที่ใช้ Levenshtein Distance เพื่อคำนวณความแตกต่างระหว่างลำดับและรูปแบบที่พัฒนาขึ้นและโอเพนซอร์สโดย SeatGeek ซึ่งเป็นบริการที่ค้นหาตั๋วงานจาก ทั่วอินเทอร์เน็ตและแสดงไว้บนแพลตฟอร์มเดียว

FuzzyWuzzy ใน Python คืออะไร

FuzzyWuzzy เป็นไลบรารี่ของ Python ซึ่ง ใช้สำหรับการจับคู่สตริง การจับคู่สตริงแบบคลุมเครือเป็นกระบวนการในการค้นหาสตริงที่ตรงกับรูปแบบที่กำหนด โดยทั่วไปจะใช้ Levenshtein Distance เพื่อคำนวณความแตกต่างระหว่างลำดับ

อัตราส่วนชุดโทเค็นใน FuzzyWuzzy คืออะไร

Token Set Ratio โดยใช้ FuzzyWuzzy

Token set Ratio ดำเนินการชุดที่นำโทเค็นทั่วไปออก แทนที่จะสร้างโทเค็นให้สตริง จัดเรียงแล้ววาง โทเค็นกลับมารวมกัน คำที่เกินหรือซ้ำกันไม่สำคัญ

ตัวอย่างการจับคู่แบบคลุมเครือคืออะไร

Fuzzy Matching (เรียกอีกอย่างว่า Approximate String Matching) เป็นเทคนิคที่ ช่วยระบุสององค์ประกอบของข้อความ สตริง หรือรายการที่ใกล้เคียงกันแต่ไม่เหมือนกันทุกประการ สำหรับ ตัวอย่างเช่น ลองใช้กรณีของรายชื่อโรงแรมในนิวยอร์กที่แสดงโดย Expedia และ Priceline ในกราฟิกด้านล่าง

Token_sort_ratio ใช้สำหรับ:-?

token_sort_ratio โทเค็นสตริงจะถูกจัดเรียงตามตัวอักษรแล้วนำมารวมกัน หลังจากนั้นก็ฟัซซี่ง่ายๆ ใช้อัตราส่วนเพื่อให้ได้เปอร์เซ็นต์ความคล้ายคลึงกัน ซึ่งจะทำให้กรณีต่างๆ เช่น คดีในศาลในตัวอย่างนี้ถูกทำเครื่องหมายว่าเหมือนกันได้

แนะนำ: