Logo th.boatexistence.com

การวนซ้ำของมูลค่ามาบรรจบกันเสมอหรือไม่?

สารบัญ:

การวนซ้ำของมูลค่ามาบรรจบกันเสมอหรือไม่?
การวนซ้ำของมูลค่ามาบรรจบกันเสมอหรือไม่?
Anonim

เช่นเดียวกับการประเมินนโยบาย การวนซ้ำค่าอย่างเป็นทางการ ต้องมีการวนซ้ำเป็นอนันต์เพื่อมาบรรจบกัน ในทางปฏิบัติ เราจะหยุดเมื่อฟังก์ชันค่าเปลี่ยนแปลงเพียงเล็กน้อยในการกวาด … อัลกอริธึมเหล่านี้ทั้งหมดมาบรรจบกับนโยบายที่เหมาะสมที่สุดสำหรับ MDP ที่มีราคาจำกัดที่มีส่วนลด

การวนซ้ำค่าเป็นตัวกำหนดหรือไม่

กระนั้น การวนซ้ำค่าคือ การวางนัยทั่วไปที่ตรงไปตรงมาของกรณีที่กำหนดขึ้นเอง มันอาจจะแข็งแกร่งกว่าในปัญหาแบบไดนามิก สำหรับความไม่แน่นอนที่สูงขึ้น หรือการสุ่มที่รุนแรง หากไม่มีการเปลี่ยนแปลงนโยบาย ให้คืนเป็นนโยบายที่เหมาะสม ELSE ไปที่ 1.

การวนซ้ำค่าเหมาะสมหรือไม่

3 วนซ้ำค่า. การวนซ้ำค่าคือ วิธีการคำนวณนโยบาย MDP ที่เหมาะสมและมูลค่าของมันการบันทึกอาร์เรย์ V ส่งผลให้พื้นที่จัดเก็บน้อยลง แต่เป็นการยากที่จะระบุการดำเนินการที่เหมาะสมที่สุด และจำเป็นต้องมีการวนซ้ำอีกครั้งหนึ่งเพื่อกำหนดว่าการดำเนินการใดส่งผลให้มีค่ามากที่สุด …

การทำซ้ำนโยบายและการวนซ้ำมูลค่าต่างกันอย่างไร

ในการทำซ้ำนโยบาย เราเริ่มต้นด้วยนโยบายคงที่ ในทางกลับกัน ในการวนซ้ำค่า เราเริ่มต้นด้วยการเลือกฟังก์ชันค่า ในอัลกอริธึมทั้งสอง เรา ปรับปรุงซ้ำๆ จนกว่าจะถึงจุดบรรจบกัน.

ค่าการวนซ้ำคืออะไร

โดยพื้นฐานแล้ว อัลกอริธึม Value Iteration คำนวณฟังก์ชันค่าสถานะที่เหมาะสมที่สุดโดยการปรับปรุงค่าประมาณของ V ซ้ำๆ อัลกอริธึมเริ่มต้น V(s) ให้เป็นค่าสุ่มโดยพลการ มันอัปเดตค่า Q(s, a) และ V(s) ซ้ำๆ จนกว่าจะมาบรรจบกัน