Thiết kế reward cho agent

Thầy có cho bài tập là “Thiết kế reward system cho agent tìm đường thoát khỏi mê cung” . E có nghĩ là khi agent di chuyển trong mê cung thì sẽ bị trừ 1d , khi thoát khỏi mê cung sẽ là 0d . Nhưng thầy yêu cầu tìm reward khác tốt hơn cái reward hồi nãy . Tiền bối nào biết thì chỉ giáo e với ạ . E xin cám ơn

+10 khi thoát khỏi mê cung, 0 khi chuyển trong mê cung, -5 khi đi vào ngõ cụt

2 Likes

anh có thể giải thích cho em 1 tí là tại sao nó lại tốt hơn cái reward ban đầu không ạ

Thoát khỏi mê cung không cộng điểm, đứng yên cũng không bị trừ điểm, di chuyển thì lại bị trừ điểm vậy agent sẽ đứng yên :slight_smile:
ps: mình cũng đang học nên trên đây chỉ là suy nghỉ của mình

4 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?