Hỏi về Reinforcement Learning

Mình đang học về Reinforcement Learning nhưng đến phần thay thế giá trị điểm, và tính điểm thì mình không hiểu ở chỗ là sẽ dùng như thế nào khi mà thay đổi trọng số của mạng?

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?