Mình đang học về Reinforcement Learning nhưng đến phần thay thế giá trị điểm, và tính điểm thì mình không hiểu ở chỗ là sẽ dùng như thế nào khi mà thay đổi trọng số của mạng?
Mình đang học về Reinforcement Learning nhưng đến phần thay thế giá trị điểm, và tính điểm thì mình không hiểu ở chỗ là sẽ dùng như thế nào khi mà thay đổi trọng số của mạng?