Thuật toán YOLO

Chào anh(chị),
Em vừa học xong week 3 - khóa CNN của Andrew Ng. Em có thắc mắc về thuật toán YOLO, dù có replay bài giảng cũng như search google vẫn cảm thấy không thỏa mãn lắm.
Theo em hiểu, thuật toán sẽ chia hình ảnh thành SxS grid, với từng grid cell nó sẽ dùng B bounding boxes để bao trùm lên object. Training qua 2 lớp fully connected ở cuối.
Nhưng em không hiểu tại sao lại làm như v và cách nó thể dự đoán trên 1 tấm ảnh test sẽ như thế nào, ngộ nhỡ số lượng object trong 1 grid cell > B thì sao. Và tại sao lúc cập nhật trên fully connected layers cuối thì nó có thể scale các bounding boxes để fit với object.
Vì là người mới mong nhận được sự giúp đỡ từ mọi người, hoặc link 1 bài viết có giải thích những gì em thắc mắc. Em xin cảm ơn.

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?