Em đang trong quá trình xây dựng datasets để training model CNN (về phân lớp ảnh các loài kiến) nhưng ảnh trên google thì lớn - thực tế thì nhỏ. Em định lấy ảnh google về crop đối tượng trong ảnh rồi resize lại 16x16 (hoặc 32x32), nhưng ảnh rất nhiều crop bằng tay không nổi.
Em thắc mắc về mạng CNN nó có tự động làm nổi bật obj qua các lần x kernel hay không ? Nếu không thì có hàm gì để phát hiện vị trí đối tượng (bouding box) sau đó crop ảnh theo cái box đó không ?
Mong anh(chị) nào biết có thể cho em ý kiến.
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?