Đọc file word (*.docx) trong Python 3

Chào mọi người.
Em đang làm một dự án về xử lí file *.docx nhưng em gặp một vấn đề như sau mong mọi người giải đáp giúp ạ.
Em muốn tìm cách để lấy hình ảnh và bảng từ một file word và cho vào một file word khác với đúng tỉ lệ và cách căn chình như trong file cũ. Mọi người có thể chỉ giúp e phương pháp được không ạ.
Cảm ơn mọi người nhiều

Theo mình nghĩ nó là file có cấu trúc ko phải file text bình thường, vì vậy bạn cần đọc tài liệu về cấu trúc file docx, nhất là phần header.

Bạn dùng Word API nào :smiley:

Ý bác là sao ạ? Em không hiểu lắm nhưng e dùng python-docx để xử lí file docx ạ. Bác có thể giải thích rõ hơn giúp em được không?

Cảm ơn bác. Em sẽ tìm hiểu thêm

python-docx hỗ trợ tạo và cập nhật tập tin docx. Khá là giới hạn.
Không có những phương thức trực tiếp hỗ trợ lấy thông tin.
Nhưng bạn có thể “đào sâu” và tham khảo:

Hoặc bạn tự đọc và giải mã nội dung (nén) của docx và lấy những gì bạn cần.

2 Likes

Rất cảm ơn sự giúp đỡ của bác

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?