Hỏi về thuật toán nhận dạng và xử lý ảnh tài liệu

Duc_Manh_Pham · July 9, 2024, 9:01am

Em đang sử dụng tính năng sau của MLKit (Google) để quét và nhận dạng tài liệu:
ML Kit | Google for Developers
Tuy nhiên nó thiếu sự tùy biến về giao diện Camera, chọn ảnh và thiếu hỗ trợ trên IOS.
Nên em tìm hiểu và muốn làm chức năng tương tự và phù hợp hơn với nhu cầu của mình.

Dưới đây là một số dữ liệu mẫu, với ảnh bên trái là đầu vào, và bên phải là đầu ra đúng theo kỳ vọng

Do nền tảng về AI chưa nhiều nên em khó khăn trong việc phân tích các bước cần làm, thuật toán liên quan có thể hỗ trợ.
Các bước xử lý của thư viện theo cá nhân nhận định:

Nhận diện các góc (Corner detection)
Cắt ảnh theo những góc đã nhận diện
Perspective Transformation
Tự động loại bỏ các vết bẩn, tự động xoay và lọc màu

Ở bước 3 & 4 em chưa biết nên dùng những thuật toán nào, những bước nào cho hiệu quả đối với loại đối tượng là tài liệu.

Kính mong được mọi người giải thích và gợi ý thêm.
Chân thành cảm ơn

superthin · July 9, 2024, 7:57am

Quét scan, xử lý ảnh và nhận diện OCR là 2 khâu khác nhau. Chỉ những cái đơn giản như nhận diện bảng hiệu để dịch nhanh cụm từ/ câu ngắn mới 2 cái đó chung vào (thực ra đều là 2 khâu, chỉ là trong app họ tích hợp nên người dùng không nhìn với mắt dân trong nghề thì không thấy đó là 2 việc). Còn thì trong trường hợp nhận diện văn bản, người ta sẽ dùng máy quét chuyên dụng, phần mềm xử lý ảnh để làm sạch, tinh chỉnh rồi mới chuyển qua cho phần mềm nhận diện.

Bạn đang định giải quyết khâu nào trong 2 khâu mình vừa nói? Đừng mong MLKit giải quyết cả 2 việc đó cùng lúc cho bạn, nó làm được thì nó quá thần thánh.

Thực sự thì khâu scan (sử dụng phân mềm đi kèm thiết bị là chính) và làm sạch (dùng phần mềm xử lý ảnh như Photoshop hoặc có chức năng tương đương), tinh chỉnh tài liệu đa phần người ta vẫn còn làm thủ công, nhất là trong những loại văn bản cũ vì để đào tạo AI làm được việc đó tốn kém mà chưa chắc áp dụng được cho tình huống mới bởi vì không đoán biết được nếu không có kho ảnh có sẵn mà là việc scan vào để chuyển dạng, không phải mục đích đào tạo AI.

TaoLaoBidaoBanBanhBa · July 9, 2024, 8:38am

Bạn lên google và search theo keywords:
auto-detect document edges in an image and crop github

Có nhiều project từ lớn tớn nhỏ để tìm hiểu

Duc_Manh_Pham · July 9, 2024, 9:00am

Em chỉ tạo ứng dụng máy quét tài liệu rồi chuyển sang PDF thôi ạ, làm phẳng, mịn, lọc màu để cho chữ nổi bật lên. Không áp dụng OCR.

Nhận diện
Tự động Cắt và làm mịn, lọc màu, xoay

baoo · July 10, 2024, 10:15am

Case này thì cứ dùng api của ABBYY, muốn free thì dùng app rồi dùng thêm framework automation test để auto click app chạy hàng loạt, dựng thêm con server.