Xử lý dữ liệu dạng text


Hi mọi người ạ,
Em hiện đang làm một bài toán hồi quy để đánh giá tác động của các nhân tố lên giá bất động sản. Hiện tại em có bộ dữ liệu thô như thế này cần xử lý, em muốn có các thông tin của các biến là: diện tích đất, diện tích nhà, vị trí, khoảng cách đến mặt trung tâm thành phố,… được lấy ở cột nội dung như trong hình.
Nếu thực hiện trong Python để xử lý dạng text thì cần import thư viện nào ạ? Để giải quyết được vấn đề này có nhất thiết sử dụng kỹ thuật text mining không ạ?
Mọi người có thể gợi ý cho em một vài cách hướng dẫn em được không ạ? Em cảm ơn mọi người nhiều ạ!

Mình không biết về Python nên không tư vấn cách tiếp cận thiên về Python được, mà chỉ chia sẻ cách tiếp cận này là bạn sử dụng một bảng điểm như chấm điểm học sinh.

Mỗi yếu tố bạn liệt kê trên tương ứng với số điểm cụ thể, nếu có A thì được n điểm, B thì x điểm, A + C thì bằng z điểm. Sau đó cộng điểm lại với nhau là ổn.

Nếu không hiểu mình nói thì bạn tham khảo cách người ta đánh giá khách sạn tương đương chuẩn mấy sao là sẽ biết cách làm.

Còn nếu bạn phải bóc tách dữ liệu kiểu đọc từ khóa và hiểu trong đó nói gì thì khó, lúc này có thể sẽ phải áp dụng trí tuệ nhân tạo/ máy học để có thể chấm điểm chính xác hơn bằng cách hiểu được đoạn văn nói gì thay vì chỉ rút trích từ khóa và đếm thô. Vậy, tức là NLP rồi.

3 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?