Khai thác dữ liệu: Tại sao dữ liệu thu thập được trong thực tế thường có chất lượng xấu

Mình có câu hỏi như tiêu đề ạ.
Dữ liệu có thể bị thiếu, bị nhiễu, mâu thuẫn…
Mình nghĩ có thể là do đối tượng cung cấp dữ liệu một cách chủ quan (VD sinh viên cung cấp data trong các ngày hội việc làm).

Do chủ quan hoặc khách quan. Do máy tính thu thập sai, các cảm biến sai hoặc do cố tình sai.

2 Likes

Theo mình nghĩ thì khi khai thác dữ liệu, đối tượng mình thu thập có 2 xu hướng:

  1. Thổi phồng dữ liệu có lợi.
  2. Hạn chế kê khai những dữ liệu gây ảnh hưởng không tích cực về nhiều mặt.
    Cơ bản máy tính chỉ làm những gì con người ra lệnh nó mà thôi, không liên quan nhiều.
    Nhưng mình không hiểu lắm “chất lượng xấu” cụ thể là xấu về cái gì, sai sự thật hay thế nào.
2 Likes

Đơn giản , Dữ liệu thường có chất lượng xấu là vì

  • Ở mỗi chi nhánh có cách nhập dữ liệu khác nhau.
  • Trình độ , tư duy của người nhập liệu khác nhau.
2 Likes

Có thể do mô tả khó tiếp cận, không có ràng buột pháp lý…

1 Like

Vâng!
Cảm ơn mọi người nhiều lắm

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?