Tớ có cái vấn đề thế này.
VD: cho mẫu news
" He continued, “So you have to, if you are Russia, ask yourself: Is this a country and a regime that you want to align yourself with?”
The White House charged Tuesday that Russia had sought to cover up the Syrian government’s role in the chemical attack."
Mình xóa hết mọi kí tự khác [^A-aZ-z0-9’\n\s]
Sau đó dựa vào dấu cách (\s) để phân tách (split) các từ ra thành một ArrayList
Sau đó mình dựa xóa các stopword vd: ('d, 's, 've, the, a, an, am, is, are…)
Nhưng mà lúc lập trình thuật toán xóa stopword tớ mới gặp vấn đề thế này
- nếu tách ra thành từng từ và so sánh xem nó có bằng stopword không. Ví dụ như từ would’d, thì làm sao so sánh được nó với 'd để mà xóa 'd đi.
- Nếu dùng cách xem thử có stopword có trong từ không. Thì ví dụ như từ Hang nó sẽ có an và rồi xóa nó đi thì sẽ thành Hg và rồi sẽ bị sai.
Có cách nào giải quyết nó được không mọi người?