Chào mọi người. Đoạn code python dưới đây có vài vấn đề mình chưa hiểu lắm (chỗ bôi đậm này ). Có thể giúp mình thông não hộ ko ạ
Cần giải thích đoạn code gán list
line
là một list of strings vậy nline
cũng là list of strings.
Cảm ơn bạn đã rep. Nhưng mình vẫn chưa hiểu cái chỗ START lắm. Đó có phải là một chuỗi đầu vào phải ko nhỉ hay nó có ý nghĩa khác nhỉ ^^
Đó là từ đặc biệt dùng để đánh dấu. Nhưng mà nhân tới i
từ thì hơi bị thừa
VD:
<START> four scores and twenty years ago <END>
<START> four
đã nằm trong dict thì /(<START>)+ four/
cũng đâu có ý nghĩa gì nữa.
Vả lại nên gói từ vào tuple vì tuple hash được ko phải chỉ có string mới hash được.
Cảm ơn bạn nhưng mình vẫn còn nhìu khúc mắc. Liệu mình có thể ib riêng hỏi đc ko nhỉ ^^
Những n-gram ở đầu hay cuối (dòng) có tính chất khá đặc biệt nên phải ghi nhận đầu cuối luôn.
bạn có thể cho mình xin ít info để liên lạc cho dễ đc ko ạ. Có nhiều vấn đề mà mình vẫn cần trao đổi nhưng post thì nhiều và dài quá …