Tách từ bằng Python: "Trợ lý Bất động sản" ->"Trợ lý", "Bất động sản"

Em đang xử lí tiếng Việt và đến phần ngành nghề. Nó dính vào nhau như tiêu đề và có hàm nào tách được không ạ. Em đã thử split(’ ') nhưng không biết cách nào tách được ạ
"Trợ lý Bất động sản"
thành
"Trợ lý", "Bất động sản"

Vậy thì bạn có tập các ngành nghề chưa? Nếu có rồi thì có thể dùng re.split.

4 Likes

Em có rồi ạ. tầm 2000 dòng. Trông nó kiểu này ạ
Nó là Hành chính / Thư ký / Trợ lý Hành chính văn phòng thì em split(’/’) xong nó ra như này "Hành chính","Thư Ký","Trợ lý Hành chính văn phòng" và em muốn xử lí cái thằng "Trợ lý Hành chính văn phòng

image

Vậy thì “Trợ lý” cũng phải nằm trong tập nghề nghiệp chứ nhỉ :thinking: Mình vẫn chưa hiểu rõ về tập Occupations của bạn.

2 Likes

dạ ý em nó là như này ạ
em có 1 ô excel, trong ô đó có chứa nhiều ngành nghề kiểu như này ạ:
Trợ lý Hành chính văn phòng Bất động sản
Nếu nhìn bằng mắt thì nó có 3 ngành, đó là Trợ lý, Hành chính văn phòngBất động sản
Em muốn tách nó ra bởi cái từ mà có chữ in hoa ấy ạ

Nếu chỉ là tách theo chữ in hoa thì quá đơn giản, dùng Regex là đủ.

>>> re.split(r" (?=[A-Z])", "Trợ lý Hành chính văn phòng Bất động sản")
['Trợ lý', 'Hành chính văn phòng', 'Bất động sản']

Thêm kí tự tiếng Việt:

>>> re.split(r" (?=[A-ZAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴ]", ...)
9 Likes

hay quá em cám ơn a nhá ^^
thả tym :V :heart_eyes:

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?