Em đang xử lí tiếng Việt và đến phần ngành nghề. Nó dính vào nhau như tiêu đề và có hàm nào tách được không ạ. Em đã thử split(’ ') nhưng không biết cách nào tách được ạ
"Trợ lý Bất động sản"
thành
"Trợ lý", "Bất động sản"
Tách từ bằng Python: "Trợ lý Bất động sản" ->"Trợ lý", "Bất động sản"
Vậy thì bạn có tập các ngành nghề chưa? Nếu có rồi thì có thể dùng re.split.
Em có rồi ạ. tầm 2000 dòng. Trông nó kiểu này ạ
Nó là Hành chính / Thư ký / Trợ lý Hành chính văn phòng
thì em split(’/’) xong nó ra như này "Hành chính","Thư Ký","Trợ lý Hành chính văn phòng"
và em muốn xử lí cái thằng "Trợ lý Hành chính văn phòng
ạ
Vậy thì “Trợ lý” cũng phải nằm trong tập nghề nghiệp chứ nhỉ Mình vẫn chưa hiểu rõ về tập Occupations của bạn.
dạ ý em nó là như này ạ
em có 1 ô excel, trong ô đó có chứa nhiều ngành nghề kiểu như này ạ:
Trợ lý Hành chính văn phòng Bất động sản
Nếu nhìn bằng mắt thì nó có 3 ngành, đó là Trợ lý
, Hành chính văn phòng
và Bất động sản
Em muốn tách nó ra bởi cái từ mà có chữ in hoa ấy ạ
Nếu chỉ là tách theo chữ in hoa thì quá đơn giản, dùng Regex là đủ.
>>> re.split(r" (?=[A-Z])", "Trợ lý Hành chính văn phòng Bất động sản")
['Trợ lý', 'Hành chính văn phòng', 'Bất động sản']
Thêm kí tự tiếng Việt:
>>> re.split(r" (?=[A-ZAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴAĂÂÁẮẤÀẰẦẢẲẨÃẴẪẠẶẬĐEÊÉẾÈỀẺỂẼỄẸỆIÍÌỈĨỊOÔƠÓỐỚÒỒỜỎỔỞÕỖỠỌỘỢUƯÚỨÙỪỦỬŨỮỤỰYÝỲỶỸỴ]", ...)
hay quá em cám ơn a nhá ^^
thả tym :V