Nổ não: ấ
là một kí tự gồm 2 code point đại diện cho â
và dấu sắc
Hiển thị kí tự tiếng Việt chính xác mà không hiển thị mã Unicode
Ờ, bỏ rồi!
Nếu xem trong Unikey, bạn sẽ thấy danh sách các Bảng mã, trong đó có:
- Unicode dựng sẵn. Thông dụng nhất, chuẩn hiện nay.
- Unicode tổ hợp. Cái UCS-2 này đây.
- Không nhớ tên, khi gõ sẽ hiện kiểu
\xhh
hay\uhhhh
gì đấy. - Vài bảng mã cũ khác (từ thời chưa hỗ trợ Unicode).
Theo trí nhớ!
cái này là tổ hợp :V Combining character gì ấy, 1 cái hại não nữa của Unicode. 1 glyph có thể được ghép lại từ nhiều combining characters :V Do tiếng Việt số glyph hạn chế nên người ta gán code points luôn cho mấy chữ tiếng Việt, nhưng vẫn xài glyph ghép được :V
ghép 1 dấu sắc đã là gì :V :V https://lingojam.com/ZalgoText
d̴̖̘͖́̉̂͝͠͝a̶̤̓̇͠͠ý̴̠͚̤͇̈́̓̓̑̑ͅn̴̡͖͔̪̐̆̉̃͊̒͒̎h̷̨̢͔̜̼͕̙͖̏̅ä̵̧̦̟͍̲͔́͛̓̅̔̀͝͠ͅu̵̧̧̯͖̮͔̽̈́̔̈́̔̐͘͜h̸̠͍̿͆̇͆̏̽̈́̀o̶̠̦̱̾̊͛̏c̴̫͈̀̅́̃
con người viết chữ có ghép chữ lại với nhau thành ra Unicode cũng phải có vụ ghép này. Ghép đã rồi lại thấy từ ghép ít quá cho làm code point riêng luôn thành ra tiếng Việt có 2 cách viết ghép chữ và dấu và cách xài trực tiếp chữ có dấu :V
Các bạn có thể dùng cách này:
with open(Save_yml_path, 'w', encoding='utf-8') as yaml_file:
yaml.dump(Data_Dict_CoTiengViet, yaml_file, default_flow_style=False, allow_unicode=True, encoding='utf-8')