Tuốt tuồn tuột về Unicode và Charset
5 Likes
Bài này mình nghĩ nên thêm một số chủ đề sau:
- Mối quan hệ với font (tại sao font hiển thị sai khi chọn bảng mã #, thế nào là glyph, …)
- Các case hay gặp khi sử dụng encoding: lấy từ DB ra, save file dưới dạng # utf8, sử dụng escape trong các ngôn ngữ như Java, JS khi các ký tự này nằm ngoài bảng mã ASCII.
- Một chút BOM và cách nhận diện encoding, đặc biệt là đầu trứng to và đầu trứng nhỏ ^^
p/s: ngoài ra, UTF16 không phải là 2 bytes mà còn có thể dài 4 bytes. UTF16 # UCS2 nhé.
3 Likes