Em đang viết 1 chương trình crawl dữ liệu về insert vào database nhưng em đang gặp vấn đề như sau ạ:
Khi dữ liệu crawl về em xử lý qua hàm sau thì chạy tốt
import unicodedata
def formatText(self,text):
return unicodedata.normalize(‘NFKD’, text).encode(‘ascii’,‘ignore’)
Nhưng vấn đề là hàm trên làm mất đi dấu tiếng việt của text.
Em sửa hàm trên lại thành như bên dưới thì k mất đi dấu Tiếng Việt nhưng lại không chèn vào câu lệnh SQL dc.
import unicodedata
def formatText(self,text):
return unicodedata.normalize(‘NFKD’, text) #bỏ đi cái encode ở cuối
Khi sửa lại như thế này thì lúc tạo câu lệnh SQL và print ra thử thì bị báo lỗi như sau ạ
print sql
File “c:\python27\lib\encodings\cp1258.py”, line 12, in encode
return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: ‘charmap’ codec can’t encode character u’\u031b’ in position 81: character maps to
“Nhiều lúc em nghĩ em đã làm sai điều gì, mà code cứ ỳ không chịu chạy tí chi”
Mong các bác giúp em