Trong Python có kiểu dữ liệu tên là dictionary. Nhiệm vụ của các bạn bây giờ là thu thập khoảng 1.000 câu thông dụng tiếng Anh rồi dịch ra tiếng Việt, mỗi ngôn ngữ chứa trong một từ điển. Người ta nhập vào một cụm từ thì dùng RegEx để mò trong từ điển này và đối chiếu qua từ điển kia để lôi câu đó ra.
Mình có thắc mắc là tại sao các chương trình dịch không áp dụng theo cách đó mà nghiên cứu xử lý ngôn ngữ tự nhiên chi cho mệt, bởi vì số lượng câu người ta nói (cho là từ khi có chữ viết tới giờ) là hữu hạn, có thể tập hợp lại được tất cả, điều này trong tầm tay của các hãng công nghệ như Google, Microsoft, việc quái gì phải cho máy nó tự suy nghĩ. Đoạn vừa viết cũng mang tính đùa vui thôi nhé các bợm, đừng quá quan trọng. Cách mình muốn nói là cứ tập hợp đủ lớn số câu chữ đã được dịch, như cách IBM từng làm với các ván cờ vua, từ cái mớ dữ liệu đó, việc dịch thuật sẽ dễ dàng hơn khi lập trình viên và nhà ngôn ngữ học ngồi làm việc với nhau.