Trí tuệ nhân tạo/Học máy: phân loại trang web

Chào anh chị diễn đàn, em đang làm bài tập lớn môn Trí tuệ nhân tạo, đề tài tự chọn là Phân loại trang web (có một tập trang web và ta phải gán nhẫn cho nó thuộc lĩnh vực nào), phương pháp sử dụng là phân lớp Naive Bayes. Phần này thuộc học máy ở cuối môn mới học, nên em muốn hỏi a/c cho em xin hướng đi trước :smile: a/c nào có kinh nghiệm về lĩnh vực này hoặc đã học các môn này cho em hỏi chút là:

Đầu vào của bài toán chỉ là một tập các từ khóa được mình tìm hiểu và tổng hợp sẵn từ các trang web (ghi ra file text) hay là phải dẫn đương link của chính trang web đó vào ạ? Nếu dẫn đường link thì ta tách từ khóa ra để cho máy học kiểu gì ạ :3

Em cảm ơn!

Mình tìm được một bài, hi vọng nó giup ích được cho bạn.

Cái này tùy trường hợp dữ liệu bạn được giao hay dữ liệu bạn tự kiếm.

Nếu dữ liệu tự kiếm thì đương nhiên bạn phải lưu định danh của trang web (URL…), gán nhãn (lĩnh vực) bằng tay cho từng trang web, tách từ vựng, lưu lại dữ liệu sau khi xử lý vào file theo định dạng bạn tự quy định. Khi cho máy học bạn sẽ truy cập dữ liệu đã qua xử lý chứ không xử lý trên dữ liệu thô đâu.

1 Like

Ok thanks bạn, bài viết khá chi tiết, mình sẽ nghiên cứu :smile:

Đề tài t chú tâm vào giải thuật, tập học và đánh giá thôi; cái việc tách từ vựng t ko hiểu lắm là làm sao để tách từ vựng từ việc dẫn một đường link trang web, t chưa học cái này? Môn trí tuệ nhân tạo bọn t ko đụng nhiều đến học máy (có môn Học máy mà). Giả sử giờ ta tự tạo các từ khóa vào file thì chắc phải nhiều lắm nhỉ :3

Tách từ chắc mình học từ môn… kỹ thuật lập trình bạn ạ.

Ơ dẫn đường link vào => tách từ : cậu giải thích cho mình được không?

Link -> lấy nội dung -> tách từ chứ mình có nói là tách từ từ link đâu :stuck_out_tongue:. Có thể bạn không biết cách lấy nội dung từ một trang web sao nhưng khi có văn bản thì chắc chắn bạn biết tách và lọc từ ra :stuck_out_tongue:

Ừ tách từ từ văn bản thì mình hiểu. à thế thì mình hỏi vấn đề là khi mình đưa một đường link thì lấy nội dung ra làm cách nào vậy, theo mình hiểu thì là lấy nội dung bằng tay hả (nhưng như thế thì mình tự tạo văn bản viết nội dung rồi cần gì đường link), xin được chỉ giáo :smile:

1 Like

Bạn phải biết sơ sơ HTML, với DOM. Mỗi ngôn ngữ thường có thư viện DOM ở ngoài, mỗi trang web có một cấu trúc, bạn đi theo cấu trúc đó là lấy dc dữ liệu chính.
Về việc lấy dữ liệu trên web á, bạn thường không copy & paste link đâu mà bạn sẽ dùng crawler.

Mà mình nghĩ trong phạm vi môn học thì sẽ cho dữ liệu chứ nhỉ, không thì bạn kiếm dữ liệu online cũng có như cái này chẳng hạn https://dms.sztaki.hu/en/letoltes/ecmlpkdd-2010-disco

Ok cảm ơn nhé, đề tài tự đề xuất dựa trên vấn đề được học nên phải tự kiếm dữ liệu, tự tìm hiểu để làm c ạ.

1 note nhỏ cho bạn: nếu bạn ở Hà Nội, bạn có thể qua phòng thí nghiệm KTLab xin học hỏi, ở đó là môi trường tốt cho bạn học và thực hành về những đề tài kiểu này!

Machine Learning mà bạn chuyển thể thành “học máy” làm mình hết hồn :slight_smile: Chưa từng học qua môn này (vì tự học) nhưng từng học qua “Xây dựng một web search engine” nên mình thấy vấn đề của bạn không khó lắm. Nếu bạn không biết cách implement thì bạn nên xem qua khóa học CS101 miễn phí này của Udacity.

:sweat_smile: :sweat_smile: :sweat_smile:
Ở VN dịch là học máy / máy học là đúng rồi mà.

Haha, mình đâu có nói bạn sai đâu. Mình chỉ “hết hồn” thôi :stuck_out_tongue: Tập dùng Tiếng Anh luôn là vừa bạn ơi B-) Còn “trí thông minh nhân tạo” => AI => ngắn gọn dễ hiểu :smiley:

KTLab ở đại học quốc gia hả bạn? Làm sao để vào được vậy? Mất phí gì không?

mình cảm ơn nhé :smiley:

83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?