Trí tuệ nhân tạo/Học máy: phân loại trang web

Thanglv · March 16, 2022, 2:25pm

Chào anh chị diễn đàn, em đang làm bài tập lớn môn Trí tuệ nhân tạo, đề tài tự chọn là Phân loại trang web (có một tập trang web và ta phải gán nhẫn cho nó thuộc lĩnh vực nào), phương pháp sử dụng là phân lớp Naive Bayes. Phần này thuộc học máy ở cuối môn mới học, nên em muốn hỏi a/c cho em xin hướng đi trước a/c nào có kinh nghiệm về lĩnh vực này hoặc đã học các môn này cho em hỏi chút là:

Đầu vào của bài toán chỉ là một tập các từ khóa được mình tìm hiểu và tổng hợp sẵn từ các trang web (ghi ra file text) hay là phải dẫn đương link của chính trang web đó vào ạ? Nếu dẫn đường link thì ta tách từ khóa ra để cho máy học kiểu gì ạ :3

Em cảm ơn!

duonghau · September 24, 2015, 12:32pm

Mình tìm được một bài, hi vọng nó giup ích được cho bạn.

Itachi_Citus · September 24, 2015, 12:36pm

Cái này tùy trường hợp dữ liệu bạn được giao hay dữ liệu bạn tự kiếm.

Nếu dữ liệu tự kiếm thì đương nhiên bạn phải lưu định danh của trang web (URL…), gán nhãn (lĩnh vực) bằng tay cho từng trang web, tách từ vựng, lưu lại dữ liệu sau khi xử lý vào file theo định dạng bạn tự quy định. Khi cho máy học bạn sẽ truy cập dữ liệu đã qua xử lý chứ không xử lý trên dữ liệu thô đâu.

Thanglv · September 24, 2015, 3:10pm

Ok thanks bạn, bài viết khá chi tiết, mình sẽ nghiên cứu

Thanglv · September 24, 2015, 3:19pm

Đề tài t chú tâm vào giải thuật, tập học và đánh giá thôi; cái việc tách từ vựng t ko hiểu lắm là làm sao để tách từ vựng từ việc dẫn một đường link trang web, t chưa học cái này? Môn trí tuệ nhân tạo bọn t ko đụng nhiều đến học máy (có môn Học máy mà). Giả sử giờ ta tự tạo các từ khóa vào file thì chắc phải nhiều lắm nhỉ :3

Itachi_Citus · September 24, 2015, 3:42pm

Tách từ chắc mình học từ môn… kỹ thuật lập trình bạn ạ.

Thanglv · September 24, 2015, 3:44pm

Ơ dẫn đường link vào => tách từ : cậu giải thích cho mình được không?

Itachi_Citus · September 24, 2015, 3:47pm

Link -> lấy nội dung -> tách từ chứ mình có nói là tách từ từ link đâu . Có thể bạn không biết cách lấy nội dung từ một trang web sao nhưng khi có văn bản thì chắc chắn bạn biết tách và lọc từ ra

Thanglv · September 24, 2015, 3:59pm

Ừ tách từ từ văn bản thì mình hiểu. à thế thì mình hỏi vấn đề là khi mình đưa một đường link thì lấy nội dung ra làm cách nào vậy, theo mình hiểu thì là lấy nội dung bằng tay hả (nhưng như thế thì mình tự tạo văn bản viết nội dung rồi cần gì đường link), xin được chỉ giáo

Itachi_Citus · September 24, 2015, 4:16pm

Bạn phải biết sơ sơ HTML, với DOM. Mỗi ngôn ngữ thường có thư viện DOM ở ngoài, mỗi trang web có một cấu trúc, bạn đi theo cấu trúc đó là lấy dc dữ liệu chính.
Về việc lấy dữ liệu trên web á, bạn thường không copy & paste link đâu mà bạn sẽ dùng crawler.

Mà mình nghĩ trong phạm vi môn học thì sẽ cho dữ liệu chứ nhỉ, không thì bạn kiếm dữ liệu online cũng có như cái này chẳng hạn https://dms.sztaki.hu/en/letoltes/ecmlpkdd-2010-disco

Thanglv · September 25, 2015, 4:42am

Ok cảm ơn nhé, đề tài tự đề xuất dựa trên vấn đề được học nên phải tự kiếm dữ liệu, tự tìm hiểu để làm c ạ.

nhatcaht · September 25, 2015, 9:34am

1 note nhỏ cho bạn: nếu bạn ở Hà Nội, bạn có thể qua phòng thí nghiệm KTLab xin học hỏi, ở đó là môi trường tốt cho bạn học và thực hành về những đề tài kiểu này!

redstrike · September 25, 2015, 10:40am

Machine Learning mà bạn chuyển thể thành “học máy” làm mình hết hồn Chưa từng học qua môn này (vì tự học) nhưng từng học qua “Xây dựng một web search engine” nên mình thấy vấn đề của bạn không khó lắm. Nếu bạn không biết cách implement thì bạn nên xem qua khóa học CS101 miễn phí này của Udacity.

Itachi_Citus · September 25, 2015, 12:27pm

Ở VN dịch là học máy / máy học là đúng rồi mà.

redstrike · September 25, 2015, 7:10pm

Haha, mình đâu có nói bạn sai đâu. Mình chỉ “hết hồn” thôi Tập dùng Tiếng Anh luôn là vừa bạn ơi B-) Còn “trí thông minh nhân tạo” => AI => ngắn gọn dễ hiểu

Thanglv · September 27, 2015, 1:13am

KTLab ở đại học quốc gia hả bạn? Làm sao để vào được vậy? Mất phí gì không?

Thanglv · September 27, 2015, 1:14am

mình cảm ơn nhé