Muốn xem tính chất lưu trữ phân tán của Hadoop thì nên thực hiện example thế nào?

xuantoi · August 20, 2015, 3:14am

Hi mọi người, em mới tìm hiểu qua về bigdata. Em cũng tự dựng được 1 cluster Cloudera Hadoop để làm thử, nhằm mục đích hiểu rõ hơn. Em đã dựng 3 máy ảo 1 master và 2 slave theo doc của cloudera
http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation_installation.html

Em có câu hỏi mong mọi người giúp đỡ.

Hiện tại em muốn xem tính chất lưu trữ phân tán của hadoop thì em nên thực hiện example thế nào ?
Theo lý thuyết thì nếu upfile lên hdfs (Hadoop Distributed File System) thì sẽ chia thành các khối 64MB tên là blk-xxxxxx được lưu trên các host khác nhau trong cluster.

a) Up file sử dụng command của hadoop hay có cách nào khác nữa
b) Khi up thành công xong thì có thể tìm các block đó ở đâu ?

Anh @ltd biết anh nào có kinh nghiệm giới thiệu em với ạ.

Mong mọi người giúp đỡ người mới bắt đầu.

ltd · August 20, 2015, 3:10am

Đạt nghĩ bạn nên chia nhỏ câu hỏi ra làm nhiều topic, một topic chỉ nên hỏi một vấn đề thôi để dễ thảo luận. Tiêu đề câu hỏi cũng sẽ rõ ràng hơn, thay vì dồn chung lại với tiêu đề chung chung “Một số câu hỏi”

xuantoi · August 20, 2015, 3:11am

Dạ vâng, thế để em edit lại bài viết với câu hỏi đầu tiên

ltd · August 20, 2015, 3:16am

Anh nghĩ tiêu đề như hiện tại là ổn

Muốn xem tính chất lưu trữ phân tán của Hadoop thì nên thực hiện example thế nào?

cc @nitneiht

Tin_Ho · August 20, 2015, 3:30am

a. Bản chất là dùng cmd dfs -put … Cloudera hay hortonwork cung cấp giao diện để browswe files các thứ nhưng mình thấy tiện nhất vẫn là cmd
b.thông tin các block đc lưu ở đâu do con master quản lý. Mình ko thể đọc từng block i guest.

Tin_Ho · August 20, 2015, 3:35am

Muốn thử tính chất phân tán thì lưu data vô cluster với replicate >1 rồi down 1 con slaver coi còn get đc data hay ko chạy đc map rwduce ko, rồi down hai xon slaver coi còn get đc data hay chạy đc mapreduce ko. Hình như lúc chạy map reduce có xuất ra info của mấy con slaver. Ko biết đúng ý bạn muốn hỏi ko. Hehe.

xuantoi · August 20, 2015, 3:39am

anh @Tin_Ho ơi cho em hỏi, em sử dụng giao diện để up file nhưng cái em thấy là dạng ten_file.tmp có kích thước đúng bắng 64MB luôn, thế cái dạng blk-xxxxx như trong tài liệu nó nằm ở đâu ạ ? Cái file tmp với blk kia có quan hệ gì anh ?

Tin_Ho · August 20, 2015, 6:55am

Lien quan toi file em coi cai lenh fsck ấy.