Khi nói đến việc lưu trữ Big Data (dữ liệu lớn), hai lựa chọn phổ biến nhất là Data Lake và Data Warehouse. Data Warehouse được sử dụng lưu trữ dữ liệu sử dụng trong phân tích dữ liệu có cấu trúc, trong khi Data Lake được sử dụng để lưu trữ Big Data của tất cả các cấu trúc khác nhau.
Trong bài này, chúng ta sẽ xem giữa hai loại kho chứa dữ liệu này có gì khác nhau
Data Lake | Data Warehouse | |
Loại dữ liệu | Dữ liệu phi cấu trúc và có cấu trúc từ nhiều nguồn dữ liệu khác nhau của công ty | Dữ liệu lịch sử đã được cấu trúc để phù hợp với lược đồ quan hệ cơ sở dữ liệu |
Mục đích | Lưu trữ Big Data với chi phí tối ưu | Phân tích cho các quyết định kinh doanh |
Đối tượng sử dụng | Data scientist và Data engineer | Data analyst và Business analyst |
Nhiệm vụ | Lưu trữ dữ liệu và phân tích dữ liệu lớn, như học sâu và phân tích thời gian thực | Thông thường là các truy vấn chỉ đọc để tổng hợp và tóm tắt dữ liệu |
Khối lượng dữ liệu | Lưu trữ tất cả dữ liệu có thể được sử dụng — có thể chiếm hàng petabyte! | Chỉ lưu trữ dữ liệu liên quan đến phân tích |
Loại dữ liệu
Làm sạch dữ liệu là một kỹ năng quan trọng vì dữ liệu tự nhiên ở dạng lộn xộn và không hoàn hảo. Dữ liệu thô chưa được làm sạch được gọi là dữ liệu không có cấu trúc — bao gồm hầu hết dữ liệu trên thế giới, như ảnh, nhật ký trò chuyện và tệp PDF,…. Dữ liệu không có cấu trúc đã được làm sạch để phù hợp với một lược đồ, được tổ chức thành các bảng và được xác định theo kiểu dữ liệu và mối quan hệ, được gọi là dữ liệu có cấu trúc. Đây là điểm khác biệt cơ bản giữa Data Lake và Data Warehouse.
Data Lake lưu trữ dữ liệu từ nhiều nguồn khác nhau như thiết bị IoT, luồng truyền thông xã hội theo thời gian thực, dữ liệu người dùng và giao dịch ứng dụng web. Đôi khi, dữ liệu này có cấu trúc, nhưng thường thì nó khá lộn xộn vì dữ liệu đang được nhập trực tiếp từ nguồn dữ liệu. Mặt khác, Data Warehouse chứa dữ liệu đã được làm sạch để phù hợp với một lược đồ quan hệ.
Mục đích
Data Lake được sử dụng để lưu trữ lượng lớn dữ liệu từ nhiều nguồn một cách hiệu quả về chi phí. Việc cho phép lưu trữ dữ liệu thuộc bất kỳ cấu trúc nào sẽ giảm chi phí vì dữ liệu linh hoạt hơn và có thể mở rộng vì dữ liệu không cần phải phù hợp với một lược đồ cụ thể. Tuy nhiên, dữ liệu có cấu trúc thì lại dễ phân tích hơn vì nó rõ ràng và có một lược đồ thống nhất để truy vấn. Bằng cách giới hạn dữ liệu trong một lược đồ, Data Warehouse rất hiệu quả để phân tích dữ liệu lịch sử cho các quyết định dữ liệu cụ thể.
Bạn có thể nhận thấy rằng các Data Lake và Data Warehouse bổ sung cho nhau trong một quy trình làm việc với dữ liệu. Dữ liệu công ty đã nhập sẽ được lưu trữ ngay lập tức vào một Data Lake. Nếu một câu hỏi kinh doanh cụ thể xuất hiện, một phần dữ liệu được cho là có liên quan sẽ được trích xuất từ Data Lake, làm sạch và xuất vào Data Warehouse.
Người dùng
Data Lake và Data Warehouse rất hữu ích cho những người dùng khác nhau. Data Analyst và Business Analyst thường làm việc trong các Data Warehouse chứa dữ liệu thích hợp đã được xử lý cho công việc của họ. Data Warehouse yêu cầu trình độ thấp hơn về kiến thức lập trình và khoa học dữ liệu để sử dụng.

Data Lake được thiết lập và duy trì bởi các Data Engineer, những người tích hợp chúng vào các đường ống dẫn dữ liệu (Data Pipeline). Data Scientist làm việc chặt chẽ hơn với các Data Lake vì chúng chứa dữ liệu ở phạm vi rộng hơn và thực tế hơn.
Nhiệm vụ
Data Engineer sử dụng các Data Lake để lưu trữ dữ liệu đầu vào. Tuy nhiên, các Data Lake không chỉ giới hạn ở bộ nhớ. Hãy nhớ rằng, dữ liệu phi cấu trúc linh hoạt hơn và có thể mở rộng, điều này đôi khi tốt hơn cho phân tích dữ liệu lớn. Phân tích dữ liệu lớn có thể được chạy trên các Data Lake bằng cách sử dụng các dịch vụ như Apache Spark và Hadoop. Điều này đặc biệt đúng đối với Học sâu (Deep Learning), đòi hỏi khả năng mở rộng với số lượng dữ liệu đào tạo ngày càng tăng.
Data Warehouse thường chỉ cho phép người dùng là các nhà phân tích đọc, những người chủ yếu đọc và tổng hợp dữ liệu để có thông tin chi tiết. Vì dữ liệu đã sạch và được lưu trữ, nên thường không cần chèn hoặc cập nhật dữ liệu.
Kích cỡ
Không có gì ngạc nhiên khi các Data Lake có kích thước lớn hơn nhiều vì chúng giữ lại tất cả dữ liệu có thể liên quan đến một công ty. Các Data Lake thường có kích thước petabyte — tức là 1.000 terabyte! Data Warehouse thì lại có nhiều lựa chọn về dữ liệu được lưu trữ.
Kết luận
Khi bạn quyết định giữa Data Lake hoặc Data Warehouse, hãy xem qua các danh mục này và xem loại nào phù hợp nhất với trường hợp sử dụng của bạn. Đừng quên rằng đôi khi bạn cần kết hợp cả hai giải pháp lưu trữ. Điều này đặc biệt đúng khi xây dựng đường ống dẫn dữ liệu.
https://digalyst.com/data-analytics/ban-da-phan-biet-duoc-data-lake-va-data-warehouse/