Ở bài viết trước, chúng ta đã tìm hiểu về cách làm sạch, xử lý Data trước khi sử dụng. Sau khi hoàn thành xong bước làm sạch Data thì trong quy trình làm việc với PowerBI, chúng ta sẽ đến với bước tiếp theo là tạo ra Data Model. Vậy thì làm thế nào để tạo ra một Data Model cũng như các công việc liên quan đến Data Model thì sẽ gồm các tác vụ nào thì trong bài viết này chúng ta sẽ tìm hiểu
Data Model là gì? Ứng dụng Data Modeling trong xây dựng báo cáo kho
Trong ví dụ này ta có 3 bảng độc lập gồm bảng Product, Sale và Return. Nếu 3 bảng này nằm hoàn toàn độc lập với nhau thì nó sẽ không có bất kỳ kết nối hay mối quan hệ nào, thì đây chắc chắn KHÔNG PHẢI Data Model
Vậy thì một Data Model chuẩn sẽ có thể kết nối với nhau qua các mối quan hệ (Relationship) hay cụ thể là các trường dữ liệu chung là Product Key. Như vậy, để có Data Model, chúng ta phải thỏa mãn được 2 điều kiện
Để thực hành, Gitiho đã có sẵn ba bảng dữ liệu gồm Product, Sale Data và Return. Như các bạn thấy, ba bảng này đang đứng hoàn toàn độc lập với nhau mặc dù đã mang trường chung như Product Key nhưng không hề có Relationship, bởi vậy đây chưa phải là một Data Model
Vậy nếu chưa thành Data Model thì vấn đề mà người dùng sẽ gặp phải là khi sử dụng đến công cụ trực quan hóa Visualization Data. Ví dụ cụ thể thì chúng ta sẽ lấy một bảng gồm số lượng bán được (từ Sale Data), hàng bị trả lại (Return Data) đồng thời là thông tin của các sản phẩm
Như chúng ta thấy thì tất cả các sản phẩm đã được liệt kê từ Product Name trong bảng Product. Tuy nhiên, ở bảng Order Quantity và Return Quantity thì không được tách ra theo từng mã sản phẩm một mà nó chỉ thể hiện tổng (Total) sản phẩm. Như vậy thì rõ ràng quá trình xử lý của chúng ta đã bị sai và không thể trực quan hóa dữ liệu được
Xem thêm: Hướng dẫn sử dụng tính tương tác khi Trực quan hóa dữ liệu (Phần 1: Giới thiệu về khả năng tương tác)
Như vậy, khi không tạo được ra Data Model thì dữ liệu của chúng ta vẫn chưa thể sử dụng được trong Excel
Xem thêm: Những lưu ý khi kết nối nhiều bảng trong Data Model với PowerBI
Như vậy, bắt buộc chúng ta phải có Relationship thì Data Model mới hoạt động hiệu quả, vì vậy, ví dụ này Gitiho sẽ dùng đến công cụ Relationship.
Như dưới đây chúng ta đã có Relationship cho ba bảng hiển thị trên màn hình PBI. Khi đã tạo được Relationship thì tự động chúng ta đã đạt được hai điều kiện cần và đủ: Có các trường chung và các trường chung phải được kết nối với nhau
Sau khi đã tạo ra được Data Model rồi thì lúc này mới sử dụng được chính xác Visualization Data. Vẫn là bài toán trên, chúng ta sẽ xem tổng lượng bán sản phẩm và tổng lượng trả lại cho từng mã sản phẩm một. Như vậy vẫn phải cần mục Order Quantity trong bảng Sale Data; Return Quantity trong bảg Return và phần Product.
Lúc này thì Order Quantity và Return Quantity đã được tách chi tiết theo từng sản phẩm một, lúc này thì Data Model mới chính thức hoạt động. Bởi vậy mà chúng ta cần phải tạo Data Model trong PowerBI. Cùng với đó, bước tạo Relationship và Data Model là bắt buộc ở trong PBI nếu muốn sử dụng dữ liệu từ nhiều bảng dữ liệu khác nhau. Còn đương nhiên, nếu chỉ cần một bảng dữ liệu duy nhất thì không cần quá trình tạo ra Data Model bởi dữ liệu chỉ dùng trong một bảng. Tuy nhiên trong PowerBI thì không nên để toàn bộ dữ liệu nằm trong một bảng
Trước khi sử dụng dữ liệu thì chúng ta cần phải chuẩn hóa Database, vậy chuẩn hóa Database là gì?
Chuẩn hóa Database là toàn bộ quá trình tổ chức dữ liệu tại cột-bảng trong một mối quan hệ dữ liệu, để giảm sự dư thừa và đảm bảo tính nguyên cho dữ liệu.
Chuẩn hóa Database sẽ có quy tắc như sau
Trên đây là ba quy tắc về chuẩn hóa Database trước khi sử dụng Database đó trong Data Model khi trực quan hóa dữ liệu
* Lưu ý: Trong quá trình chuẩn hóa Database, các bảng nên đảm bảo mục đích riêng biệt và cụ thể
Ví dụ như dưới đây là một bảng chưa được chuẩn hóa. Trên bảng này có rất nhiều trường thông tin, thậm chí một số thông tin bị trùng lặp và không sử dụng tới. Lúc này thì ta chưa thấy được sự ảnh hưởng đến Data Model của chúng ta, tuy nhiên vấn đề sẽ xảy ra khi Data Model ngày càng lớn lên thì Data Model không được tối ưu về hiệu quả xử lý và tốc độ xử lý. Bởi vậy chúng ta nên tách ra mỗi bảng sẽ có một nghiệm vụ riêng biệt và cụ thể
Xem thêm: Hướng dẫn cách sử dụng hiệu quả Grouping Data trong PowerBI
Quay lại với PowerBI, rõ ràng người dùng hoàn toàn gộp Sale Data, Product và Return thành một bảng, nhưng tuyệt đối không được làm như vậy mà phải tách ra làm ba bảng và tạo Relationship với nhau. Một bảng chuyên thông tin sản phẩm, một bảng bán hàng và một bảng liên quan đến hàng bị trả lại.
Đây là một lưu ý cực kỳ quan trọng trong quá trình chuẩn hóa Data, bởi vậy các bạn nên lưu ý quy tắc chuẩn hóa Data và luôn đảm bảo thực hiện ba quy tắc này cho Data của chúng ta trước khi tạo Data Model, trực quan hóa dữ liệu.
Xem thêm: Cách quản lý dữ liệu Database và các đối tượng trong Access 2016
Trên đây Gitiho đã giới thiệu cho các bạn Data Model là gì, cách chuẩn hóa Database để tạo Data Model. Hy vọng bạn đọc sẽ áp dụng hiệu quả những kiến thức này khi làm việc với PowerBI
Tài liệu kèm theo bài viết
Bạn có thể nhanh chóng biến dữ liệu thô thành báo cáo trực quan sinh động, từ đó dễ dàng đưa ra quyết định thông minh, nhanh chóng, kịp thời nhờ Power BI. Khám phá công cụ tuyệt vời này ngay với khóa học “PBIG01 - Tuyệt đỉnh Power BI - Thành thạo trực quan hóa và Phân tích dữ liệu” tại Gitiho. Nhấn vào Đăng ký và Học thử ngay nhé!