Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets

Nội dung được viết bởi Tommy Dũng Lê

Google Sheets là một phần mềm hay chương trình chuyên dụng trong việc thiết kế và chỉnh sửa các bảng tính của bạn. Google Sheets, cùng với Google Docs và Google Slides, là một phần của ứng dụng mà Google gọi là Google Drive, Các chương trình này cũng tương tự như Microsoft Excel, Microsoft Word, và Microsoft PowerPoint của Microsoft Office. Tuy nhiên khác với Excel, Google Sheets phù hợp cho những ai chỉ cần phải sử dụng bảng tính với lượng thông tin vừa phải hay cần phải làm việc từ xa với những công cụ khác nhau và đặc biệt là cần phải chia sẻ, hợp tác và làm việc trong một nhóm nhiều người. Và cho dù có vô vàn các dạng biểu đồ mà bạn có thể sử dụng trong việc thiết kế báo cáo, có một dạng biểu đồ mà tôi thấy rất hữu dụng trong việc đưa ra các dự đoán nhưng lại không được ưu chuộng. Đó là biểu đồ phân tán (Scatter plot chart). Trong bài viết này, hãy cùng Gitiho tìm hiểu xem lý do tại sao chúng ta nên dùng dạng biểu đồ này nhiều hơn và cách thiết kế nó nhé! 

Khái niệm

Biểu đồ phân tán (hay tiếng anh còn gọi là scatter plot, scatter chart) sử dụng các dấu chấm để thể hiên giá trị (điểm giao nhau) của hai biến số khác nhau. Vị trí của mỗi dấu chấm trên trục tung và trục hoành tương ứng với một khía cạnh của một điểm dữ liệu riêng lẻ. Biểu đồ phân tán thường được sử dụng để quan sát mối tương quan giữa hai yếu tố khác nhau, 

Nói một cách đơn giản, biểu đồ phân tán là một biểu đồ sử dụng tọa độ để hiển thị các giá trị của dữ liệu trong không gian 2 chiều. Và hai biến số của chúng ta được thể hiện trên trục tung (trục Y) và trục hoành (trục X).

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 1: Ví dụ đơn giản của một biểu đồ phân tán

Trong ví dụ ở trong hình trên, biểu đồ phân tán cho chúng ta biết được mối quan hệ giữa số lần truy cập trang của một trang web và số lượng người dùng đăng ký làm thành viên của trang web đó. Như bạn có thể thấy, 2 yếu tố này có một mối quan hệ tỉ lệ thuận với nhau, khi số lần truy cập tăng lên thì số lượng thành viên của trang cũng có xu hướng tăng theo. 

Thông thướng, các biến được thể hiện theo trục hoành là các biến độc lập, là một biến liên tục (ví dụ như: tuổi tác) luôn được theo dõi và dưới sự kiểm soát của người thử nghiệm và biến theo trục tung là biến phụ thuộc, hoặc biến được sử dụng để đo lường, tính toán. Biến số của trục Y thay đổi dựa theo những thay đổi diễn ra đối với biến số ở trục X.

Có những trường hợp mà cả hai biến đều là những biến độc lập, khi này thì bạn sẽ không cần quá chú trọng vào việc xác định phải thể hiện biến nào ở trên trục nào. Tuy nhiên biểu đồ phân tán vẫn sẽ thể hiện bất kỳ mối tương quan nào giữa hai biến độc lập này.

Lý do chúng ta nên sử dụng biểu đồ phân tán

Nếu chúng ta chỉ đưa ra kết luận về giá trị của các dữ liệu sử dụng bảng biểu thì các kết luận thường không bao quát. Và việc tìm ra mối quan hệ giữa 2 biến số sẽ rất khó và không biết được chúng liên quan như thế nào. Đó chính là mục đích chủ yếu trong việc sử dụng dạng biểu đồ này: để quan sát và thể hiện mối quan hệ giữa hai biến số. Các dấu chấm trong biểu đồ phân tán không chỉ thể hiện giá trị của một điểm dữ liệu mà còn thể hiện xu hướng khi chúng ta nhìn tổng thể toàn bộ tập dữ liệu. Việc xác định các mối quan hệ tương quan thường được thể hiện bằng dạng biểu đồ này. Và trong những trường hợp như vậy, chúng ta sẽ muốn tìm hiểu xem, nếu chúng ta được yêu cầu dự đoán giá trị của biến số ở trục tung (biến phụ thuộc) khi được đưa một giá trị bất kỳ của biến số trên trục hoành (biến độc lập). Và mối tương quan của chúng ta có thể được diễn tả theo nhiều cách như: mối quan hệ tỉ lệ thuận hay tỉ lệ nghịch, có ảnh hưởng nhiều đến nhau hay không, và xu hướng của toàn bộ biểu đồ là đường thẳng hay dạng đường biểu diễn của chúng ta là dạng khác,

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 2: Các mối tương quan giữa 2 biến số trong biểu đồ phân tán

Những lưu ý khi thiết kế biểu đồ phân tán

Biểu đồ trở nên quá phức tạp

Khi chúng ta có một tập dữ liệu quá dày đặc, dẫn đến việc biểu đồ có quá nhiều điểm dữ liệu và trở nên vô cùng phức tạp. Đây là trường hợp khi các điểm dữ liệu (các chấm trên biểu đồ) chồng chất lên nhau ở mức độ mà việc nhận xét và tìm ra mối quan hệ giữa các điểm với các biến trên 2 trục là một việc gần như không thể. Việc này xảy ra khi mức độ dày đặc của các điểm dữ liệu chỉ xuất hiện ở trong một khu vực nhỏ.

Có một vài cách thông dụng trong việc giải quyết vấn đề này. Một hướng giải quyết là chúng ta chỉ thể hiện một tập hợp nhỏ của tập dữ liệu: một sự lựa chọn ngẫu nhiên của các biến số vẫn có thể cho chúng ta biết được mối tương quan và góc nhìn tổng thể về xu hướng của toàn bộ tập dữ liệu. Chúng ta cũng có thể thay đổi định dạng của các điểm dữ liệu trên biểu đồ. Thay vì thể hiện các điểm dữ liệu là các chấm đặc, chúng ta chỉ thể hiện phần viền. Hoặc bạn cũng có thể giảm đi kích thước của chúng để việc chồng chất ít xảy ra hơn. Cách giải quyết thứ 3 mà bạn có thể dùng là sử dụng heatmap (biểu đồ nhiệt kế), để thể hiện toàn bộ tập dữ liệu nhưng chỉ tập trung vào xu hướng của chúng. 

Lầm tưởng mối tương quan giữa 2 biến là mối quan hệ nhân quả

Ngoại trừ lưu ý trong việc thể hiện quá nhiều dữ liệu, việc thiết kế biểu đồ phân tán không thực sự quá phức tạp như khi đưa ra những kết luận sử dụng biểu đồ này. Đơn giản là vì chúng ta có thể biết được mối quan hệ giữa 2 biến số trong biểu đồ phân tán không đồng nghĩa với việc các thay đổi của một biến số sẽ ảnh hưởng đến biển số còn lại trên biểu đồ. Việc này làm tôi nhớ đến một câu nói thường được dùng trong ngành thống kê: không phải bất kỳ mối quan hệ nào cũng là mối quan hệ nhân quả. Có thể có một biến số thứ 3 ảnh hưởng đến mối tương quan giữa 2 biến số mà chúng ta đang xem xét dẫn đến việc chúng ta lầm tưởng liên kết của 2 biến số này là mối quan hệ nhân quả. 

Ví dụ về việc thiết kế biểu đồ phân tán

Chúng ta hãy cùng xem xét một ví dụ thực tế, sử dụng các dữ liệu thể hiện doanh số của việc kinh doanh bất động sản ở thành phố Manhattan. Ví dụ này tôi sẽ sử dụng dữ liệu về diện tích của một bất động sản (diện tích dao động từ 100 mét vuông tới 500 mét vuông) với giá thành trên thị trường của nó. 

Và tập dữ liệu chúng ta bao gồm 250 giá trị như sau: 

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 3: Tập dữ liệu ví dụ của ngành bất động sản 

Để tạo một biểu đồ phân tán, hãy đánh dấu cả hai cột dữ liệu (bao gồm cả hàng tiêu đề).

Sau đó nhấp vào Insert > Chart

Ban đầu Google Sheets sẽ tạo ra một biểu đồ cột, một biểu đồ vô cùng tệ hại, trong đó mỗi hàng trong số 250 hàng của tập dữ liệu sẽ được thể hiện bằng 1 cột. Èo!

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 4: Sử dụng biểu đồ cột để thể hiện tập dữ liệu ví dụ

Để có thể chuyển đổi thành biểu đồ phân tán, chúng ta chỉ cần phải làm như sau. Trên menu các dạng biểu đồ, trong tab Data, chỉ cần chọn dạng biểu đồ phân tán (Scatter), như được hiển thị trong hình sau:

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 5: Thay đổi thành dạng biểu đồ phân tán trong Google Sheets

Và bạn đã có một biểu đồ phân tán đẹp mắt!

Bây giờ tôi muốn bạn tập trung vào một điểm duy nhất (được hiển thị bằng màu đỏ trong hình dưới đây):

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 6: Chú ý vào dữ liệu để tìm ra các giá trị trên 2 trục (trục tung là giá thành - trục hoành là diện tích)

Bạn có thể đọc ra một cặp giá trị, trong trường hợp này là 3.000 square feet (khoảng 300 mét vuông) và 3.750 đô la. Hai giá trị này cho chúng ta biết rằng có một điểm dữ liệu (đại diện cho một bất động sản được bán ở Manhattan) rộng 300 mét vuông và có giá bán là 3.750 đô la.

Chúng ta có thể viết nó như một cặp tọa độ: (3.000, 3.750)

Do đó, mỗi dấu chấm, mỗi điểm dữ liệu trong biểu đồ của chúng ta thể hiện cho một cặp tọa độ thể hiện cho diện tích và giá thành của nó. Và mỗi điểm dữ liệu thể hiện cho một hàng trong tập dữ liệu ở trong bảng của chúng ta.

Đây chính là vẻ đẹp và giá trị thực sự của biểu đồ phân tán. Nó hiển thị tất cả các hàng dữ liệu đó trong một biểu đồ duy nhất, vì vậy chúng ta có thể biết được góc nhìn tổng thể của toàn bộ tập dữ liệu.

Phân tích biểu đồ phân tán (tìm mối tương quan)

Tất cả những điểm đó trên biểu đồ phân tán của bạn đều đẹp mắt và chúng đang cho thấy điều gì đó, nhưng cụ thể ý nghĩa là gì? Chúng ta còn có thể rút ra được điều gì khác từ biểu đồ ở trên không?

Nhưng nếu chỉ nhìn các dấu chấm ở trong biểu đồ thì có vẻ khó nhận ra được xu hướng, bạn có thể thêm một đường biểu diễn xu hướng như sau (được thể hiện bằng màu đỏ):

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 7: Thêm đường xu hướng vào trong biểu đồ

Và thao tác vừa rồi đã làm cho biểu đồ chúng ta trở nên hữu ích hơn rồi!

Nó cho thấy mối tương quan của chúng ta là tỉ lệ thuận, xu hướng chung của bất động sản tăng, đây cũng chính là những gì mà chúng ta dự đoán. Khi diện tích của bất động sản tăng lên, thì giá bán của nó cũng vậy.

Bây giờ, nếu chúng ta muốn dự đoán giá bán cho một diện tích nhất định, chẳng hạn 4.500 square feet, chúng ta có thể sử dụng đường này, bắt đầu ở điểm 4.500 square feet trên trục hoành, tìm điểm giao trên đường xu hướng và sau đó chuyển sang trục tung và đọc giá trị:

Hướng dẫn về biểu đồ phân tán và cách thiết kế chúng trong Google Sheets
Hình 8: Đọc giá trị của các điểm dữ liệu sử dụng đường xu hướng

Dựa vào đây, chúng ta có thể dự đoán rằng một bất động sản có diện tích 4500 square feet (khoảng 450 mét vuông) sẽ có giá trị là 5900 đô la. 

Và bạn cũng có thể đang thắc mắc rằng có cách nào khác để đưa ra các dự đoán như thế này dựa vào công thức không?

Chúng ta sẽ sử dụng phương trình của đường xu hướng để tính toán các con số này.

Phương trình đường thẳng có dạng cơ bản: y = ax + b

Vì vậy, để dự đoán y, chúng ta cần biết giá trị của x (là 4500 square feet trong trường hợp này) nhân với giá trị của a (là độ dốc của đường xu hướng) và cộng với giá trị của b (điểm giao nhau, hoặc nơi đường xu hướng cắt trục y).

Chúng ta sẽ tính toán giá trị a từ dữ liệu của mình bằng cách sử dụng hàm SLOPE với công thức như sau: =SLOPE( B2:B277, A2:A277 )

Kết quả chúng ta nhận được sẽ là: 1166.42218

Chúng ta sẽ tính toán giá trị b từ dữ liệu của mình bằng cách sử dụng hàm INTERCEPT với công thức như sau: =INTERCEPT( B2:B277 , A2:A277 )

Kết quả chúng ta nhận được sẽ là: 712264.7317

Sau đó, dự đoán giá trị của y trong trường hợp này sẽ là:

y = 1166.42218 x + 712264.7317

Thay giá trị của x bằng 4500 thì phương trình sẽ là: 

y = 1166.42218 * 4500 + 712264.7317

Kết quả dự đoán cho giá trị y: $5,961,165

Vậy trong bài viết này bạn đã nắm thêm một chút kiến thức về công cụ Google Sheet rồi, cụ thể là về như thế nào là biểu đồ phân tán và cách thiết kế cũng như những lưu ý khi sử dụng dạng biểu đồ này. Để tìm hiểu thêm về các kiến thức liên quan đến Google Sheet, bạn hãy truy cập trang gitiho.com nhé.

Bạn có thể tham khảo thêm:

Hướng dẫn liên kết Google Sheets với cơ sở dữ liệu của bạn, sử dụng App Script

Hướng dẫn cách sử dụng hàm truy vấn trong Google Sheets

Google sheets - công cụ thay thế hoàn hảo cho Excel có lẽ đã quá quen thuộc với hầu hết chúng ta, đặc biệt là dân văn phòng. Nhưng bạn có biết, Google Sheets có khoảng 900 triệu người dùng, nhưng không phải ai cũng biết sử dụng thành thạo những tính năng hữu ích từ những cái cơ bản nhất.

Để giúp đỡ bạn trên hành trình chinh phục công cụ làm việc “quốc dân” này, Gitiho đã cho ra mắt khóa học Google Sheets từ Cơ bản đến Nâng cao, công cụ thay thế Excel chỉ với 45 bài giảng và 9 giờ học, bạn đã hòan toàn có thể làm chủ công cụ này.

Giờ đây, bạn hoàn toàn có thể tự tin phân tích và xử lý dữ liệu trên Google Sheet, lập bảng biểu, báo cáo trực quan và hơn thế nữa. Và chắc chắn rằng, bạn sẽ được sếp và đồng nghiệp “yêu” hơn đấy!

0/5 - (0 bình chọn)

0/5 - (0 bình chọn)

0 thảo luận

@ 2020 - Bản quyền của Công ty cổ phần công nghệ giáo dục Gitiho Việt Nam
Giấy chứng nhận Đăng ký doanh nghiệp số: 0109077145, cấp bởi Sở kế hoạch và đầu tư TP. Hà Nội
Giấy phép mạng xã hội số: 588, cấp bởi Bộ thông tin và truyền thông