Google Sheets là một phần mềm hay chương trình chuyên dụng trong việc thiết kế và chỉnh sửa các bảng tính của bạn. Google Sheets, cùng với Google Docs và Google Slides, là một phần của ứng dụng mà Google gọi là Google Drive, Các chương trình này cũng tương tự như Microsoft Excel, Microsoft Word, và Microsoft PowerPoint của Microsoft Office. Tuy nhiên khác với Excel, Google Sheets phù hợp cho những ai chỉ cần phải sử dụng bảng tính với lượng thông tin vừa phải hay cần phải làm việc từ xa với những công cụ khác nhau và đặc biệt là cần phải chia sẻ, hợp tác và làm việc trong một nhóm nhiều người. Và đôi khi những bạn thường hay sử dụng công cụ này lại sai lầm với một phép tính vô cùng đơn giản. Cách tính trung bình của một tập dữ liệu. Vậy như thế nào mới gọi là tính trung bình chính xác? Trong bài viết này, hãy cùng Gitiho tìm hiểu về các cách tính trung bình cũng như cách để tránh lỗi sai thường gặp nhé!
Đầu tiên bạn hãy mường tượng ra một nhóm bạn mười người, trong đó ai cũng đều là những nhân viên văn phòng bình thường, ngồi ở quán bar, ăn uống, tán ngẫu và cười đùa. Một việc rất đỗi bình thường vào các ngày cuối tuần.
Và chúng ta cùng bắt đầu một trò chơi nho nhỏ. Nhóm bạn của chúng ta được yêu cầu viết ra mức lương của họ trong bảng tính Google Sheets, và mức lương của họ như sau:
Đây chính là bộ dữ liệu của chúng ta.
Sau đó, chúng ta sẽ tính toán mức lương "trung bình", sử dụng ba cách tính khác nhau thông dụng nhất:
Định nghĩa: Giá trị Mean là giá trị trung bình cộng của các con số. Cách tính của chúng ta ở đây là cộng tất cả các con số lại rồi chia cho số các con số được cộng.
Công thức: = average( B2:B11 )
Với công thức ở trên, chúng ta tính được giá trị trung bình của bộ dữ liệu về mức lương - bằng cách tính trung bình phổ biến nhất. Và giá trị mean của bộ dữ liệu này là: $66,170
Đây là cách xác định giá trị "ở giữa" hay giá trị "trung tâm" mà chúng ta có lẽ quen thuộc nhất.
Tuy nhiên. còn có 2 dạng cách tính trung bình phổ biến khác:
Định nghĩa: Giá trị Median là giá trị ở giữa của tập hợp các con số. Cách xác định của chúng ta ở đây là tìm con số chính giữa của tập hợp.
Công thức: = median( B2:B11 )
Chúng ta đã tính giá trị median hay giá trị ở chính giữa của tập hợp các dữ liệu số.
Lưu ý:
Trong trường hợp chúng ta có một tập hợp có số các con số là một số lẻ, giá trị median sẽ là giá trị chính giữa chia đôi dữ liệu của chúng ta thành hai nhóm số chẵn bằng nhau. Nếu chúng ta có một tập hợp có số các con số là một số chẵn, như chúng ta làm trong ví dụ này với mười người, thì giá trị median có nghĩa là giá trị giữa của hai con số chính giữa.
Và với trường hợp mà tôi đang lấy ví dụ, giá trị của hai con số ở giữa, sau khi các dữ liệu được sắp xếp, là số 64,500 và 66,400. Chúng ta cộng hai con số này lại với tổng của nó là 130,900 sau đó chia cho hai. Từ đó chúng ta tìm ra giá trị median của tập hợp.
Giá trị median của chúng ta là $65,450
Định nghĩa: Giá trị Mode là giá trị được xuất hiện nhiều nhất trong tập hợp các con số. Cách xác định của chúng ta ở đây là tìm con số trùng với nhau nhiều nhất trong tập hợp.
Công thức: = mode( B2:B11 )
Và kết quả giá trị Mode được trả về trong tập dữ liệu này là: $67,000
Lưu ý:
Nếu không có giá trị nào trong tập hợp các con số của bạn xuất hiện nhiều lần (từ 2 trở lên), thì giá trị Mode không tồn tại và công thức trong Google Sheets sẽ trả về một kết quả lỗi (Error). Ảnh minh họa.
Như vậy tới đây là bạn đã nắm được 3 cách tính trung bình trong một tập hợp các con số thông dụng rồi.
Sau đây chúng ta cùng tìm hiểu về lỗi sai thường gặp khi có một số quá lớn trong tập hợp. Con số thứ mười một được thêm vào là của người giàu nhất thế giới. Tên anh ấy là Jeff Bezos và tài sản anh ấy được định giá khoảng một trăm hai mươi tỷ đô la, bạn đọc đúng đó, tổng tài sản có tới mười con số 0. Thật khó để có thể tưởng tượng số tiền đó có thể làm được những gì, nhưng quyết định rời bỏ công việc ở phố Wall (sàn chứng khoáng) và thành lập nên Amazon là một quyết định sáng suốt nhất của anh.
Vì thực tế của ví dụ này, chúng ta sẽ giả định là Jeff có mức lương mỗi năm là mười triệu đô la (do phần lớn tài sản trị giá một trăm hai mươi tỷ đô la của anh ấy là do việc nắm giữ cổ đông tại Amazon). Bây giờ chúng ta lại tiếp tục giả định là anh ấy vô tình vào quán bar này và tham gia cuộc trò chuyện của nhóm mười người của chúng ta. Anh ấy tham gia vào trò chơi với tư cách là người thứ mười một. Sau khi thêm vào số tiền lương của Jeff, tập dữ liệu của chúng ta sẽ thay đổi như sau:
Bạn nhận thấy được sự khác biệt giữa các con số trong tập dữ liệu chứ? Mức lương của Jeff có một tác động rất lớn đến một trong các giá trị trung bình của chúng ta. Tuy nhiên trong 3 giá trị, cái nào sẽ bị ảnh hưởng? Bạn thử đoán xem.
Bạn hãy nhìn kỹ tập dữ liệu mới với 11 mức lương ở trong hình 3, bây giờ chúng ta thử tính lại các giá trị Mean, Mode và Median của tập hợp các con số này.
Giá trị Mean mới là: $969,245
Giá trị Median mới là: $66,400
Giá trị Mode mới là $67,000
Bạn đoán đúng không? Hãy chú ý vào giá trị Mean mới của chúng ta. Nó đã tăng từ 66.170 đô la lên 969.245 đô la. Và nếu như đưa ra một kết luận sử dụng tập dữ liệu này. thì mức lương trung bình của nhóm 11 người này là gần 1 triệu đô la một năm. Đây là một kết luận vô cùng sai lầm.
Giá trị Mean (giá trị trung bình) của chúng ta đã bị lệch một cách đáng kể bởi một giá trị ngoại lệ, đến mức trở thành một con số khá vô nghĩa.
Như vậy, bạn có thể thấy rằng cách tính Mean thông dụng rất dễ bị ảnh hưởng bởi các giá trị ngoại lệ, những tác nhân bên ngoài.
Tuy nhiên, bạn hãy tập trung vào giá trị Median, lại giảm và giá trị Mode trong tập hợp không thay đổi chút nào. Mode và Median là những giá trị mà chúng ta gọi là những thống kê mạnh mẽ (robust statistics). Chúng hầu như không sai sót và cũng ít bị ảnh hưởng nhiều bởi các tác nhân bên ngoài.
Chúng tôi đã thấy giá trị trung bình hay giá trị Mean dễ bị ảnh hưởng như thế nào bởi các tác động bên ngoài và đây cũng chính là nhược điểm lớn nhất của nó. Đây không phải là một thống kê mạnh mẽ. Như chúng ta đã thấy trong ví dụ của mình, nó bị thay đổi nhiều đến mức kết quả nhận được là vô nghĩa. Tuy nhiên, ưu điểm của cách tính giá trị trung bình là
Ưu điểm của giá trị trung bình (Mean) là nó có thể được tính toán dựa trên các dữ liệu không liên quan đến nhau (như ví dụ ở trên) và các dữ liệu liên tục (ví dụ như chiều cao của con người).
Giá trị Median, giá trị ở chính giữa, chia đôi tập dữ liệu, cũng ít bị ảnh hưởng bởi các trường hợp ngoại lệ, Do đó, đây là một cách tính tốt hơn khi muốn tìm hiểu về các giá trị ở giữa của tập hợp các con số cũng như khi chúng ta biết có các giá trị ngoại lệ hoặc tập dữ liệu của chúng ta không đối xứng (số các giá trị là số lẻ).
Giá trị Mode, giá trị được xuất hiện nhiều lần nhất, có ưu điểm chính là nó có thể được sử dụng để tính các dữ liệu có giá trị là con số hay văn bản (không phải số). Tuy nhiên nhược điểm chính của nó là kết quả có thể là lỗi (khi không có giá trị nào xuất hiện 2 lần, một việc có thể xảy ra khi sử dụng tập dữ liệu liên tục) hoặc 2 giá trị Mode (2 giá trị có số lần xuất hiện như nhau) hoặc thậm chí nhiều giá trị Mode (nhiều giá trị có cùng số lần xuất hiện)
Vậy trong bài viết này bạn đã nắm thêm một chút kiến thức về công cụ Google Sheet rồi, cụ thể là về 3 cách để tính trung bình và biết được những ưu và nhước điểm của từng phương pháp. Để tìm hiểu thêm về các kiến thức liên quan đến Google Sheet, bạn hãy truy cập trang gitiho.com nhé.
Gitiho đã cho ra mắt khóa học Google Sheets từ Cơ bản đến Nâng cao, công cụ thay thế Excel giúp bạn hoàn toàn có thể tự tin phân tích và xử lý dữ liệu trên Google Sheet, lập bảng biểu, báo cáo trực quan và hơn thế nữa. Bấm vào để học thử ngay!