Hướng dẫn chi tiết về các hàm thống kê SQL cho người mới bắt đầu

Chào mừng các bạn, những nhà thuật toán dữ liệu tương lai! Hôm nay, chúng ta sẽ khám phá thế giới kỳ diệu của các hàm thống kê SQL. Đừng lo lắng nếu bạn chưa bao giờ viết một dòng mã trước đây - tôi sẽ là người hướng dẫn thân thiện của bạn trong hành trình thú vị này. Đến cuối bài hướng dẫn này, bạn sẽ tính toán số liệu như một chuyên gia!

SQL - Statistical Functions

Các hàm thống kê SQL là gì?

Trước khi chúng ta đi vào chi tiết, hãy hiểu các hàm thống kê trong SQL là gì. Hãy tưởng tượng chúng như những侦探 dữ liệu cá nhân của bạn, giúp bạn phát hiện ra những thông tin ẩn giấu trong cơ sở dữ liệu của bạn. Các hàm này thực hiện các phép toán trên một tập hợp các giá trị, cho bạn cái nhìn toàn diện về dữ liệu của bạn.

Tại sao chúng lại quan trọng?

Hãy tưởng tượng bạn đang kinh doanh một gian hàng nước chanh (ah, những kỷ niệm tuổi thơ ngọt ngào!). Bạn muốn biết mình bán trung bình bao nhiêu ly mỗi ngày, hoặc ngày bán chạy nhất là ngày nào. Các hàm thống kê trong SQL có thể giúp bạn trả lời những câu hỏi này và nhiều câu hỏi khác, nhưng với dữ liệu lớn hơn nhiều!

Các hàm thống kê SQL phổ biến

Hãy cùng làm quen với một số hàm thống kê được sử dụng phổ biến trong SQL. Tôi sẽ liệt kê chúng trong một bảng để dễ tham khảo:

Hàm Mô tả
AVG() Tính giá trị trung bình của một tập hợp các giá trị
COUNT() Đếm số lượng hàng hoặc giá trị không null
MAX() Trả về giá trị lớn nhất trong một tập hợp
MIN() Trả về giá trị nhỏ nhất trong một tập hợp
SUM() Tính tổng của một tập hợp các giá trị
STDEV() Tính độ lệch chuẩn của một tập hợp các giá trị
VAR() Tính phương sai của một tập hợp các giá trị

Bây giờ, hãy c rolled up our sleeves và xem các hàm này trong hành động!

Hàm AVG(): Tìm điểm giữa

Hàm AVG() giống như tìm tâm của một cối xay - nó cho bạn giá trị trung bình của một tập hợp các số.

SELECT AVG(price) AS average_price
FROM products;

Trong ví dụ này, chúng ta đang tính giá trị trung bình của tất cả các sản phẩm trong cửa hàng của chúng ta. Kết quả có thể trông như sau:

average_price
-------------
45.99

Điều này cho chúng ta biết rằng, trung bình, các sản phẩm của chúng ta có giá $45.99. Rất thú vị, phải không?

Hàm COUNT(): Câu trả lời cho câu hỏi "bao nhiêu"

Hàm COUNT() là công cụ lý tưởng cho các câu hỏi "bao nhiêu". Nó giống như đếm cừu, nhưng hữu ích hơn nhiều!

SELECT COUNT(*) AS total_customers
FROM customers;

Truy vấn này đếm tất cả các hàng trong bảng customers, cho chúng ta biết tổng số khách hàng:

total_customers
---------------
1000

Bây giờ chúng ta biết rằng chúng ta có 1000 khách hàng. Thời gian để ăn mừng!

Hàm MAX() và MIN(): Tìm các giá trị cực đoan

MAX() và MIN() giống như những siêu anh hùng của dữ liệu của bạn - chúng đến để tìm giá trị cao nhất và thấp nhất.

SELECT MAX(order_total) AS highest_order,
MIN(order_total) AS lowest_order
FROM orders;

Truy vấn này có thể trả về:

highest_order | lowest_order
--------------|--------------
999.99    |    5.99

Bây giờ chúng ta biết rằng người tiêu dùng lớn nhất của chúng ta đã chi 999.99 đô la, trong khi người tiêu dùng tiết kiệm nhất chỉ chi 5.99 đô la.

Hàm SUM(): Tính tổng tất cả

Hàm SUM() giống như một máy tính tăng cường - nó cộng tất cả các giá trị trong một cột.

SELECT SUM(quantity) AS total_items_sold
FROM order_details;

Kết quả có thể là:

total_items_sold
----------------
50000

Wow! Chúng ta đã bán 50.000 mặt hàng. Đó là rất nhiều khách hàng hạnh phúc!

Hàm STDEV() và VAR(): Cho những ai yêu thích thống kê

Những hàm này là cho khi bạn muốn làm phân tích sâu hơn. STDEV() tính độ lệch chuẩn, trong khi VAR() cho bạn phương sai.

SELECT STDEV(price) AS price_std_dev,
VAR(price) AS price_variance
FROM products;

Kết quả có thể là:

price_std_dev | price_variance
--------------|----------------
15.75     |    248.0625

Những con số này cho chúng ta biết mức độ phân tán của giá cả sản phẩm của chúng ta. Độ lệch chuẩn cao có nghĩa là chúng ta có một phạm vi giá rộng.

Kết hợp tất cả: Ví dụ thực tế

Giả sử chúng ta đang phân tích cửa hàng sách trực tuyến của chúng ta. Chúng ta muốn có cái nhìn tổng quan về dữ liệu đơn hàng của mình:

SELECT
COUNT(*) AS total_orders,
AVG(total_amount) AS avg_order_value,
MAX(total_amount) AS largest_order,
MIN(total_amount) AS smallest_order,
SUM(total_amount) AS total_revenue,
STDEV(total_amount) AS order_value_std_dev
FROM orders
WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31';

Truy vấn này cung cấp cho chúng ta một lượng thông tin phong phú về đơn hàng của chúng ta trong năm 2023:

total_orders | avg_order_value | largest_order | smallest_order | total_revenue | order_value_std_dev
-------------|-----------------|---------------|----------------|---------------|---------------------
10000    |     75.50       |    500.00     |     10.00      |   755000.00   |        45.25

Từ điều này, chúng ta có thể suy ra rằng chúng ta đã có 10.000 đơn hàng trong năm 2023, với giá trị đơn hàng trung bình là $75.50. Đơn hàng lớn nhất của chúng ta là $500, trong khi đơn hàng nhỏ nhất là $10. Chúng ta đã đạt doanh thu tổng cộng $755.000, và độ lệch chuẩn $45.25 cho thấy có sự thay đổi lớn trong giá trị đơn hàng của chúng ta.

Kết luận: Hành trình thống kê của bạn bắt đầu!

Chúc mừng! Bạn đã chính thức bước vào thế giới của các hàm thống kê SQL. Những công cụ mạnh mẽ này có thể giúp bạn hiểu dữ liệu của mình theo những cách bạn không thể tưởng tượng. Nhớ rằng, thực hành là chìa khóa, vì vậy đừng ngần ngại thử nghiệm các hàm này trên các tập dữ liệu của riêng bạn.

Trong hành trình SQL của bạn, bạn sẽ khám phá nhiều cách khác để phân tích dữ liệu của mình. Ai biết được? Bạn có thể trở thành Sherlock Holmes của cơ sở dữ liệu, giải quyết các bí ẩn dữ liệu từ trái sang phải!

Tiếp tục mã hóa, tiếp tục học hỏi, và quan trọng nhất, hãy vui vẻ trong những cuộc phiêu lưu dữ liệu của bạn!

Credits: Image by storyset