MySQL - Tìm Ghi Chép Trùng Lặp

Xin chào, những người yêu thích cơ sở dữ liệu! Hôm nay, chúng ta sẽ cùng nhau lặn sâu vào thế giới của MySQL và học cách tìm những ghi chép trùng lặp phiền phức. Là giáo viên máy tính hàng xóm thân thiện của bạn, tôi rất vui mừng được hướng dẫn bạn trong hành trình này. Đừng lo lắng nếu bạn là người mới bắt đầu lập trình - chúng ta sẽ bắt đầu từ những điều cơ bản và dần dần nâng cao. Hãy cùng bắt đầu!

MySQL - Find Duplicate Records

Hiểu Về Ghi Chép Trùng Lặp

Trước khi chúng ta nhảy vào mã, hãy cùng hiểu ghi chép trùng lặp là gì. Hãy tưởng tượng bạn có một hộp đầy những viên đá quý nhiều màu sắc. Nếu bạn có hai hoặc nhiều viên đá có cùng màu sắc, kích thước và mẫu mã, những viên đó là trùng lặp. Trong术语 cơ sở dữ liệu, ghi chép trùng lặp là các hàng trong bảng có giá trị identical trong một hoặc nhiều cột.

Tìm Ghi Chép Trùng Lặp

Bây giờ, hãy cùng khám phá các phương pháp khác nhau để tìm ghi chép trùng lặp trong MySQL. Chúng ta sẽ sử dụng một ví dụ đơn giản về bảng students trong suốt bài học.

1. Sử Dụng GROUP BY và Câu Lệnh HAVING

Đây là một trong những phương pháp đơn giản nhất để tìm trùng lặp. Hãy cùng phân tích từng bước.

SELECT name, email, COUNT(*)
FROM students
GROUP BY name, email
HAVING COUNT(*) > 1;

Hãy giải mã truy vấn này:

  • SELECT name, email: Chúng ta chọn các cột để hiển thị.
  • COUNT(*): Điều này đếm số lần xuất hiện.
  • FROM students: Đây là tên bảng của chúng ta.
  • GROUP BY name, email: Chúng ta nhóm các ghi chép có cùng tên và email.
  • HAVING COUNT(*) > 1: Điều này lọc để hiển thị chỉ các nhóm có hơn một ghi chép.

Hãy tưởng tượng bạn đang sắp xếp một đống đơn đăng ký học sinh. Bạn nhóm chúng theo tên và email, sau đó lấy ra những đống có hơn một đơn đăng ký. Đó chính xác là điều mà truy vấn này làm!

2. Sử Dụng Hàm ROW_NUMBER() Cùng với PARTITION BY

Phương pháp này hơi phức tạp hơn nhưng rất mạnh mẽ. Nó gán một số cho mỗi hàng trong một phần của tập kết quả.

WITH CTE AS (
SELECT *,
ROW_NUMBER() OVER (PARTITION BY name, email ORDER BY id) AS row_num
FROM students
)
SELECT * FROM CTE WHERE row_num > 1;

Hãy phân tích này:

  • WITH CTE AS (...): Điều này tạo một Biểu Thức Bảng Chung (CTE), giống như một tập kết quả tạm thời có tên.
  • ROW_NUMBER() OVER (PARTITION BY name, email ORDER BY id): Điều này gán một số cho mỗi hàng, bắt đầu từ 1 trong mỗi nhóm tên và email.
  • SELECT * FROM CTE WHERE row_num > 1: Điều này chọn tất cả các hàng nơi số hàng lớn hơn 1, có nghĩa là nó là trùng lặp.

Hãy tưởng tượng việc cấp số cho mỗi học sinh dựa trên khi họ đăng ký, nhưng bắt đầu lại cho mỗi sự kết hợp duy nhất của tên và email. Sau đó, chúng ta chọn tất cả các học sinh không phải là người đầu tiên đăng ký với tên và email của họ.

3. Sử Dụng Kết Nối Tự Nhiên

Một phương pháp khác liên quan đến việc kết nối bảng với chính nó. Dưới đây là cách nó hoạt động:

SELECT DISTINCT s1.*
FROM students s1
JOIN students s2
ON s1.name = s2.name AND s1.email = s2.email AND s1.id > s2.id;

Truy vấn này:

  • Kết nối bảng students với chính nó.
  • Khớp các ghi chép nơi tên và email là alike, nhưng ID khác nhau.
  • s1.id > s2.id đảm bảo chúng ta không nhận được cùng một ghi chép hai lần.

Hãy tưởng tượng bạn đang so sánh mỗi đơn đăng ký học sinh với đơn đăng ký của học sinh khác. Khi bạn tìm thấy hai đơn đăng ký khớp với tên và email nhưng có ID khác nhau, bạn đã tìm thấy một trùng lặp!

Tìm Ghi Chép Trùng Lặp Sử Dụng Chương Trình Khách

Đôi khi, bạn có thể muốn tìm trùng lặp sử dụng một chương trình khách như Python. Dưới đây là một ví dụ đơn giản:

import mysql.connector

# Kết nối với cơ sở dữ liệu
mydb = mysql.connector.connect(
host="localhost",
user="yourusername",
password="yourpassword",
database="yourdatabase"
)

mycursor = mydb.cursor()

# Thực thi truy vấn
mycursor.execute("""
SELECT name, email, COUNT(*)
FROM students
GROUP BY name, email
HAVING COUNT(*) > 1
""")

# Lấy và in kết quả
myresult = mycursor.fetchall()

for x in myresult:
print(x)

Chương trình Python này:

  1. Kết nối với cơ sở dữ liệu MySQL của bạn.
  2. Thực thi truy vấn SQL mà chúng ta đã học trước đó.
  3. Lấy và in kết quả.

Đó như có một trợ lý robot đi qua cơ sở dữ liệu của bạn, tìm ra các trùng lặp và báo cáo lại cho bạn!

So Sánh Các Phương Pháp

Dưới đây là một so sánh nhanh các phương pháp chúng ta đã thảo luận:

Phương Pháp Ưu Điểm Nhược Điểm
GROUP BY và HAVING Đơn giản, hoạt động trên tất cả các phiên bản MySQL Có thể chậm trên các bộ dữ liệu lớn
ROW_NUMBER() Hiệu quả, linh hoạt Yêu cầu MySQL 8.0+
Kết Nối Tự Nhiên Hoạt động trên tất cả các phiên bản MySQL Có thể phức tạp cho nhiều cột
Chương Trình Khách Cho phép xử lý thêm kết quả Yêu cầu cài đặt và mã hóa thêm

Kết Luận

Chúc mừng! Bạn vừa học được nhiều cách để tìm ghi chép trùng lặp trong MySQL. Nhớ rằng mỗi phương pháp có những ưu điểm riêng, và sự lựa chọn tốt nhất phụ thuộc vào tình huống cụ thể của bạn. Khi bạn tiếp tục hành trình cơ sở dữ liệu, bạn sẽ phát triển trực giác để biết phương pháp nào nên sử dụng khi nào.

Tiếp tục thực hành, giữ vững sự tò mò, và đừng ngại thử nghiệm. Ai biết được? Bạn có thể甚至会 phát hiện ra một phương pháp mới để tìm trùng lặp! Hẹn gặp lại, chúc bạn lập trình vui vẻ!

Credits: Image by storyset