SQL - Handling Duplicates: A Beginner's Guide

Halo sana, para ahli SQL masa depan! Hari ini, kita akan manduk ke dalam dunia yang menarik tentang penanganan duplikat dalam SQL. Jangan khawatir jika Anda belum pernah menulis baris kode sebelumnya - saya akan menjadi panduan ramah Anda dalam perjalanan ini, dan kita akan mengambil langkah demi langkah. Pada akhir panduan ini, Anda akan dapat menangan duplikat seperti seorang profesional!

SQL - Handling Duplicates

Mengapa Penanganan Duplikat dalam SQL Penting?

Imaginasi Anda sedang mengatur pesta dan Anda punya daftar tamu. Anda tentu tidak ingin orang yang sama terdaftar dua kali, kan? Itu tepatnya mengapa penanganan duplikat dalam SQL sangat penting. Dalam dunia basis data, data duplikat dapat menyebabkan berbagai macam masalah:

  1. Menggunakan ruang penyimpanan yang sia-sia
  2. Dapat menyebabkan perhitungan dan laporan yang salah
  3. Menyulitkan pemeliharaan data

Biarkan saya bagikan cerita singkat. Pada awal hari saya sebagai administrator basis data, saya pernah mengabaikan beberapa duplikat dalam basis data pelanggan. Hasilnya? Tim pemasaran kami mengirimkan email promosi yang sama ke beberapa pelanggan beberapa kali. Tak perlu dikatakan, pelanggan-pelanggan tersebut tidak senang, dan saya belajar lesuannya dengan keras!

Pencegahan Masuknya Entri Duplikat

Cara terbaik untuk menangan duplikat adalah mencegah mereka memasuki basis data Anda pertama kali. Berikut adalah beberapa metode untuk mencapai ini:

1. Menggunakan Kunci Primer (Primary Key)

Kunci primer adalah kolom (atau kombinasi kolom) yang secara unik mengidentifikasi setiap baris dalam tabel. Dalam definisi, itu tidak dapat mengandung duplikat.

CREATE TABLE Students (
StudentID INT PRIMARY KEY,
FirstName VARCHAR(50),
LastName VARCHAR(50)
);

Dalam contoh ini, StudentID adalah kunci primer kami. SQL secara otomatis akan mencegah setiap nilai StudentID duplikat dari masuk.

2. Menggunakan Batasan Unik (Unique Constraint)

Batasan unik mirip dengan kunci primer tetapi dapat diterapkan ke kolom yang bukan kunci primer.

CREATE TABLE Employees (
EmployeeID INT PRIMARY KEY,
Email VARCHAR(100) UNIQUE,
FirstName VARCHAR(50),
LastName VARCHAR(50)
);

Di sini, kita menambahkan batasan unik ke kolom Email. Ini memastikan bahwa tidak ada dua karyawan yang memiliki alamat email yang sama.

3. Menggunakan INSERT IGNORE

Jika Anda menggunakan MySQL, Anda dapat menggunakan pernyataan INSERT IGNORE untuk diam-diam mengabaikan entri duplikat:

INSERT IGNORE INTO Students (StudentID, FirstName, LastName)
VALUES (1, 'John', 'Doe');

Jika sudah ada murid dengan StudentID 1, pernyataan ini tidak akan melempar kesalahan - ia hanya mengabaikan entri duplikat.

Menghitung dan Mengidentifikasi Duplikat

kadang-kadang, duplikat merusak data meskipun kita berusaha keras. Mari belajar bagaimana menemukannya!

Menghitung Duplikat

Untuk menghitung duplikat, kita dapat menggunakan klausa GROUP BY bersamaan dengan klausa HAVING:

SELECT FirstName, LastName, COUNT(*) as Count
FROM Students
GROUP BY FirstName, LastName
HAVING Count > 1;

Kueri ini mengelompokkan murid berdasarkan nama depan dan belakang mereka, kemudian menunjukkan hanya kelompok-kelompok yang memiliki lebih dari satu entri. Itu seperti mengatakan, "Tampilkankan semua nama yang muncul lebih dari satu kali, dan berapa kali mereka muncul."

Mengidentifikasi Duplikat Tertentu

Untuk melihat baris duplikat yang sebenarnya, kita dapat menggunakan self-join:

SELECT s1.*
FROM Students s1
JOIN Students s2 ON
s1.FirstName = s2.FirstName AND
s1.LastName = s2.LastName AND
s1.StudentID > s2.StudentID;

Kueri ini membandingkan setiap catatan murid dengan setiap catatan murid lainnya. Jika ia menemukan dua catatan dengan nama yang sama tetapi ID yang berbeda, ia menunjukkan catatan dengan ID yang lebih tinggi. Itu seperti mengatakan, "Tampilkankan semua murid yang memiliki nama yang sama seperti murid lain, tapi hanya tampilkan yang memiliki nomor ID yang lebih tinggi."

Menghapus Duplikat dari Tabel

Sekarang kita telah menemukan duplikat, mari membersihkannya!

1. Menggunakan DISTINCT

Kata kunci DISTINCT adalah cara termudah untuk menghapus duplikat dari hasil kueri:

SELECT DISTINCT FirstName, LastName
FROM Students;

Kueri ini akan menunjukkan setiap kombinasi unik nama depan dan belakang, terlepas dari berapa kali itu muncul dalam tabel.

2. Menggunakan GROUP BY

GROUP BY juga dapat digunakan untuk menghapus duplikat:

SELECT FirstName, LastName
FROM Students
GROUP BY FirstName, LastName;

Kueri ini memberikan hasil yang sama seperti DISTINCT, tetapi lebih fleksibel saat Anda perlu melakukan fungsi agregat.

3. Menghapus Duplikat Secara Permanen

Jika Anda perlu menghapus baris duplikat secara permanen dari tabel Anda, Anda dapat menggunakan subquery:

DELETE s1 FROM Students s1
INNER JOIN Students s2
WHERE
s1.FirstName = s2.FirstName AND
s1.LastName = s2.LastName AND
s1.StudentID > s2.StudentID;

Kueri ini menghapus semua murid duplikat, menjaga hanya yang memiliki StudentID terendah. Hatikan dengan baik ini - tidak ada tombol undo dalam SQL!

Berikut adalah tabel yang menyummarisakan metode yang kita diskusikan:

Metode Kasus Penggunaan Contoh
Kunci Primer Pencegahan duplikat CREATE TABLE Students (StudentID INT PRIMARY KEY, ...);
Batasan Unik Pencegahan duplikat di kolom tertentu CREATE TABLE Employees (Email VARCHAR(100) UNIQUE, ...);
INSERT IGNORE Mengabaikan duplikat (MySQL) INSERT IGNORE INTO Students ...
COUNT(*) dengan GROUP BY Menghitung duplikat SELECT ..., COUNT(*) ... GROUP BY ... HAVING Count > 1;
Self-Join Mengidentifikasi duplikat tertentu SELECT s1.* FROM Students s1 JOIN Students s2 ON ...
DISTINCT Menghapus duplikat dari hasil kueri SELECT DISTINCT FirstName, LastName FROM Students;
DELETE dengan Self-Join Menghapus duplikat secara permanen DELETE s1 FROM Students s1 INNER JOIN Students s2 WHERE ...

Dan itu saja! Anda sekarang dilengkapi dengan pengetahuan untuk menangan duplikat seperti seorangahli SQL. Ingat, dengan kekuatan yang besar datang tanggung jawab yang besar - selalu periksa kueri Anda sebelum menjalankan mereka, khususnya saat menghapus data. Semoga basis data Anda selalu bebas duplikat! Selamat coding!

Credits: Image by storyset