数据库管理系统 - 散列：初学者指南

你好，未来的数据库大师们！今天，我们将深入数据库管理系统（DBMS）中散列的神奇世界。如果你之前从未编写过一行代码，也不用担心——我将在这次冒险中作为你的友好向导。那么，拿起你的虚拟魔杖（键盘），让我们开始吧！

DBMS - Hashing

什么是散列？

在我们深入了解细节之前，先来理解一下散列是什么。想象你正在组织一个庞大的图书馆。你决定根据书名给每本书分配一个唯一的数字，而不是按字母顺序排列书籍。这就是数据库中散列所做的事情——它将数据转换成一个固定大小的值（称为散列值），以便于存储和检索。

一个简单的散列示例

让我们从一个基本的Python示例开始，说明散列：

def simple_hash(string):
total = 0
for char in string:
total += ord(char)
return total % 10

print(simple_hash("Hello"))  # 输出: 2
print(simple_hash("World"))  # 输出: 7

在这个示例中，我们创建了一个非常简单的散列函数。它计算字符串中每个字符的ASCII值的总和，然后使用模运算符得到一个0到9之间的数字。这是一种非常基本的散列形式，但它让你了解了它是如何工作的。

散列组织

现在我们对散列有了基本的了解，让我们看看它在数据库中是如何组织的。

散列表

散列表是散列组织的核心。可以把散列表想象成一个高级数组，其中每个元素（通常称为桶）可以存储多个项目。

以下是一个简单的Python散列表实现：

class HashTable:
def __init__(self, size):
self.size = size
self.table = [[] for _ in range(self.size)]

def hash_function(self, key):
return hash(key) % self.size

def insert(self, key, value):
hash_key = self.hash_function(key)
self.table[hash_key].append((key, value))

def get(self, key):
hash_key = self.hash_function(key)
for k, v in self.table[hash_key]:
if k == key:
return v
return None

# 使用我们的散列表
ht = HashTable(10)
ht.insert("apple", 5)
ht.insert("banana", 7)
print(ht.get("apple"))  # 输出: 5
print(ht.get("grape"))  # 输出: None

这个散列表使用Python内置的hash()函数和模运算符来确定每个键值对应该存储在哪里。当我们想要检索一个值时，我们使用相同的过程来找到它应该存储的位置。

静态散列

静态散列就像在图书馆中有固定数量的书架。你知道你可以精确存储多少本书，但如果你有很多关于一个主题的书，可能会遇到问题。

静态散列的优缺点

优点	缺点
实现简单	可能导致分布不均
对于小数据集快速	对于增长的数据集不灵活
性能可预测	可能浪费空间

桶溢出

有时，我们的散列函数可能会将太多项目发送到同一个桶。这称为桶溢出，就像试图把太多的书塞到同一个书架上。

处理溢出

有多种方法可以处理溢出：

链表法：每个桶包含一个条目的链表。
开放寻址：如果一个桶已满，我们会寻找下一个空的桶。

让我们在之前的散列表中实现链表法：

class ChainedHashTable:
def __init__(self, size):
self.size = size
self.table = [[] for _ in range(self.size)]

def hash_function(self, key):
return hash(key) % self.size

def insert(self, key, value):
hash_key = self.hash_function(key)
for item in self.table[hash_key]:
if item[0] == key:
item[1] = value
return
self.table[hash_key].append([key, value])

def get(self, key):
hash_key = self.hash_function(key)
for k, v in self.table[hash_key]:
if k == key:
return v
return None

# 使用我们的链表法散列表
cht = ChainedHashTable(10)
cht.insert("apple", 5)
cht.insert("banana", 7)
cht.insert("cherry", 3)
print(cht.get("apple"))  # 输出: 5
print(cht.get("cherry"))  # 输出: 3

在这个实现中，每个桶可以持有多个键值对，解决了溢出问题。

动态散列

动态散列就像拥有一个可以随着需要增长新书架的魔法图书馆。它比静态散列更灵活，并能适应增长的数据集。

可扩展散列

一种流行的动态散列形式是可扩展散列。它使用一个可以增长或缩小目录结构。

以下是一个简化的可扩展散列实现：

class ExtendibleHashTable:
def __init__(self, bucket_size=2):
self.bucket_size = bucket_size
self.global_depth = 1
self.directory = [[] for _ in range(2**self.global_depth)]

def hash_function(self, key):
return hash(key) % (2**self.global_depth)

def insert(self, key, value):
hash_key = self.hash_function(key)
if len(self.directory[hash_key]) < self.bucket_size:
self.directory[hash_key].append((key, value))
else:
self._split(hash_key)
self.insert(key, value)

def _split(self, index):
self.global_depth += 1
new_directory = [[] for _ in range(2**self.global_depth)]
for i, bucket in enumerate(self.directory):
new_index = i if i < index else i + 2**(self.global_depth-1)
new_directory[new_index] = bucket
self.directory = new_directory

def get(self, key):
hash_key = self.hash_function(key)
for k, v in self.directory[hash_key]:
if k == key:
return v
return None

# 使用我们的可扩展散列表
eht = ExtendibleHashTable()
eht.insert("apple", 5)
eht.insert("banana", 7)
eht.insert("cherry", 3)
eht.insert("date", 9)
print(eht.get("apple"))  # 输出: 5
print(eht.get("date"))   # 输出: 9

这个实现允许散列表随着更多项目的添加而动态增长。

组织和操作

现在我们已经涵盖了散列的基础知识和一些实现，让我们总结一下关键操作及其复杂度：

操作	平均时间复杂度	最坏情况
插入	O(1)	O(n)
删除	O(1)	O(n)
搜索	O(1)	O(n)

平均情况下通常非常快，这就是为什么散列如此受欢迎的原因。然而，在 worst case（当所有项目散列到同一个桶时），性能可能会降低到链表的性能。

结论

恭喜你！你已经迈出了进入数据库管理系统散列世界的第一步。记住，散列是关于在速度和空间之间找到平衡。当正确使用时，它是一个强大的工具，可以显著提高你的数据库操作速度。

在你继续计算机科学的旅程中，你会在许多其他上下文中遇到散列——从密码存储到缓存系统。每次你使用Python中的字典或JavaScript中的对象时，你都是在受益于散列的魔法！

继续练习，保持好奇心，快乐编码！

Credits: Image by storyset