欢迎访问Leo的技术日志

欢迎来到我的个人技术博客！在这里，我将分享那些让我感到兴奋和好奇的技术话题，以及一些在传统教育中往往被忽视、但对年轻人成长至关重要的知识。

关于本博客

这个博客是我记录学习历程、分享见解和思考的地方。我相信技术不仅仅是代码和系统，更是解决问题的思维方式。同时，我也深知成长不应局限于技术层面，生活中还有许多值得探索的领域。

你会在这里看到什么？

技术话题

我会深入探讨一些我认为有趣且值得关注的技术领域：

ZFS文件系统：这个强大的文件系统如何实现数据完整性、快照和高效存储管理
RISC-V架构：开源指令集架构的崛起及其对未来计算的影响
Linux系统：从内核机制到实用技巧的全方位探索
其他技术专题：包括但不限于分布式系统、网络协议、性能优化等

非技术内容

学校教育往往专注于学科知识，但生活需要的远不止这些。我也会分享：

个人成长与心智模式：如何建立健康的思维习惯
财务素养：年轻人应该了解的理财基础
人际关系与沟通：建立有意义的连接
时间管理与自我规划：如何更有效地达成目标
职业发展思考：从学生到职场的转变

我的初衷

创建这个博客的原因很简单：我想把学到的东西整理出来，既帮助自己加深理解，也希望能对其他人有所帮助。如果我的文章能让你产生新的想法，或者帮你解决了某个问题，那就太好了。

技术世界日新月异，保持学习和分享的习惯让我始终充满动力。希望你也能在这里找到有价值的内容。

保持更新

这个博客会持续更新，我会尽量保持一定的发文频率。如果你对某个话题特别感兴趣，或者有任何建议，欢迎随时与我交流。

让我们一起探索技术的深度，也拓展生活的广度。

漫谈Stack-Based VM的设计(1)

Leo - 1 February, 2026

Stack-based VM（栈式虚拟机）是一种用栈结构来管理指令执行和内存操作的虚拟机模型。可以把它想象成一个"叠盘子"的机器——每次操作都从栈顶取数据，结果也放回栈顶，使用者不需要关心数据存储在哪里。

它的核心特点是：所有算术运算、逻辑运算、函数调用等操作，都通过压栈（push）和弹栈（pop）来完成。比如计算"1+2"，会先把1和2压入栈，然后执行加法指令，从栈顶弹出两个数相加，再把结果3压回栈顶。这种设计让指令集变得非常简洁（每条指令通常只有操作码，不需要指定操作数地址），但相比寄存器式VM，因为频繁的栈操作会产生额外开销，执行效率相对较低。

很多编程语言的运行时环境都采用这种模型，因为它实现简单、跨平台性好，适合作为中间表示层。

这里说的"栈"指的是操作数栈（operand stack），用于临时存放计算过程中的数据，和程序调用栈（call stack）是分开的。

怎么设计一个最小的VM

VM 的本质

一个 VM 至少需要三样东西：指令序列（Bytecode）、执行状态（State）、解释循环（Fetch → Decode → Execute）。

所以最小 VM 可以被描述为：

while (true):
    instr = code[ip]
    ip++
    execute(instr)

区别只在于：状态如何组织。

为什么选择 Stack-Based？

在 Stack-Based VM 中，核心状态是一个操作数栈（Operand Stack）和一个指令指针（IP）。指令隐式地从栈中取操作数、把结果放回栈中。

例如：

PUSH 1
PUSH 2
ADD

执行过程：

stack: []
PUSH 1  -> [1]
PUSH 2  -> [1, 2]
ADD     -> pop 2, pop 1, push 3 -> [3]

Stack-Based VM 最重要的特点：指令不需要显式指定操作数位置。

关于 Stack-Based VM 的 PUSH、POP 和 DUP 指令

为什么在很多 Stack-Based VM 的指令中看不到 PUSH 指令？

Stack-Based VM 一定存在 push 行为，只是：push 往往是"指令的副作用"，而不是一个独立、频繁出现的显式操作。所以不会单独设计一个 PUSH 指令。

我这些年对鼠标和键盘的真实看法

Leo - 20 December, 2025

这篇文章不是评测，也不是导购，而是我作为一名程序员，在踩过足够多坑之后，对鼠标和键盘的一些个人结论。

这些结论不一定适合你，但如果你和我一样：

每天长时间使用电脑
在 macOS / Windows 之间来回切换
不想把时间浪费在无意义的折腾上

那这篇文章也许能帮你少花钱、少走弯路。

一个先说清楚的前提

99% 的电子产品都没有收藏价值。

键盘、鼠标也一样。
它们会老化、会贬值、会被更好的产品替代。

如果你已经觉得某个设备不顺手了，
不要给它找“情怀”“习惯”“再适应一下”的理由，
尽早出掉，止损就是赚。

我对键盘的核心观点

1. 手感优先，其它都是次要条件

无论是机械、静电容还是薄膜，
你愿不愿意每天用它打字 8 小时，才是最重要的。

参数、轴体名称、配列信仰，在长期使用面前都不重要。

2. 多设备切换能力非常重要

如果你需要在 2–3 台电脑之间切换，
那“连接是否稳定、切换是否顺手”，
远比“键帽材质”“RGB 灯效”重要得多。

我长期用下来认可的键盘类型

静电容键盘：只推荐宁芝（NIZ）35g

我目前唯一认可的静电容键盘是宁芝 35g。

原因很简单：

手感稳定，不会明显随时间变硬
兼容 macOS 和 Windows
支持真正可用的多模连接

HHKB 是很多人绕不开的产品，但我的结论很明确：
它更像是极客符号，而不是长期工具。

我自己的 HHKB Pro BT：

手感已经明显变硬
塑料外壳开始泛黄
二手价格几乎没有保值性

如果你只是想“好好用键盘”，
而不是折腾胶碗、改件、信仰加成，
那 HHKB 可以直接跳过。

机械键盘：Filco Minila 是我认可的类型

Filco Minila 是我第一把真正让我满意的机械键盘。

它让我意识到一件事：
机械键盘的稳定性，比花哨更重要。

钢板带来的敲击稳定感，
比什么轴体参数都来得直接。

ZFS 误区

Leo - 3 December, 2025

误解：ZFS只是一种soft RAID 或者 ZFS只是一种文件系统

传统的RAID和文件系统是分层的，而ZFS的文件系统和提供的RAID功能则是一体的。无论是硬件RAID卡还是mdadm都是无法感知文件系统到底使用了哪些块的，但ZFS却可以。

mdadmin创建soft RAID的时候，阵列需要经过漫长的resyncing状态，而ZFS创建raidz的时候几乎是瞬间就完成了。

在阵列重建的时候，传统RAID不管上面实际存储的数据有多少，都是固定的、漫长的重建时间。而ZFS阵列的重建是和实际存储的数据量相关的。

误解：ZFS 需要 ECC 内存，不用就会损坏数据

虽然强烈推荐使用ECC内存，但ZFS不强制要求ECC内存，在没有ECC的系统上仍能正常工作。

如果你的业务很重要你本来就应该考虑使用ECC内存。ZFS遇到内存错误和你其他业务系统遇到内存错误的场景是一样的。

使用ECC内存可以减少遇到silent memory corruption的概率。

误解：ZFS 的ARC很吃内存，没有大量内存就不能用ZFS

ZFS的ARC(自适应替换缓存)会动态使用空闲内存；系统需要内存的时候ARC会归还。正常情况下不推荐你修改ARC大小的配置。

8GB内存就可以使用ZFS。但如果你只有8GB内存，你还需要用它来部署虚拟机，那就不推荐你使用ZFS了。

误解：ZFS 很慢

很慢可能来自于你使用传统的磁盘IO测试工具去测试ZFS系统。你用传统的IO测试工具测试不一定能反应出ZFS的真实性能，因为ZFS和传统的RAID或文件系统不太一样。

很慢还可能是因为RAID-Z上的写放大原因，这和传统没有cache的RAID面临的问题一样。

在使用硬件RAID卡的时候可以选择带cache的阵列卡，而在ZFS上我们可以使用SLOG实现写cache。

此外还有其他的各种原因：如配置了sync=always，选择了不合适的压缩算法, CPU性能太弱, ARC设置得太小, 对齐问题……

误解：ZFS 不适合虚拟机 / 数据库

我们要优先使用vdev而不是qcow2格式的磁盘文件作为虚拟机的磁盘。使用qcow2就是增加了一层，ZFS感知的是这个虚拟机文件的读写情况而不是真实虚拟机磁盘的读写。

两种都能提供快照功能。

配置recordsize=16K。

可以开启lz4的压缩。

使用SSD作为SLOG。

误解：使用硬件 RAID搭配ZFS

看起来是强强联合，实际上违背了一个ZFS的原则（让ZFS直接和真实的硬盘通信）。如果使用硬件阵列卡应该配置为IT模式。

同样的情况也适用于SLOG的SSD磁盘，为了提供SLOG的可靠性，让ZFS以mirror的形式使用2个SSD, 而不是把2个SSD组成RAID后再给ZFS使用。

误解：ZFS 不需要备份，因为它有快照

快照 ≠ 备份，只是同池副本。这个原则适用于所有有快照功能的存储系统(如NTFS)。有冗余的RAID也不等于备份。

使用ZFS send/recv进行备份。

误解：ZFS一定要配置L2ARC

ZFS的L2ARC（第二级自适应替换缓存）不是必须配置的，而是可选的性能优化组件。

如果条件允许(内存足够大)应该首先确保ARC，因为内存的速度远大于SSD的速度。如果ARC足够使用，完全不需要配置L2ARC。

在读密集场景，ARC不足时，L2ARC才有作用。

在大多数虚拟化场景下，L2ARC并非必要，甚至可能有害。

误解：ZFS能自动修复所有数据损坏

ZFS能检测并修复数据损坏，但前提是你使用了冗余配置（如Mirror或RAIDZ）。单盘配置下，ZFS只能检测到损坏但无法修复。

这其实和无RAID的其他文件系统一样。

误解：所有的ZFS都是兼容

NAS厂家的NAS系统里面带的ZFS系统可能是厂家魔改过的，所以它们不一定都兼容。

误解：ZFS去重是必开的“黑科技”，能节省大量空间

实时去重会带来巨大的性能开销和内存消耗。除非你了解它的细节和有足够的资源，否则就不要去用它。

graph TD Start[开始选择存储方案] --> Q1{数据量是否
小于4TB?} Q1 -->|是| Q2{是否需要多设备
同时访问?} Q1 -->|否| Q3{预算是否
超过3000元?} Q2 -->|否| Q2a{是否需要
自动备份?} Q2 -->|是| NAS1[推荐: 2盘位入门NAS
群晖/威联通
使用自带文件系统] Q2a -->|否| HDD[推荐: 移动硬盘
最经济的选择
定期手动备份] Q2a -->|是| NAS1 Q3 -->|否| HDD Q3 -->|是| Q4{是否有Linux
使用经验?} Q4 -->|否| NAS2[推荐: 4盘位成品NAS
群晖/威联通
RAID5/SHR模式
使用自带文件系统] Q4 -->|是| Q5{是否愿意投入
时间学习维护?} Q5 -->|否| NAS2 Q5 -->|是| Q6{数据量是否
超过20TB?} Q6 -->|否| Q7{是否追求最高
数据完整性?} Q6 -->|是| Q8{预算是否
超过10000元?} Q7 -->|否| Q7a{内存是否
少于8GB?} Q7 -->|是| Q7b{内存是否
≥16GB?} Q7a -->|是| MDADM1[推荐: mdadm
RAID1/RAID10
灵活扩展
成本最低] Q7a -->|否| Q7b Q7b -->|否| MDADM1 Q7b -->|是| ZFS1[推荐: ZFS
TrueNAS/Ubuntu
端到端校验
快照功能] Q8 -->|否| Q9{内存是否
≥32GB?} Q8 -->|是| Q10{是否需要高性能
随机读写?} Q9 -->|否| MDADM2[推荐: mdadm
RAID6/RAID10
大容量扩展
定期校验] Q9 -->|是| ZFS2[推荐: ZFS
RAIDZ2配置
大容量存储池
定期快照] Q10 -->|是| HWRAID[推荐: 硬件RAID卡
LSI/Broadcom
带BBU电池
RAID6/RAID10
企业级方案] Q10 -->|否| ZFS2 style HDD fill:#90EE90 style NAS1 fill:#87CEEB style NAS2 fill:#87CEEB style MDADM1 fill:#FFB6C1 style MDADM2 fill:#FFB6C1 style ZFS1 fill:#DDA0DD style ZFS2 fill:#DDA0DD style HWRAID fill:#FFD700

引言

在选择个人存储方案时,普通用户常常面临多种选择:移动硬盘、NAS、自建存储系统等。而在自建存储中,ZFS、mdadm、硬件RAID等技术又让人眼花缭乱。本文将帮助你根据实际需求,选择最适合的存储方案。

硬盘接口与协议演进：从IDE到NVMe的技术变革

Leo - 1 December, 2025

在计算机存储领域，硬盘接口技术经历了数十年的演进。从早期的IDE到如今的NVMe，每一代技术都在性能、可靠性和应用场景上有着显著差异。本文将带你深入了解这些存储接口的特点，以及它们背后的技术逻辑。

一、传统机械硬盘时代：IDE与SCSI的分野

IDE：个人电脑的主流选择

IDE（Integrated Drive Electronics），也称为ATA或PATA（并行ATA），是上世纪90年代到21世纪初个人电脑的标配。它使用40针或80针的宽扁平排线，采用并行数据传输方式。

主要特点：

传输速度：最高133MB/s
价格低廉，易于安装
一条数据线只能连接两个设备（主盘+从盘）
现已基本淘汰，只在老旧设备中可见

IDE的设计初衷是降低成本，让普通消费者都能用上硬盘存储。虽然性能有限，但在那个年代已经足够满足办公和娱乐需求。

SCSI：企业级的性能标杆

SCSI（Small Computer System Interface，读作"skuzzy"）则走了完全不同的路线。它是为高性能计算和服务器环境设计的并行接口标准。

核心优势：

传输速度可达320MB/s（Ultra320 SCSI）
一条总线支持连接最多15个设备
支持热插拔
CPU占用率极低
高可靠性和错误纠正能力

为什么SCSI的CPU占用率低？

这是SCSI相比IDE的关键优势。SCSI控制器配备了强大的独立芯片，能够自主处理大部分I/O操作，包括命令队列管理、数据缓存、错误检测和纠正。CPU只需发出指令并接收结果，不用参与繁琐的数据传输细节。

在服务器高并发环境下，这个优势尤为明显：

使用IDE/SATA硬盘时，CPU可能要花10-20%的时间处理磁盘I/O
使用SCSI硬盘时，CPU占用可能只有5%以下

价格与应用：

SCSI的高性能是有代价的。一块SCSI硬盘的价格往往是同容量IDE硬盘的数倍，还需要购买专用的SCSI控制卡。因此，SCSI主要应用在服务器、工作站和高端图形处理系统中。

二、串行时代的到来：SATA与SAS

进入21世纪，并行传输的物理限制日益明显：宽扁平线缆影响机箱内部散热，信号干扰问题严重，难以进一步提升速度。串行传输技术应运而生。

SATA：IDE的继任者

SATA（Serial ATA）于2003年推出，迅速成为个人电脑和消费级市场的新标准。

技术特点：

使用7针细数据线，机箱内布线更灵活
采用串行传输，抗干扰能力强
支持热插拔
逐代演进：SATA I（150MB/s）→ SATA II（300MB/s）→ SATA III（600MB/s）

队列深度：

SATA硬盘采用NCQ（Native Command Queuing）技术，队列深度为32个命令。这意味着硬盘可以同时接收32个读写指令，并智能地重新排序执行，以减少磁头移动时间。

对于个人用户的单任务场景（打开文件、播放视频、浏览网页），32的队列深度完全够用。

SAS：SCSI的串行化升级

SAS（Serial Attached SCSI）是SCSI技术的串行版本，保留了SCSI的企业级特性，同时解决了并行传输的物理限制。

核心优势：

传输速度：12Gb/s甚至更高（SAS-3、SAS-4）
队列深度：254个命令
支持全双工通信（可同时读写）
双端口设计，提供冗余路径
向下兼容SATA硬盘
更高的MTBF（平均无故障时间）

SATA vs SAS：最大的区别是什么？

很多人以为是速度，但实际上最核心的差异是命令队列深度和多任务处理能力。

想象一个场景：

个人电脑：你一次打开几个文件，SATA的32命令队列绰绰有余
数据库服务器：同时有100个用户在查询、更新数据，大量随机I/O请求涌入，SAS的254命令队列能更高效地调度和优化这些请求

SAS硬盘在高并发、多用户环境下的性能优势是指数级的。它能智能重排命令执行顺序，将原本需要多次磁头移动的操作合并优化，大幅降低延迟。

ZFS 性能调优与问题排查

Leo - 30 November, 2025

在部署和维护 ZFS 存储系统时,性能优化和故障排查是两项至关重要的技能。本文将深入探讨如何通过缓存设备加速 I/O、合理管理内存资源、避免常见性能陷阱,以及快速诊断系统问题。

缓存加速:充分利用 SSD 的威力

ZFS 提供了两种独特的缓存机制,可以通过添加高速 SSD 设备来显著提升存储性能。

ZIL:加速同步写入的关键

ZFS Intent Log (ZIL) 是 ZFS 用于处理同步写入操作的事务日志机制。当应用程序执行同步写入时(例如数据库提交事务或使用 fsync() 调用),ZFS 首先将数据写入 ZIL,确认写入成功后立即返回给应用程序,然后再异步地将数据写入主存储池。

为什么 ZIL 很重要?

对于数据库服务器、虚拟机或任何依赖同步写入保证数据完整性的应用,ZIL 的性能直接决定了整体吞吐量。默认情况下,ZIL 位于主存储池中,如果使用的是机械硬盘,每次同步写入都需要等待磁盘寻道,这会成为严重的性能瓶颈。

使用独立的 SLOG 设备:

通过添加一个或多个高速 SSD 作为独立的 SLOG(Separate LOG)设备,可以将 ZIL 从主存储池中分离出来:

# 添加单个 SLOG 设备
zpool add mypool log /dev/sdb

# 添加镜像的 SLOG 设备(推荐,提供冗余保护)
zpool add mypool log mirror /dev/sdb /dev/sdc

关键考虑因素:

容量需求不大: ZIL 通常只需要几 GB 空间,因为数据会在几秒内刷新到主存储池
耐久性至关重要: 选择企业级 SSD,具有高写入耐久度(DWPD)
建议使用镜像: SLOG 设备故障会导致最近几秒的未提交数据丢失,镜像配置可提供保护
性能提升场景: 对于大量小文件同步写入的工作负载,性能提升可达数倍甚至数十倍

L2ARC:扩展读缓存的边界

L2ARC (Level 2 Adaptive Replacement Cache) 是 ZFS 的二级读缓存,用于扩展内存中的 ARC。当 ARC 无法容纳所有热数据时,L2ARC 可以使用 SSD 提供额外的缓存层。

ZFS高级特性与日常运维

Leo - 30 November, 2025

ZFS作为一个现代化的文件系统,不仅提供了强大的数据保护能力,还具备众多高级特性来优化存储效率和简化运维工作。本文将深入探讨ZFS的核心特性,并提供实用的日常运维指南。

数据完整性保障:ZFS的立身之本

ZFS最引以为傲的特性就是其端到端的数据完整性保护机制。与传统文件系统不同,ZFS为每个数据块都计算并存储校验和(checksum),这使得它能够自动检测并修复静默数据损坏(silent data corruption)。

工作原理

当数据写入磁盘时,ZFS会计算该数据块的校验和并单独存储。每次读取数据时,ZFS都会重新计算校验和并与存储的值进行比对。如果发现不匹配,ZFS会:

立即识别数据损坏
如果启用了冗余(如镜像或RAIDZ),自动从健康副本恢复数据
将修复后的数据写回损坏的位置
记录错误日志供管理员查看

这种"自愈"能力是ZFS区别于其他文件系统的关键特性,它能够在你毫不知情的情况下保护数据免受位腐烂(bit rot)、硬件故障等问题的影响。

# 查看存储池的错误统计
zpool status -v

# 输出示例
  pool: mypool
 state: ONLINE
  scan: scrub repaired 0B in 0h5m with 0 errors

快照与克隆:时间机器般的数据管理

快照和克隆是ZFS最实用的特性之一,它们利用写时复制(Copy-on-Write)机制实现了几乎零开销的数据版本管理。

快照:瞬间的只读副本

快照是文件系统在某个时间点的只读副本。创建快照几乎是瞬时完成的,并且初始状态下不占用额外空间,只有当原始数据发生变化时才会消耗存储空间。

# 创建单个快照
zfs snapshot mypool/data@backup-2024-11-28

# 递归创建快照(包含所有子文件系统)
zfs snapshot -r mypool/data@daily-20241128

# 列出所有快照
zfs list -t snapshot

# 查看快照占用的空间
zfs list -t snapshot -o name,used,refer

快照的典型应用场景包括:

数据备份: 在进行系统升级或重大变更前创建快照
版本控制: 保留文件系统的历史状态
快速恢复: 出现问题时可以迅速回滚到快照状态

# 回滚到指定快照(会丢失快照之后的所有更改!)
zfs rollback mypool/data@backup-2024-11-28

# 删除快照
zfs destroy mypool/data@backup-2024-11-28

克隆:基于快照的可写副本

克隆是基于快照创建的可写文件系统。与快照不同,克隆可以像普通文件系统一样进行读写操作,非常适合测试环境或数据分支场景。

ZFS核心概念与快速上手

Leo - 30 November, 2025

引言

ZFS (Zettabyte File System) 是由Sun Microsystems开发的革命性存储系统，现在由OpenZFS项目维护。它不仅是一个文件系统，更是一个完整的存储管理解决方案，将传统的卷管理器和文件系统合二为一。本文将带你了解ZFS的核心理念，并在Linux上完成第一个存储池的创建。

ZFS简介

ZFS诞生于2005年，其设计目标是创建一个"永不损坏数据"的文件系统。它采用了多项创新技术来保证数据完整性和可靠性，包括写时拷贝（Copy-on-Write）、端到端数据校验、快照、克隆等功能。

ZFS的主要特性

数据完整性保证：每个数据块都有校验和，可以检测并修复静默数据损坏
巨大的存储容量：理论上支持256万亿ZB（Zettabyte）的存储空间
简化的管理：无需分区、格式化等传统操作
高级功能：快照、克隆、压缩、去重等功能内置
灵活的RAID支持：支持镜像、RAID-Z等多种冗余方案

ZFS设计哲学

ZFS的设计围绕几个核心理念展开，这些理念使其在众多文件系统中脱颖而出。

1. 端到端数据完整性

ZFS对每个数据块都计算校验和（checksum），并将校验和存储在父节点而非数据块本身。这种设计可以检测到整个数据路径上的任何错误，包括硬件故障、固件bug等。当检测到数据损坏时，如果有冗余副本，ZFS会自动修复数据。

2. 写时拷贝（Copy-on-Write）

ZFS从不覆盖现有数据。当修改数据时，新数据会写入新的位置，只有在写入成功后才更新指针。这种机制带来了几个重要优势：

提供了事务语义，确保文件系统始终处于一致状态
使快照功能几乎零成本
避免了传统文件系统的"写入空洞"问题

3. 存储池化（Storage Pooling）

ZFS将物理存储设备抽象为存储池（pool），所有文件系统共享池中的空间。这消除了传统分区方案的局限性，文件系统可以按需自动增长，无需手动调整分区大小。

4. 简化管理

ZFS的设计理念是"一切皆在文件系统"。传统上需要多个工具（fdisk、mkfs、lvm等）完成的任务，在ZFS中通过统一的命令集就能完成，大大降低了管理复杂度。

核心概念

理解ZFS的几个核心概念是掌握它的关键。

存储池（Pool）

存储池是ZFS的基础，它由一个或多个虚拟设备（vdev）组成。池是动态的存储空间集合，其中的所有文件系统共享这个空间。

存储池的特点：

可以随时添加新设备来扩展容量
池的性能取决于其组成设备的配置
所有文件系统共享池的存储和I/O资源

虚拟设备（vdev）

vdev是组成存储池的基本单元，可以是：

单个磁盘：最简单的配置，无冗余
镜像（mirror）：类似RAID1，数据完全复制到多个磁盘
RAID-Z：类似RAID5/6，提供奇偶校验保护
- RAID-Z1：单个奇偶校验盘，可容忍1个磁盘故障
- RAID-Z2：双奇偶校验，可容忍2个磁盘故障
- RAID-Z3：三奇偶校验，可容忍3个磁盘故障

重要提示： 存储池的冗余级别由其vdev决定。如果池中任何一个vdev失败，整个池都会失败，因此建议每个vdev都有适当的冗余。

数据集（Dataset）

ZFS中的数据集是通用术语，包括：

文件系统：可以挂载的目录结构
卷（volume）：块设备，可用于虚拟机磁盘等
快照（snapshot）：文件系统或卷的只读时间点副本
克隆（clone）：从快照创建的可写副本

数据集是层次化的，可以继承父数据集的属性。

属性（Properties）

ZFS的许多功能通过属性来控制，包括：

compression：数据压缩（lz4、gzip、zstd等）
quota：空间配额限制
reservation：保留空间
atime：访问时间记录
copies：数据副本数量

属性可以在数据集级别设置，子数据集会继承父数据集的属性。

快照与克隆

快照是ZFS最强大的功能之一：

创建几乎是瞬时的，不占用初始空间
只有当原数据被修改时才占用空间（存储差异）
可以回滚到快照状态
可以发送到其他系统用于备份

克隆是从快照创建的可写副本：

存储池规划与RAID-Z配置

Leo - 30 November, 2025

在部署ZFS文件系统之前,合理的存储池规划至关重要。本文将详细介绍部署前的关键决策、VDEV类型的选择,以及如何创建不同级别的RAID-Z配置。

一、部署前的关键决策

1.1 系统选择

强烈推荐使用64位操作系统。这个建议背后有充分的技术理由:

ZFS的ARC(Adaptive Replacement Cache)缓存机制会大量使用内核内存来缓存热点数据。在32位系统中,可用内存地址空间被限制在4GB以内,这严重制约了ZFS的性能发挥。而64位系统能够突破这一限制,充分利用大容量内存,让ARC缓存发挥最大效能。

对于生产环境,建议至少配置8GB以上的内存,越多越好。ARC缓存越大,读取性能提升越明显。

1.2 磁盘管理策略

让ZFS直接管理整个磁盘,而非使用硬件RAID。

这是ZFS部署中最重要的原则之一。原因如下:

精确的I/O调度:ZFS能够直接访问磁盘,了解每个磁盘的物理特性,从而进行更智能的I/O调度
端到端的数据完整性:ZFS使用校验和机制保护数据,只有直接管理磁盘才能确保从存储介质到应用层的完整性验证
更好的错误恢复:当检测到数据损坏时,ZFS可以利用冗余数据自动修复,而硬件RAID会掩盖底层的错误信息

如果必须使用硬件RAID控制器,应将其配置为JBOD(Just a Bunch Of Disks)模式或直通模式。

1.3 架构设计原则

分散存储设备

将存储池的设备分散到多个控制器上,这样做有两个重要优势:

性能提升:多个控制器可以并行处理I/O请求,避免单个控制器成为瓶颈
可用性增强:单个控制器故障不会导致整个存储池不可用

分离根池和数据池

建议将系统根池(root pool)和数据池分开部署:

根池:使用较小的SSD或可靠的磁盘,存储操作系统和关键系统文件
数据池:使用大容量磁盘阵列,专门存储用户数据

这种分离带来的好处包括:

系统重装或升级时不影响数据池
可以为不同的池选择不同的优化策略
简化备份和灾难恢复流程

二、深入解析VDEV与RAID-Z

VDEV(Virtual Device)是ZFS存储池的基本构建单元。理解不同VDEV类型的特性,对于设计高性能、高可靠性的存储系统至关重要。

2.1 Mirror(镜像)

特点:数据完全镜像到多个磁盘

# 创建镜像存储池
zpool create mypool mirror disk1 disk2

优势:

读取性能优秀:可以从任意一个镜像磁盘读取数据,ZFS会选择响应最快的磁盘
写入性能较好:虽然需要写入多份,但写操作可以并行进行
可靠性高:只要有一个镜像存活,数据就不会丢失
重建速度快:替换故障盘后,只需复制实际使用的数据

劣势:

空间利用率低:两盘镜像只有50%的空间利用率,三盘镜像只有33%

适用场景:对性能和可靠性要求高,但对容量要求不那么敏感的应用,如数据库、虚拟化环境。

2.2 RAID-Z1

特点:类似RAID 5,使用单一奇偶校验

# 创建RAID-Z1存储池(最少需要3块盘)
zpool create mypool raidz1 disk1 disk2 disk3 disk4

优势: