量子力学中的不确定性原理到底在说什么？

100次浏览发布时间：2024-10-03 11:01:02

不确定性原理非常直观地体现了量子力学和经典力学之间的差异，而且表述还非常简单。它既不像薛定谔方程那样需要微积分和分析力学的基础，也不像算符、矩阵那样需要线性代数的基础，基本上谁都能谈几句。但是，要想真正理解不确定性原理，就远没有看上去的那么简单了。

这种情况跟狭义相对论里的质能方程E=mc²很像，质能方程也是咋一看非常简单，似乎谁都能谈几句。但是，如果想真正理解质能方程，就必须深入狭义相对论语境，如果只是站在牛顿力学的角度，直接从字面意思来理解质能方程，那不可避免地就会带来各种误解。

不确定性原理是量子力学的产物，我们也只有深入量子语境才能真正理解它，如果只是从牛顿力学的视角，单从字面意思去理解它，一样会产生各种稀奇古怪的误解。

01常见的误解

不确定性原理的一个常见表述是“我们无法同时确定粒子的位置和动量”，有的地方还喜欢把“确定”替换为“测准”，说“我们无法同时测准粒子的位置和动量，你把粒子的位置测得越准，它的动量就越不准确，反之亦然”。

这就很容易让人这样理解不确定性原理：为什么我们无法同时测准位置和动量呢？因为如果这里有一个电子，你想测量它的位置就得用光子或者其它粒子去撞击它。你想把电子的位置测得越准就得使用波长越短的光（波长太长就直接绕过去了），而光的波长越短能量就越高，你用越高能量的光子去撞击电子，就会把电子撞飞得越快，这样电子的动量就更加不确定了。

于是，你觉得越想测准电子的位置，就会对它的动量产生越大的干扰，进而让它的动量更加不确定，反之也一样。许多人认为这就是无法同时确定电子的位置和动量的原因，并认为这就是不确定性原理想说的。

这种说法很流行，很多科普文都这样介绍不确定性原理，他们告诉你：正是因为你用光子测量电子位置的操作干扰了电子的动量，所以无法同时确定电子的位置和动量。

为什么这种说法会很流行呢？

第一，它看起来好像也没啥问题，而且通俗易懂，中学生都能理解；第二，不确定性原理的发现者——海森堡一开始也是这么理解的。也就是说，海森堡在一开始也认为是测量过程中不可避免的干扰导致了我们无法同时确定粒子的位置和动量。

许多量子力学的科普文其实都是在讲量子力学前25年的历史，既然是讲历史，那到了不确定性原理这里，自然就要讲一讲海森堡那些通俗易懂的思想实验。但是，如果你顺着历史再往后走几步，就会发现玻尔很快就批评了海森堡的这种思想，而海森堡自己也接受了。

也就是说，海森堡也只是在一开始是这样想的，他也只是在刚发现不确定性原理的时候觉得电子动量的不确定性是由于“测量电子位置带来的干扰”导致的，玻尔的批评很快就让他意识到这么想是不对的。

时至今日，随便翻开一本量子力学教材，里面大概率都会清清楚楚地告诉你：不确定性原理并不是由于测量导致的，它是粒子的固有性质，并不依赖于任何测量。

其实，测量是仪器和被测物体之间的一种相互作用，仪器在测量过程中肯定会对被测物体产生一定干扰，这在任何情况下都存在，并非量子力学特有的。这种仪器对被测物体的影响，在物理学上有另一个名字，叫观察者效应（Observer effect），它跟不确定性原理（Uncertainty principle）有本质的区别。

在经典力学里，物体的位置和动量在理论上是确定的，但测量过程多多少少会对被测物体产生一定影响，所以实际的测量总会存在一定误差。

但量子力学却是在理论上就认为物体在一般情况下不存在确定的位置和动量，而且无论处于什么状态（本征态也好，叠加态也好），你都没法同时确定物体的位置和动量。这跟测量的精度或者测量过程产生的扰动都无关，而这，才是不确定性原理想告诉我们的。

也就是说，对不确定性原理那种广为流传的解释其实是错的。他们把不确定性原理当成了观察者效应，认为是测量过程中的扰动造成了我们无法同时测准粒子的位置和动量，而没有意识到这种不确定性是理论上的，是粒子的固有性质，跟你测不测量无关。

那么，这种理论上的不确定性是怎么来的呢？

02力学量的平均值

我们都知道，经典力学里的力学量在任何时候都有确定值，一个物体在任何时候都有确定的位置和速度，跟你测不测量，如何测量都无关。

但到了量子力学，力学量是否有确定取值却跟系统状态有关：如果系统处于本征态，那测量这个力学量时就有确定值；如果系统处于叠加态，那测量这个力学量时就没有确定值。因此，如果你里想讨论力学量的取值，就得先确定系统的状态，看看它是本征态还是叠加态。

以位置为例，如果电子处于位置本征态，那测量位置时就有确定值（该本征态对应的本征值）；如果电子处于位置叠加态，那测量位置时就没有确定值，而是有一定概率处于各个位置本征态对应的本征值。

然后，有一点我们要特别注意：当系统状态确定以后，虽然电子的位置在一般情况下不确定，但它的平均值却是确定的。

比如，电子处于某个位置叠加态，测量时有70%的概率处于x=1处，有30%的概率处于x=2处，虽然我们不知道测量结果到底会是x=1还是x=2，但我们知道电子的位置平均值一定是x=1×0.7+2×0.3=1.3。

这就是说，只要系统状态确定了（不管是本征态还是叠加态），虽然力学量的具体取值一般不确定，但它的概率分布却确定了，任意力学量的平均值也就随之确定了。平均值是个非常重要的概念，从这里我们也能看到量子力学的统计性质。

提到平均值，大家都非常熟悉。学校举行考试时，如果想对比两个班级的成绩，我们最常见的做法就是计算两个班级的平均分。计算方法也很简单，把一个班里所有人的成绩都加起来，再除以总人数就得到了这个班级的平均分。如果一班的平均分比二班高，那我们大体上就认为一班比二班考得好。

当然，平均分很有用，但它的局限性也很大。特别是，当一个样本的数据波动过大时，平均值往往就很难反映真实情况了。就像大家经常调侃的，如果把我的收入跟马云、马化腾平均一下，那大家也都是身价百亿的人了，这样的平均显然没什么意义。

同理，如果二班的平均分要低一些，但我们仔细一看，却发现二班有大量同学考了95分以上，但因为某些原因也有些人只考了几分，甚至0分，这少数超低分就把班级的平均分拉了下来。而一班绝大多数人都考了70多分，既没有考得很高的，也没有考得特别低的。这样一算平均分，一班确实比二班高了一点，但你觉得这种情况下还仅凭平均分来判断两个班的成绩，还合适么？

为什么平均分在这种情况下好像并不好用了呢？原因很简单，因为二班的成绩波动太大了，接近满分和接近0分的人都有很多，而平均分会把这些波动给抹掉。因此，如果我们想更好地描述二班的情况，那就得想办法描述这种波动，如何描述呢？

这时候，我们就要引入两个新的量：方差和标准差。

03方差和标准差

方差是怎样体现班级的成绩波动的呢？

思路也很简单，一班的分数大多在70到80分之间，假设它们的平均分是75分吧。当我们说一班的成绩波动很小时，我们其实是在说一班的大部分成绩都在75这个平均分附近，它们相对平均分的波动很小。当我们说二班的成绩波动很大时，也是在说二班的大部分成绩距离它们的平均分（假设是74分）比较远，大家相对平均分的波动很大。

所以，如果想计算一个班级的整体波动，那你就先把这个班级的平均分算出来，再把每个人相对平均分的波动算出来，最后把所有波动加起来再除以总人数，这样得到的结果就能大致反映一个班级的整体波动了，这也是计算方差的大致思想。

比如，一班的平均分是75分，有个同学考了70分，跟平均分差5分；有个同学考了80分，跟平均分也差了5分。我们把所有人跟75这个平均分的差值都算出来，把它们加起来再除以总人数，得到的结果就能大致反映一班成绩的波动情况了。

但大家很快就会注意到：直接用每个人的分数减去平均分的差来度量这个波动是不行的。因为考了80分的同学减去平均分75等于5，考了70分的同学减去平均分75等于-5，你把它们直接加起来，那总的波动就是5+（-5）=0了，这肯定不对。

要解决这个问题，很多人的第一反应是给它套个绝对值。没错，套了绝对值以后，负数就变成了正数（|5|+|-5|=5+5=10），这样就不会再出现“正负相消”的情况了。这样处理在理论上没啥问题，但绝对值在具体计算时会比较麻烦，为了方便计算，我们采用了另一种方式：给它套个平方。

大家知道，负数的平方也是正数，这样它也能达到绝对值的效果，但计算起来会更方便。

比如，对于考了70分的同学，我们用70减去平均分75，再套个平方（70-75）²=25来表示这个波动；对于考了80分的同学，我们就用（80-75）²=25来表示这个波动，其他人以此类推。把所有人相对平均分的差的平方都加起来，再除以总人数就得到了衡量班级整体波动水平的方差。

有了方差，我们就能看清各个班级的波动情况了，也能清楚地看到二班的成绩波动确实比一班大。

一班的平均分是75分，大量考了70分的同学产生的波动只有（70-75）²=25；假设二班的平均分是74分，那考了100分的同学立马就会产生（100-74）²=676的波动，考了0分的同学更是以一己之力就能贡献（0-74）²=5476的波动值。闭着眼睛都知道，二班的方差肯定会远远大于一班，这也反映了二班成绩的波动远远大于一班。

所以，通过方差，我们确实能够判断样本的波动情况。不过，从上面的例子大家也能看到，方差虽然好用，但它的数值还是有点偏大（考了0分的同学对应的值竟然高达5476，这让我们很难直观地作判断）。为了方便判断，我们对方差再开个根号（方差是9，标准差就为3），这样就得到了标准差（一般用σ来表示），后面我们使用的也都是标准差σ。

平均值、方差和标准差都是概率统计里最基础的东西，大家在中学数学里也学过了，这里我就不再细说了。在这里，我们只要知道方差和标准差可以衡量一个样本的波动情况，方差、标准差大，就说明它们偏离平均水平越厉害就行了。

04不确定性原理

好，再回到主题。我们刚刚不是在讲不确定性原理的么，为什么这里突然讲起了方差和标准差？

那是因为，大家经常看到的不确定性原理的表达式ΔxΔp≥ℏ/2（ℏ=h/2π），这里的Δx和Δp指的就是标准差，而不是大家先入为主地以为的测量误差。

什么意思？

意思就是，你经常看到的不确定性原理ΔxΔp≥ℏ/2，它说的是位置x和动量p的标准差的乘积最小只能为ℏ/2，它说的是统计意义上的标准差的乘积不能无限小，而不是说测量时的干扰误差。

很多人一看到Δx，潜意识里就会认为这是一个微小的位置变化。到了不确定性原理ΔxΔp≥ℏ/2这里，就很容易把Δx当成测量位置时由于干扰带来的误差，这样就很容易陷入一开始说的那种对不确定性原理的错误理解中去，让我们误以为粒子的不确定性是由测量的扰动引起的。

如果这里不是用的Δx和Δp，而是σx和σp，那不确定性原理是不是就没那么容易引起误解了呢？

在很多书里，位置-动量不确定关系确实写作σxσp≥ℏ/2 (ℏ=h/2π)，这里的σx、σp并不是测量位置、动量时的干扰误差，而是从统计意义上来说的位置和动量的标准差。

那问题就来了：一个粒子的位置和动量，怎么会有统计意义上的标准差呢？

在经典力学里，这个概念当然是毫无意义的。经典力学的粒子在任何时候都有确定的位置和动量，它们没有任何波动，谈论单个粒子的位置和动量在统计意义上的平均值和标准差也显得相当搞笑。

但到了量子力学，情况就完全不一样了。在量子力学里，只有当系统处于位置本征态时，粒子的位置才是确定的；当系统处于位置叠加态时，粒子的位置就是不确定的。测量时有一定的概率处于这个位置，有一定的概率处于那个位置，我们还能算出具体的概率值。

当粒子有一定概率在这，也有一定概率在那时，我们不就可以计算粒子的位置平均值了么（假设有许多跟它一模一样的粒子，我们一个个去测量，再统计它们的平均值）？有了平均值，每个可能的位置相对平均值的波动也能算出来，于是，我们就能计算出粒子的位置标准差σx，动量标准差σp也一样。

这样一来，我们就能从统计意义上谈单个粒子的各种力学量的平均值、方差和标准差了，因为粒子的力学量在一般状态下并没有确定值。

再回到前面的例子，我们假设电子处于某个位置叠加态，测量时有70%的概率处于x=1处，有30%的概率处于x=2处。虽然我们不知道测量时电子到底会在x=1还是x=2处，但我们还知道它的平均值一定是x=1×0.7+2×0.3=1.3。

而且，我们知道这个平均值跟你测不测量无关，只要系统状态确定了，概率分布确定了（70%的概率x=1，30%的概率x=2），我们就能在测量之前把平均值x=1.3算出来。算出了位置平均值，我们一样可以仿照班级考试的例子，算出电子在这个状态下位置的标准差σx，并用它来衡量电子位置的波动情况。

因为这个σx也是在测量之前算出来的，所以我们不需要等测量结束，也不需要知道测量过程中到底有多大扰动就能算出电子的位置标准差σx，它跟你测不测量完全无关。

假如粒子处在状态一的时候，它有50%的概率处于x=4.9处，有50%的概率处于x=5.1处，此时的平均值为x=5；粒子处于状态二的时候，它有50%的概率处于x=1处，有50%的概率处于x=9处，此时的平均值还是x=5。这两个状态下粒子的位置平均值都一样，但我们闭着眼睛都知道状态二的波动更大，所以它的位置标准差σx也更大。类似的，我们也能算出粒子在各个状态下的动量标准差σp。

也就是说，只要系统状态确定了，不管你有没有测量，我们都能算出粒子的位置和动量的标准差σx、σp。那么，这个σx和σp有没有什么关系呢？

经过一番数学推导，我们发现粒子在不同状态下虽然会有不同的位置标准差σx和动量标准差σp，但不论系统状态如何变化，也不论σx和σp跟着如何变化，它们的乘积σxσp都不可能小于ℏ/2。这就是大家最为熟知的位置和动量的不确定关系σxσp≥ℏ/2。

这个推导过程我们后面再说，在这里，我们起码能清晰地看到：粒子的位置平均值是在测量之前就能算出来的，位置和动量的标准差σx、σp也是在测量之前就能算出来的，所以，经过数学推导得到的位置-动量不确定关系σxσp≥ℏ/2也是在测量之前就能得到的。

如果我们在测量之前就能得到这个关系式σxσp≥ℏ/2，那你还能说不确定性原理是由于测量的扰动引起的么？你都还没有开始测量，那还谈什么测量带来的干扰误差？

这样的话，大家能理解为什么我们之前一直说“不确定性原理并不是由于测量造成的，它是粒子的固有性质，跟你测不测量无关”了么？

05一般的不确定关系

大的基调定下来之后，我们再来看看具体的推导过程。

在这里，我们先不盯着位置和动量，而是先考虑更一般的情况。假设有两个任意的力学量A和B，系统状态确定以后，概率分布就确定了，我们就能算出力学量A、B的平均值，进而算出这两个力学量的标准差σA和σB。

那么，不同力学量的标准差之间又有什么关系呢？

利用施瓦茨不等式，经过一番纯数学推导，我们就得到了这样一个关系式：

具体的推导过程比较无趣，我这里就不写了，感兴趣的可以自己去翻一翻量子力学教材。但大家要清楚，我们这里没有引入任何额外的假设，我们只是用了标准差的基本定义，然后利用施瓦茨不等式就得到了上面的不等式。所以，这是一个普适的关系式，是最一般的不确定关系。

它告诉我们：任意两个力学量的标准差的乘积σAσB必须大于等于这两个力学量的对易式[A,B]的平均值（<>代表求平均值）的绝对值的一半。

说起来有点拗口，但平均值和绝对值大家都很熟悉，这里真正起决定作用的是A、B的对易式[A,B]，只要对易式确定了，这个不等式就确定了。而算符A、B的对易式是这样定义的：[A,B]=AB-BA，也就是把两个算符的作用顺序交换一下，再相减。

很多人看到这个对易式之后心里就在犯嘀咕：AB-BA不应该恒等于0么？就像3×5-5×3=0一样，任何两个数交换相乘的顺序，得到的乘积应该都一样，它们相减之后的结果肯定就是0啊。

如果[A,B]恒等于0，那你定义这个又有什么意义？

没错，我们从小就学了乘法的交换律：如果A、B都是数，两个数交换顺序，最后的乘积肯定不变。所以AB一定等于BA，[A,B]=AB-BA就一定恒等于0。

但是，我们这里的A、B并不是数啊，它们是描述力学量的算符。我们确实从小就学了数的乘法交换律，但你有学过算符的乘法交换律么？

没有吧！也不可能学过，因为算符之间压根就没有普适的乘法交换律。有的算符之间可以交换乘法顺序，有的则不能，这跟数的情况完全不一样。

那么，算符的乘法是什么意思呢？两个算符之间可以交换乘法顺序又是什么意思？

06对易式

在量子力学里我们描述的系统状态可以用矢量来理解，用算符描述力学量。算符可以作用在一个矢量上，把一个矢量变成另一个矢量。比如，我们对一个矢量进行平移、旋转、投影操作，就会对应有平移算符、旋转算符、投影算符。我们把平移算符作用在一个矢量上，就会把一个矢量平移到另一个地方，其它算符也类似。

在A、B的对易式[A,B]=AB-BA里，A、B都是算符，而系统状态ψ是矢量，所以我们就可以把算符B作用在态矢量ψ上，这样就得到了新的矢量Bψ。而Bψ也是一个矢量，那我们又可以把算符A作用在矢量Bψ上，这样得到的新矢量就是ABψ。

也就是说，算符是从右往左依次作用在矢量上的，ABψ就代表态矢量ψ先被算符B作用了一次，然后又被算符A作用了一次。如果A代表平移算符，B代表旋转算符，那ABψ就代表先把态矢量ψ旋转（B）了一下，再把这个矢量平移（A）了一下；而BAψ就代表先把态矢量ψ平移（Ａ）了一下，再把这个矢量旋转（Ｂ）了一下。

这样一来，算符Ａ、B的对易式[A,B]=AB-BA就很好理解了：因为A、B都是算符，AB和BA表示两个算符的连续作用，那就还是一个算符，所以它们相减的结果AB-BA仍然是一个算符。

既然是算符，那我们自然就可以把算符[A,B]作用在矢量ψ上，这就相当于一方面先用算符B后用算符A作用在矢量ψ上（得到了ABψ），另一方面先用算符A后用算符B作用在矢量ψ上（得到了BAψ），最后再把这两种方式得到的矢量相减ABψ-BAψ。

如果先A后B作用在矢量ψ上，与先B后A作用在矢量ψ得到的结果是完全一样的，也就是说[A,B]ψ=ABψ-BAψ=0，那就说明算符A、B之间的乘法是可以交换顺序的，这时候我们说算符A和算符B是对易的。比如，同一平面内两个旋转算符就是对易的，你想想，把一个矢量先旋转一定角度α，再旋转一定的角度β，跟你先把矢量旋转一定的角度β，再旋转一定角度α得到的结果是不是一样的？

当然，并不是所有的ABψ-BAψ都等于0。当[A,B]≠0的时候，那就说明算符A、B之间的乘法顺序不可交换，我们就说算符A和算符B不对易。比如，平移算符和空间反射算符就不对易，你想想，把一个矢量先向右平移一段，再以原点为中心翻转一下，跟你先把矢量翻转一下，再向右平移的结果一样么？

再比如，同样一本书，你先围绕x轴旋转，再围绕y轴旋转，得到的结果跟你先围绕y轴旋转，再围绕x轴旋转的结果还一样么？

这些例子都非常简单，大家仔细琢磨一下，就会发现两个算符之间对易或者不对易都是有可能的。

07对易的力学量

理解了算符乘法和数乘之间的不一样之后，我们再回头看看那个最一般的不确定关系：

如果力学量A和力学量B对应的算符是对易的，也就是说[A,B]=0，那不等式的右边就变成了0。于是，这个不等式就变成了“力学量A和B的标准差的乘积σAσB≥0”。

有人说这不是废话么？标准差σ肯定是大于等于0的啊！我们在求方差的时候就是先套了个平方，确保所有的数都非负，标准差不过是对方差再开个根号，那结果肯定还是非负啊。所以，当力学量A、B对应的算符对易时，这个式子相当于在说“它们标准差的乘积大于等于0”，这是一句废话。

话不能这么说，当力学量A、B对易，也就是[A,B]=0的时候，最一般的不确定关系给出的限制是σAσB≥0。虽然标准差确实都大于等于0，但如果不确定关系给出的限制是σ≥0，这起码说明σ可以取0。因为如果限制是σ≥3，那σ就不能取0、1、2了。

所以，如果力学量A、B对易，最一般的不确定关系给出了限制σAσB≥0，这起码说明：它允许力学量A、B的标准差同时为0，也就是允许σA=σB=0。

那么，允许力学量A、B 的标准差同时为0，这又意味着什么呢？

前面我们讲过了，标准差是反映样本的波动情况的。在量子力学里，如果系统状态ψ确定了，概率分布也就随之确定了，我们就可以算出这个状态下任意力学量的平均值，进而求出它们的标准差σ。我们还知道标准差是非负的，这就意味着力学量可以取的值只要有一个不等于平均值，它就会让力学量的标准差σ＞0。

比如，还是假设粒子有70%的概率位于x=1处，有30%的概率位于x=2处，在这个状态里，粒子的位置平均值x=1×0.7+2×0.3=1.3。又因为粒子可以取的两个值x=1和x=2都不等于平均值1.3，那它们在计算方差时肯定会产生大于零的（1-1.3）²=0.09和（2-1.3）²=0.49，最终的方差和标准差都大于0。

如果你想让这个粒子的位置标准差σx=0，那就必须让粒子所有可能取的位置都等于它的平均值。因为只有这样，每个位置减去平均值的结果才是0，一堆0加起来还是0，于是标准差才能为0。

那么，“粒子所有可以取的位置都等于平均值”又意味着什么呢？我们知道，系统状态确定后，平均值就是一个定值。你想让粒子所有可以取的值都等于这个平均值这个定值，那就只能让粒子的位置只能这取一个值，并且就等于它的平均值。

那么，粒子的位置在什么情况下只能取一个值呢？这个答案我们就非常熟悉了：当粒子处于位置本征态的时候！

绕了一圈，我们发现如果想让粒子的位置标准差σx=0，那就必须让粒子处于位置本征态，这样我们就在标准差和系统状态之间搭起了一座桥梁。

其实，只要稍微想一下，你就会觉得这是非常自然的事情：当电子处于位置本征态时，它的位置就只能取这一个值，那自然就没有波动，标准差σx也为0；当电子处于位置叠加态时，它的位置可以取多个值，那平均值自然就不可能再跟所有的值一样，这样就有了波动，标准差σx也不再为0。

总而言之，我们发现如果两个力学量A、B对易，那最一般的不对易关系就变成了σAσB≥0，它允许A、B的标准差同时为0。而标准差为0就意味着系统必须处于该力学量的本征态，如果σA=σB=0，那就意味着粒子必须处于力学量A的本征态，同时也必须处于力学量B的本征态。

换句话说，如果力学量A、B对易，那它们就可以拥有共同的本征态。当系统处于它们的共同本征态时，力学量A、B的标准差σA和σB同时等于0，而这个结果并不违反σAσB≥0。

08不对易力学量

如果力学量A、B不对易，那情况就完全不一样了。

位置和动量就是一对不对易的力学量。为什么位置和动量不对易呢？我们可以来算一下。

在量子力学中，动量算符p在位置表象下可以写成-iℏ∂/∂x，位置在它本身的表象里自然就是x。我们想看看它们对不对易，那把它们代入对易关系[x,p]=xp-px算一算就行了。

如果[x,p]=0，那就说明位置和动量对易；如果[x,p]≠0，那就说明位置和动量不对易。

算符可以作用在矢量和函数上，把它变成另一个矢量和函数。既然位置算符x和动量算符p都是算符，它们的对易关系[x,p]=xp-px也是算符，那我们就让[x,p]作用在函数f(x)上：

计算过程都非常简单，因为[x,p]是作用在一元函数f(x)身上，因此动量算符里的偏导数∂/∂x就可以直接改成d/dx，我们在分子分母上同时乘以一个虚数单位i，就成了上面的样子。

计算的第一步就是把[x,p]f(x)展开为xpf(x)-pxf(x)，再把动量算符代入进去。xpf(x)表示我们先用动量算符p作用在函数f(x)上，再用位置算符x去作用；pxf(x)只是调换了下顺序，表示先用位置算符x作用在函数f(x)上，再用动量算符p去作用。

第二步就是套了一个乘积的求导公式，然后发现前两项可以消去，最后就得到了结果iℏf(x)。

从这个结果我们可以看到：[x,p]f(x)并不等于0，而是等于iℏf(x)。我们把f(x)都去掉，就得到了位置算符x和动量算符p的对易关系：

因为[x,p]≠0，所以位置和动量不对易。这个式子非常重要，它被称为正则对易关系。

在经典力学里，任何力学量都可以写成位置x和动量p的函数，所以，量子力学里任何有经典对应的力学量之间的对易关系，都可以从位置-动量这个最基本的正则对易关系里导出来。

从更深的意义上来说，量子力学里各种神奇的特性最终都可以追溯到这个最基本的对易关系上来。因此，有的教材是把正则对易关系[x,p]=iℏ当作基本假设提出来的。

大家再看看下这个对易式[x,p]=xp-px=iℏ，它告诉我们：对于同一个函数f(x)，先用动量算符p作用再用位置算符x作用的结果xpf(x)，跟先用位置算符x作用再用动量算符p作用的结果pxf(x)竟然不一样，它们的差并不等于0，而是等于iℏf(x)。

09位置-动量不确定关系

有了位置算符x和动量算符p之间的对易关系[x,p]=iℏ，我们把它代入最一般的不确定关系：

立马就能得到位置算符x和动量算符p的不确定关系（ℏ=h/2π）：

这就是位置和动量之间的不确定性关系，也是大家最常见的不确定性原理。

只不过，大家平常看到的大多是用ΔxΔp来表述的，我们这里用了更加不容易引起误解的标准差σxσp，这样大家一看就知道我们这是从统计意义上来说不确定性原理了。

位置-动量不确定关系告诉我们：位置算符x和动量算符p的标准差的乘积σxσp有一个最小值ℏ/2，它不能无限小，更不能等于0。因此，σx和σp不能同时为0。

而我们又知道，只有当系统处于力学量的本征态时，对应力学量的标准差σ才为0。你现在说σx和σp不能同时为0，那就意味着系统不能同时处于位置和动量的本征态。否则，位置的标准差σx=0，动量的标准差σp=0，这就违背了它们之间的不确定关系σxσp≥ℏ/2。

因此，当我们测量一个粒子的位置时，系统会从原来的状态变成某个位置本征态。当系统处于位置本征态时，粒子的位置就只可能取一个值，位置的标准差σx=0，此时动量的标准差σp就变成了无穷大（这里0和无穷大相乘并不等于0，这里不细谈）。看上去就是位置和动量之间会相互影响，这样它们的标准差σx、σp才不会同时为0。

这样的话，两个力学量是否对易，就决定了它们的标准差能否同时为0，进而决定了它们能否拥有共同的本征态，决定了它们是否独立。大家要好好理一理这一串逻辑链条，它对理解量子力学是很有帮助的。

明白了这些，再想想一开始的问题，你还会觉得位置和动量的这种不确定关系是由于测量时的扰动造成的么？我们没有测量时，系统状态随着薛定谔方程演化，位置和动量的标准差σx、σp也会随之变化，但不论σx和σp怎么变，它们之间都遵守σxσp≥ℏ/2。

所以，即便你没有测量，位置和动量的不确定关系σxσp≥ℏ/2一样存在。造成这种现象的根源，是位置算符和动量算符之间的不对易[x,p]=iℏ，而不是你测量时有没有扰动。

10傅里叶变换

为了让大家更好地理解这种不对易关系，我们再来看一个更加形象的例子。

假如这里有一头大象，从前面看，你能非常清楚地看到大象的眼睛，但却看不清楚大象的身体；从侧面看，你能非常清楚地看到大象墙壁般的身体，但大象的眼睛我们又看不清楚了。当然，你还可以更换角度，从不同角度看，大象的眼睛和身体的清晰度会不一样，但你找不到一个角度让你既能看清楚大象的眼睛，又能看清楚大象的身体。

这跟位置和动量的不确定关系就有点像了：我们可以找到一个角度“看清”粒子的位置，让测量时粒子的位置有确定值，这时候位置的标准差σx最小（位置本征态）；也可以找一个角度“看清”粒子的动量，让测量时粒子的动量有确定值，这时候动量的标准差σp最小（动量本征态）。但是，你找不到一个角度能同时“看清”粒子的位置和动量，让位置的标准差σx和动量的标准差σp同时达到最小值（无法同时处于位置和动量的本征态），它们之间有σxσp≥ℏ/2这样一个绕不过去的门槛。

这样一来，我们更能清晰地看到：我们之所以无法同时看清楚大象的眼睛和身体，并不是因为测量仪器不够精确，也不是因为测量时有什么扰动。而是因为大象的眼睛和身体一个在正面，一个在侧面，大象的身体结构决定了我们无法同时看清楚这两者，这是大象的“固有性质”，跟你测不测量无关。

同理，我们无法同时确定粒子的位置和动量，也不是因为测量仪器不够准确，不是因为测量时有什么扰动。而是因为粒子的位置和动量是不对易的，是位置和动量的这种关系[x,p]=iℏ决定了我们无法同时确定这两者，这也是粒子的固有性质，跟你测不测量无关。

就像我们处理信号一样，我们处理信号既可以从时域看，也可以从频域看，不同角度看到的样子并不一样，它们之间就差了一个傅里叶变换。

在量子力学里，同一个波函数从位置表象切换到动量表象，它们之间也是差了一个傅里叶变换。也就是说，对于同一个波函数，在位置表象里长这样，你想看看它在动量表象里长啥样，进行一个傅里叶变换就行了。

如上图所示，同样两个正弦波，当我们从正面看的时候，它是一些波叠在一起的；当你从侧面看时，它就变成了两个尖尖，只在两个地方有取值。你从正面看到的是波，从侧面看到的是点，但你无法找到一个角度让你既看到波又看到点，波和点之间就差了一个傅里叶变换。

粒子的位置和动量之间的不确定性也是这么回事。当粒子处于位置本征态时，你能完全确定粒子的位置，粒子在位置上只能取一个值，在图像上就是只在一个点上有取值。这时候，我们通过傅里叶变换切换到动量视角，就会发现对应的图像是一个平面波，它说明粒子取任何动量值的概率都一样，这样动量就完全不确定了。

于是，粒子的位置完全确定了，动量就完全不确定了，这是傅里叶变换的自然结果。因此，当我们从不同角度审视同一个东西时，会出现那种不确定关系其实是非常自然的一件事。

另外，虽然我们没法同时看清楚一头大象的眼睛和身体，但如果这里有两头大象，你想同时看清楚一头大象的眼睛和另一头大象的身体，那就轻而易举了。所以，不同粒子间的所有力学量都是对易的，你想同时确定一个粒子的位置和另一个粒子的动量显然是没有任何问题的。

这样一来，大家对粒子的位置和动量之间的不确定关系有一个比较直观的认识了么？你还会觉得不确定性原理由于测量的扰动导致的么？

11能量-时间不确定关系

除了位置和动量，常见的不确定关系还有另一组，那就是能量E和时间t的不确定关系：

从形式上来看，它跟位置和动量的不确定关系式σxσp≥ℏ/2几乎一模一样。

回想一下位置-动量不确定关系的推导过程，我们先是得到了最一般的不确定关系：

然后把位置和动量的对易关系[x,p]=iℏ代入上式，就得到了位置和动量的不确定关系σxσp≥ℏ/2。

于是，有些人就会想：能量和时间的不确定关系是不是也是这样，也是把能量和时间的对易关系（如果有的话）代入之后就能得到？

细心的朋友可能注意到了，在前面讲位置-动量的不确定关系时，为了让大家意识到我们谈论的是位置和动量的标准差σ，而不是测量时的扰动，我特地用σx和σp替换了更常见的Δx和Δp。但到了这里，我并没有使用σt和σE，而是直接使用Δt和ΔE来表示能量和时间的不确定关系，为什么？

难道到了这里，我就不再怕大家把Δt、ΔE理解为测量时间和能量时的扰动了么？怕，当然怕，特别是能量的标准差ΔE。

我们确实可以像谈论位置、动量的标准差σ那样谈论能量的标准差，我们这里的ΔE，也确确实实指的是能量的标准差σE。但是，这个式子里还有一个非常特殊的量——时间Δt，它指的是时间的标准差σt么？慢着，你先告诉我：时间的标准差是什么鬼？

位置、动量、能量等力学量的标准差好理解，系统状态确定以后，概率分布也随之确定了，我们就可以求出各个力学量的平均值，进而求出它们相对平均值波动的标准差。但是，时间的平均值是什么鬼？你又要如何计算相对“时间平均值”波动的方差和标准差？

相信大家已经看到问题的关键了：在量子力学里，时间并不是一个力学量，而只是一个参数，它跟位置、动量、能量这些力学量有本质的区别。

你可以在任何时刻测量粒子的位置、动量、能量这些力学量，但是，你能测量粒子的“时间”么？当你说粒子的“时间”时，你是不是自己都觉得有点搞笑？哪里有什么粒子的“时间”，时间在量子力学里是一个参数，各个力学量都是时间的函数，它们随时间变化，粒子并没有一个叫“时间”的力学量在随着时间变化。

所以，当系统状态确定后，我们可以计算位置的平均值，可以计算动量、能量的平均值，但你没法从统计意义上计算时间的平均值，于是也没有什么时间的标准差。所以，我们写一个σt出来是没有意义的。

当然，在狭义相对论里，时间和空间获得了平等的地位，你确实可以平等的处理时间t和空间x。但我们现在讨论的是非相对论性量子力学，薛定谔方程也是非相对论性的，所以，我们不能像位置-动量不确定关系那样理解能量-时间的不确定关系。

那么，我们要如何考虑ΔtΔE≥ℏ/2呢？特别是，我们要如何看待这里的Δt？

12时间的意义

量子力学告诉我们：定态就是系统的能量本征态。

从表面上看，能量本征态只是系统具有确定能量的状态，似乎并没有不随时间变化的意思，那为什么还要说它“定”呢？那是因为，虽然此时的波函数依然跟时间有关，但概率分布却不随时间变化，于是，任何力学量的平均值也不随时间变化。这是概率分布和力学量平均值都不随时间变化的状态，所以我们称之为“定态”。

当系统处于能量本征态的时候，能量的取值是确定的，因此能量的标准差ΔE=0。根据能量-时间的不确定关系ΔtΔE≥ℏ/2，当ΔE=0的时候，Δt必然就要变成无穷大，这跟位置-动量的不确定关系是一样的。这就暗示我们：当系统处于能量本征态时，由于ΔE=0，所以某个跟时间相关的Δt会变成无穷大。那么，这时候有什么跟时间相关的量会变成无穷大呢？

我们已经知道能量本征态是定态，是力学量的平均值不随时间变化的状态，位置、动量这些力学量的平均值这一刻是这样，下一刻还是这样，永远都不会变化。换句话说，此时各个力学量的平均值的变化周期T变成了无穷大。

大家想想是不是这么一回事？一个东西不动了，我们也可以说是它的变化周期变成了无穷大。摆钟每秒摆动一次，它的摆动周期是一秒；如果它十秒摆动一次，那周期就变成了十秒，我们就会觉得这个钟摆变慢了许多；如果摆动一次需要无穷大的时间，那它的摆动周期就会变成无穷大，我们就会觉得这个摆钟不动了，也就是说它不再随时间变化。

所以，当系统处于能量本征态时，它的标准差ΔE=0。与此同时，各个力学量的平均值也不随时间变化（定态），我们也可以说力学量平均值的变化周期T变成了无穷大，而这个跟时间相关的变化周期T，正是ΔtΔE≥ℏ/2里的Δt。

也就是说，能量-时间不确定关系里的Δt不是什么时间的标准差，也不是测量时间的扰动，而是各个力学量的平均值的变化周期T。

于是，当位置、动量这些力学量的平均值变化很快时（Δt很小），能量的不确定度就越大，标准差ΔE就越大；当任意力学量的平均值变化很慢时（Δt很大），能量的不确定度就越小，标准差ΔE就越小；当任意力学量的平均值不变时（Δt无穷大），能量的不确定度ΔE就等于0，也就是说能量完全确定了，那这就是能量本征态（定态）。

如果这样还不好理解，那我们再换个角度。你想想，如果系统不是处于能量本征态，而是处于两个能量本征态的叠加态，那系统的能量就不是确定值了，测量时就会有一定概率处于这个能量的本征值，有一定概率处于那个能量的本征值，能量的标准差ΔE也不再为0。

又因为系统处于两个能量本征态的叠加态，这不是定态，所以各个力学量的平均值也不会是定值，而会随着时间t变化，那力学量平均值的变化周期T（Δt）自然也不再是无穷大。

所以，当系统不是能量本征态（定态）的时候，能量的标准差ΔE>0（变大了），力学量平均值的变化周期Δt就不再是无穷大（变小了），此消彼长，它们的乘积仍然满足ΔtΔE≥ℏ/2。

能量-时间的不确定关系比动量-位置不确定关系要难理解一些，因为时间在量子力学里只是一个参数，跟位置、动量、能量这些力学量有本质的区别。它的推导过程也更加复杂，需要大家有一定分析力学的基础，我这里就不细讲了，以后有机会再说（怕错过的盯着我的公众号长尾科技就行）。

在这里，大家只要知道ΔtΔE≥ℏ/2里的Δt不是时间的标准差，而是力学量平均值的变化周期T就行了。

13结语

再回过头看看，不确定性原理的表述和公式看起来都很简单，似乎谁都能看懂。但是，想要真正理解这些内容，还是得先建立量子力学的基本框架，学会从量子视角看问题，否则就会造成各种误解。

这种误解在量子力学里非常普遍：很多人一听到量子力学里说能量不连续，立马就觉得能量在任何情况下都是不连续的，并且脑补时间、空间也都是不连续的；一听到不确定性原理说无法同时测准位置和动量，就以为这是测量带来的干扰；看到量子力学都是在描述微观粒子，就觉得量子力学只在微观世界有效；一听到量子力学里谈概率，就觉得在量子力学里任何事情都是概率性的……

只要你还没有建立量子力学的基本框架，只要你还是从经典力学的视角看待量子世界的各种现象，这样的误解几乎是不可避免的。

如果我们不知道量子力学的基本框架，不知道叠加态、本征态以及统计诠释，我们很难想象不确定性原理里的Δx、Δp竟然指的是统计意义上的标准差σx、σp，那各种误解就在所难免了。正因为我们知道Δx、Δp指的是标准差，我们才能清楚的看到：测量之前的位置和动量一样有标准差σx、σp，一样满足σxσp≥ℏ/2，它的根源是位置和动量之间的不对易[x,p]=iℏ，而不是测量带来的扰动。

至于能量-时间不确定关系，这里不仅需要我们理解能量本征态和定态，还要理解时间t在量子力学里不是力学量，而只是一个参数。所以我们不能把ΔtΔE≥ℏ/2里的Δt理解为时间的标准差，而只能理解为力学量平均值的变化周期，这对量子力学的基础要求就更高了。