据说大型芯片有几十亿个晶体管，一个都容不得出错，但为何芯片可靠性还这么高？第

据说大型芯片有几十亿个晶体管，一个都容不得出错，但为何芯片可靠性还这么高？第一，我们上课讲的是：芯片上是被分区了，每个很小的区域上面有各种逻辑门组（有些是可以编辑的，还有很多是固定的组合）来应对各个场景，所以坏了的地方可以用别的区来代替。第二，大型芯片虽然包含数十亿个晶体管，但其可靠性依然很高，这主要归因于以下几个方面：①先进的制造工艺：现代芯片制造工艺已经非常先进，能够有效减少制造过程中的缺陷。例如，优秀的制造工艺可以提高芯片的可靠性，减少故障的可能性。②严格的测试与验证：在芯片设计和生产过程中，会进行多次测试和验证，以确保产品的可行性和可靠性。这些测试包括环境试验、寿命试验和机械试验等，旨在揭示潜在的缺陷并确保芯片在恶劣环境中的稳定运行。③设计与仿真技术：芯片设计师通常会与晶圆厂合作，进行多次生产测试和模拟，以确保产品的可靠性和可行性。这种设计与仿真技术的应用有助于提前发现并解决潜在的设计缺陷。④可靠性分析与优化：芯片设计人员在电路设计和验证中考虑可靠性问题，通过有效的可靠性分析和仿真技术，将有关缺陷、良率和可制造性问题从设计到制造流程中进行管理。⑤材料与结构优化：使用先进的材料和技术来提高晶体管的可靠性和性能。例如，采用多晶硅作为栅极材料，可以提高晶体管的性能及可靠性。第三，cpu当然会出错，只不过有很多层的容错机制，所以我们感觉不会出错。基本上任何硬件和软件都有各种各样的容错机制，当我们卡在一个程序前，有可能后面出错了，如有可能网络出错了，在重传。另外，cpu出错率也很低。第四，CPU芯片特殊，多core的可以屏蔽坏的，但对于更多专用芯片，就是不允许错，否则功能就是错的。异常的处理，软件也是处理业务层面的异常，不是芯片电路坏了导致的异常。我们开发的超过10亿门的芯片，芯片物理上有异常只能扔了，因为每一部分电路都不能少。芯片运行中，也没有手段检查突然发生的物理错误，能看到的异常报警全部是业务层面的。但memory有特殊性，有软失效问题，这是可恢复的，但其他物理错误没听说可以恢复。第五，除了在设计阶段引入“容错”机制以外，在封测阶段，把坏的区块隔离掉，使得整个芯片运行流畅。你买一个64G的SD卡，实际打开肯定低于64G，就是这个原因。第六，检测集成电路芯片缺陷的时候可以采用傅里叶光学的办法，把一个标准品制成底片放在两个相同透镜之间的公共焦点上作为频谱滤波器，把待检测的芯片放在第一个透镜的前焦点上，再用激光垂直打过去，观察第二个透镜的后焦面，如果后焦面上面什么都没有就说明待检测片与标准品完全一样，则是良品。如果后焦面上面有斑点或者缺陷就说明待检测片和标准品有差异，就是不合格的残次品(参考梁铨廷的物理光学)。你觉得哪一个观点更有说服性？欢迎留下你客观的见解。#科学#