您的位置:网站首页 > 挖矿(POW/IDO/POS/减半) > 正 文 比特币

比特大陆前技术总监揭秘一代机皇 S9

【作者:网文】 来源:转载 日期:2020-5-3 13:24:39 人气: 标签:比特大陆 詹克团 吴忌寒 B池 重庆硅原 谢丹 比特小鹿 蚂蚁矿池 世纪云芯 【打印】

 

前言:随着大算力矿机集体入场,一代机皇蚂蚁矿机 S9 将要退出历史舞台。回顾历史,作者认为,成都团队通过动态触发器,实现了对竞争对手的跨代优势,也是 S9 成功的主要原因。S9 的设计是比特币矿机的奇迹,成为了比特币矿机中生产最多的矿机,生命周期三年多,被称为机皇。

(本文作者为比特大陆前技术总监谢丹,吴说区块链授权转发,文章观点为作者个人意见。)

2014 年 8 月,我在成都开了一家后端设计服务公司,我想做有增值价值的后端设计服务。在找客户的时候,我上网搜索了一下,觉得做比特币矿机的公司应该有着这方面的需求,于是给当时比特大陆的网站上的邮箱写了封电邮:

当时,我给很多家集成电路设计公司都写过邮件,而比特大陆是最快回复的一家。后来聊天的时候了解到,这个邮箱当时是吴忌寒吴总在使用,比特大陆那时正好也在寻找提高芯片竞争力的方案。于是吴忌寒把这个邮件转给詹克团詹总,詹总九月路过成都和我见面了。詹总和我面谈了两次,大家聊得不错。詹总觉得这个项目时间很长,风险较大,且存在知识产权的顾虑,建议我解散公司,带领团队加入比特大陆。

2014 年 10 月,我带着两个人的小团队正式加入比特大陆,成为比特大陆的全定制部门。最初的方向就是邮件中讲的多米诺逻辑。

多米诺逻辑是一种比较成熟的动态逻辑结构,其主要形态是这样的:

多米诺逻辑电路相对于对应的静态电路,有着以下优点和缺点:

1. 因为信号只需要驱动 N 管,所以电容较小,速度较快。

2. 因为 A 点是动态点,所以最后的反向器 M3/M4 是必须的。

3. A 点存在 charge-sharing 的问题。

4, M1,M2,M3,M4 为新增器件,PMOS 为减少器件

5. 因为 M1、M2 为时钟信号驱动,所以它的功耗至少是其它普通信号的 2 倍以上。

所以,从功耗上考虑,M1 与 M2 因为是时钟信号,它的功耗至少按照两倍信号的功耗算,则 M1+M2+M3+M4 的功耗是增加了 6 个 MOS 管的功耗,对于一般逻辑来说,超过 12 个 MOS 管的标准单元库并不多。从面积上讲,M2+M4 增加了 2 个 NMOS 管的面积,而 PMOS 虽然少了,但在版图上很难把这节省的面积体现出来。也就是说:多米诺逻辑虽然会加快芯片速度,但是面积与功耗都稍有增加。

当我们 2015 年 1 月把结论提交的时候,基本确认了多米诺逻辑是不适应矿机芯片的。比特币矿机芯片因为纯并行运算,速度并不那么重要。矿机最大的成本在于电费,所以,功耗是最重要的。我们在进行面积与功耗的大拇指规则(rule of thumb)评估时,功耗的权重是面积和速度的 3 倍以上。

我们多米诺逻辑尝试的失败,并没有打击我们的探索,因为我们发现了一种适合动态逻辑其积大管子多的标准单元,而这种标准单元有一个很明显的例子,就是触发器 Flip-flop。于是我们重回开始,以动态的触发器做为攻坚目标。

在集成电路的开始,上个世纪的七十年代,因为每个晶体管的成本高,所以,那个时候的触发器都是动态的,无论是 domino flip-flop,C2MOS edge-triggered flip-flop, 还是 TSPC positive-edge Flip-flop 等,都是当时的产物。我们从中发现了宝库。

比如一个 TSPC positive-edge Flip-flop,它的逻辑如下:

仍然按照我们 clock gate 算作两个 gate 的话,这个 flip-flop 总共就是 4*2+7=15 个 gate 等价。

而我们之前最常用的静态触发器的结构是这样的:

再加上 clk 的反向器,这个我们加一起就是 8*2+12 +4 =32 个 gate 等价。静态逻辑的触发器等价管子数功耗比动态逻辑多 1 倍以上。

同样的,从面积上看,动态逻辑是 11 个器件,而静态逻辑是 22 个器件,正好是一倍的面积。

我们在确认了采用动态逻辑的触发器之后,接下来就是如果融入我们的设计流程。我们最后在静态逻辑的触发器的功能描述上,增加了部分时间的约束,以防止动态逻辑中漏电流导致动态电容点漏电。并且在时序和功耗提库时,用静态触发器的一些参数进行套用。简单说,我们在动态逻辑上加了一个外框,让它在前端设计人员看来,就是一个正常的静态触发器,对于前端设计与综合,没有任何的不同。

完成了对动态触发器的提库,我们相当于有一个面积为原来一半,且功耗为原来一半,时序几乎类似的新的触发器了。因为比特币需要不停地计算,所以静态触发器需要保存较长时间的数据就没有必要。当我们在完成动态触发器之后,比特币这种分布运算以及完全流水线的逻辑就特别适合动态触发器了。对于 pipeline 流水线来说,它的结构是这样的:

 

考虑到现在新的动态触发器的面积和功耗只有原来的一半,新的流水线在相同面积和相同功耗下,增加了一倍的速度。在我们比特币的矿机芯片,就是自己从 32 级流水线改为了 64 级流水线,增加一倍算力。

我们在 2015 年中完成对 28nm 的 BM1385 芯片设计(蚂蚁矿机 S7),并且在 2015 年年底完成对 16nm 的 BM1387 芯片设计(蚂蚁矿机 S9)。在性能体现上,我们的 28nm 几乎和对手的 16nm 相同的性能,而我们的 16nm 芯片则是对手的一半成本。通过动态触发器,我们实现了对竞争对手的跨代优势。特别是 S9 的设计,是比特币矿机的奇迹,成为了比特币矿机中生产最多的矿机,生命周期三年多,被称为机皇。

在几乎不需要软件环境的数字货币挖矿行业,一件产品只有竞争对手一半的成本,这是非常大的竞争优势,这意味你可以进行随心所欲的价格战优势。因为你卖到对手不挣钱了,而比特大陆还有 50% 以上的毛利率。正是凭借着动态逻辑这个秘密武器,依靠 S7 与 S9 的销量成功,让比特大陆从不到 20% 市场份额的群雄纷争局面一举变成一家独大(70% 以上份额)。

比特大陆崛起的一个直接现象,就是国外比特币芯片公司的退出市场,2014 年和 2015 年高调的 KNC、bitfury、Spondoolies-Tech、21 Inc. 都很快宣布破产或者退出矿机芯片市场。

随着比特大陆一些员工的离开,动态触发器这个技术逐渐地传播到国内其它的芯片开发商那里,但是这个技术基本还是约束在国内了。2017 年日本 GMO 还在 12nm 以及 7nm 试图进入这个领域,从这家公司的宣传上看,他们还是采用的静态触发器的结构,再加上遇上了 2018 年的熊市周期,一年后就亏损退出这个市场,是可以预期的。

在 16nm 之前,新一代工艺 mask 在数百万美元以内,而重新设计动态逻辑的技术、人力与风险显然是高于数百万美元的,所以动态逻辑的优势无法体现。然而 16nm 之后,新的 10/7nm,以及将来的 5nm 的成本都数千万美元了。动态逻辑能够超越一个制程节点的性能就会让它显得更加优势,焕发出新的生命力。我期待着更多的应用动态逻辑的公司出现,让这个古老的设计艺术重现在我们时代。

返回顶部】【关闭窗口 风险提示:本站分享转载的信息均来自互联网,且仅供阅读参考,不作为具体投资的依据,据此入市,风险自担。本站所有内容涉及到的“货币”字眼需谨慎研判,我们维护各国法币的合法地位,同时数字资产具有货币的某些属性,目前是不能替代任何国家的法定货币的,请谨慎理解投资并严格遵守各国法律法规!详见本站[免责声明]。】
【读完这篇文章后,可否发表您的感受?】
0
0
0
0
0
0
0
0
本文网址:
安全联盟站长平台 互联网举办平台 公共信息安全网监 中国网安 赛门铁克安全响应中心