东工大等试制新型处理器，相同功率下运算性能超5倍

2014年07月28日09:53

【新闻链接】

三星的立体NAND，全球率先用于高端个人电脑SSD

负极用硅粉替代碳粉，日本大学开发长寿命大容量锂电池

东大新型二次电池利用固体内的氧分子，能量密度达到现行锂离子电池7倍

联发科推出智能手机用64位八核LTE处理器，与高通的价格竞争激化

柔性有机器件：电路可贴在皮肤上，还将进入皮肤内

2014年6月底，台湾世芯电子(Alchip Technologies）宣布，与日本东京工业大学、一桥大学、会津大学共同开发出了单位功率的运算性能（电效率）为30GFLOPS/W*、达到全球最高水平的“PACS-G处理器芯片”。该处理器芯片是加速器（加速处理器）的一种，电效率比已有的微处理器及图形处理单元（GPU）高5～10倍。

*FLOPS（floating-point operations persecond）＝1秒钟可执行的浮点运算的次数。

瞄准新一代超级计算用途开发

PACS-G处理器以实现日本文部科学省推进的“后京”超级计算机（HPCI）、也就是100P～数千P FLOPS的HPCI为目标而试制的，是HPCI的选项之一。

在开发HPCI时，研究人员每次都出现的争论是在何种计算中最能发挥性能。为指定的计算用途优化系统容易以较少的开发费用来实现出色的性能，但缺乏通用性。相反，如果重视通用性，则往往会出现开发费用增大而性能平平的情况。

因此，日本文部科学省在2013年度之前，将后京HPCI要达到的要件分为与计算类型对应的4大类，按照各类同步实施了HPCI的性能评测。这4大类为：（1）存储重视型、（2）通用目的型、（3 ）存储削减型、（4）运算重视型（图1）注1）。

注1）HPCI的分类经常使用内存及内存带宽与运算性能的比值。其中，存储带宽（Bandwidth）与运算性能（FLOPS）的比值、即“B/F”尤其常用。（1）多指B/F值为2以上的系统，（2）多指B/F值为0.1左右的系统，（3）多指B/F值为0.1～1的系统，（4）多指B/F值为0.01以下的系统。

图1：瞄准重视运算性能的计算领域推进开发

在以日本文部科学省等推进的“后京”为目标的高性能运算系统（HPCI）的开发中，成为验证对象的运算系统瞄准是，运用加速器（加速处理器）、相比运算量而言存储容量较少、或者存储带宽较窄也可的、这一类型的计算。目标是由此实现出色的电效率。

直接利用内存数据

在这些类型中，PACS-G的目标是涵盖（3 ）和（4）两种。这两种类型最重视运算性能，相同点是相比运算性能而言存储容量相对较少，并且容易提高电效率。

此次试制的是设想具备2048～4096个内核（PE）的芯片的一部分，只由32个处理单元（PE）和广播内存（BM）构成（图2、图 3）。前工序利用台积电（TSMC）的流片服务（Shuttle Service，以低价格试制5个～100个少量芯片的服务），以28nm工艺技术制作芯片。

图2：在各内核中配备可寻址内存

成为开发原案的系统和加速处理器“PACS-G处理器”的构成。加速处理器构成独自的处理器网络。另外，各加速处理器由2048～4096个处理器内核（PE）构成。各PE中封装有可寻址的本地内存。全局内存使用HBM及HMC等堆栈内存，不使用DDR接口的DIMM等以往的外置内存。

图3：在不使用全局内存的情况下以低电压驱动实现出色的电效率

对图2中的加速处理器的一部分进行试制后，对电效率实施评测的结果。计算只用本地内存来执行。以0.9V左右的低电压驱动，降低了功耗。电效率在0.9V标准电压下达到约24GFLOPS/W，以0.8V驱动时达到约30GFLOPS/W。

其特点有两个。一是各内核封装有可寻址的片上内存“本地内存（LM）”，二是可不通过寄存器直接将LM的数据用于运算数据（操作数）。这与RISC型微处理器采用的“载入和储存架构（Load/Store Architecture)”不同。设计此次芯片的原东京工业大学教授、现日本理化学研究所粒子模拟器研究小组负责人牧野淳一郎等表示，“可大幅减少寄存器堆的访问接口数量，对降低功耗有很大的效果”。

牧野表示，对于电力性能的提高，此次使用的漏电流小的移动用晶体管也做出了贡献。如果设想采用10nm工艺技术，还有望实现50G～90GFLOPS/W的电效率。（作者：野泽哲生，日经技术在线！供稿）

(责编：值班编辑、庄红韬)

东工大等试制新型处理器，相同功率下运算性能超5倍

新闻回顾

产业/经营更多>>

能源/环境更多>>

机械/汽车更多>>

数码/IT更多>>

电子/半导体更多>>

工业设计更多>>