クアッドコアでどう変わる? Dempsey, Woodcrest, Clovertownの「違い」机上検証―― その1.スペック ――

2006/12/28 - トピックメーカー/田中伸一

 インテルが2006年11月に発表したクアッドコア製品「インテル Xeonプロセッサー5300番台(Clovertown) 」は、DPサーバー/ワークステーション向けプラットフォーム(BensleyおよびGlidewell)でサポートされる3番目のプロセッサーとなる。そこで気になるのは3つのシリーズの「違い」。というわけで今回から2回に分けて、プロセッサーの違いにより、何がどう変わるかを机上検証してみる。

まず、これら3シリーズのXeonそれぞれの最上位グレードについて、主なスペックをまとめてみた(表1)。

  インテル Core Intel NetBurst
  Xeon X5355
(Clovertown)
Xeon X5160
(Woodcrest)
Xeon 5080
(Dempsey)
発表時期 2006年11月 2006年6月 2006年5月
コア数 4
(2コア/ダイ×2)
2
(2コア/ダイ×1)
2
(1コア/ダイ×2)
動作クロック 2.66GHz 3.00GHz 3.73GHz
FSB 1333MHz 1066MHz
バス帯域幅 10.6GB/s 8.5GB/s
DIB*1
TDP*2 120 W 80 W 130 W
L1キャッシュ/コア データ:32KB
命令:32KB
データ:16KB
命令:12KB
L2キャッシュ容量 8 MB
(4 MB/ダイ×2)
4 MB
(4 MB/ダイ×1)
4 MB
(2 MB/ダイ×2)
L2キャッシュ構成 16ウェイ
セット・アソシエイティブ
8ウェイ
セット・アソシエイティブ
最大ケース温度*3
(熱プロファイルA/B)
63.0℃ / 70.0℃ 60.0℃ / 65.0℃ 69.0℃ / 78.0℃
インテルVT*4
インテル64*5
XDビット*6
パッケージ FC-LGA6771ピン

表1
Xeon3つのシリーズの主要スペック

*1)
DIB(Dual Independent Bus)・・・2つのプロセッサーとチップセットを独立した2本のFSB(Front Side Bus)で接続する仕組み。
*2)
TDP(Thermal Design Power)・・・熱設計上の最大消費電力。
*3)
最大ケース温度・・・パッケージ表面(ヒートシンク/放熱ファンと接触する面)にあるHIS(Heat Integrated Spreader)の中央部分で計測したTDP時の温度の上限。熱プロファイルでは、電力消費量ごとの限界ケース温度がきめ細かく設定されている。熱プロファイルAは、十分な放熱対策が可能なシステム向け、同Bは、1Uサイズなど放熱対策に限界があるシステム向け。
*4)
インテル バーチャライゼーション・テクノロジー
*5)
従来インテル エクステンデッド・メモリー64テクノロジー(インテルEM64T)と呼ばれていた機能
*6)
エグゼキュート・ディスエーブル・ビット機能

DP構成時の同時実行命令数はDempseyの2.7倍

 表1であげた3つは各シリーズの中で最もパフォーマンスを重視したプロセッサーということになる。Intel NetBurst世代では新製品が出るたびに高クロック化が進んでいったが、Xeon X5355(Clovertown)の動作クロックは、Xeon 5080(Dempsey)と比較して約28%、同じインテルCore世代のXeon 5160(Woodcrest)と比べても約11%低い。しかし、同時実行命令数を見ると、Intel NetBurstベースのDempseyがコアにつき最大3命令であるのに対して、インテルCoreベースのClovertown、Woodcrestは最大4命令。これをDP構成時で考えた場合、ClovertownはDempseyの約2.7倍となる(表2)。因みに、同時実行スレッド数はDempseyとClovertownで同じだが、前者はHTテクノロジーを使って「1つのコアが2つのスレッド」を並列処理するのに対して、後者のClovertown(およびWoodcrest)は「1つのコアが1つのスレッド」の処理に専念できる。加えて後者は“インテル ワイド・ダイナミック・エグゼキューション”により、命令の処理効率が改善されるとともに、1クロック・サイクルで実行できる命令数が先述の通り、最大4命令に増えている。こうした工夫が性能上の優位性につながっている。

  Clovertown Woodcrest Dempsey
命令数 32 命令 (4 命令×4 コア×2 CPU) 16 命令 (4 命令×2 コア×2 CPU) 12 命令 (3 命令×2 コア×2 CPU)
スレッド数 8 スレッド (1 スレッド/コア×8) 4 スレッド (1 スレッド/コア×4) 8 スレッド (2 スレッド/コア×4)

表2
DP構成時の同時実行命令数とスレッド数

ダイあたりのTDPは同クロックのWoodcrestに対して約7%減

 またTDP(Thermal Design Power)は、Dempseyが130W、Woodcrestが80W、そしてClovertownが120Wとなっている。これをDP構成時の‘ダイあたり’で換算したのが表3になる。参考までに、Clovertown X5355と同じコア・クロックで動作するWoodcrest 5150のデータも加えてある。ダイあたりのTDPが一番少ないのがX5355、次いで5150と5080が同水準となっている。X5355と5150は、動作クロックやキャッシュ容量などにおいて基本的に同じスペックのコアを搭載しているにも関わらず、クアッドコア化されたX5355の方が約7%、5150より少ない。

  Xeon X5355
(Clovertown)
Xeon 5160
(Woodcrest)
Xeon 5080
(Dempsey)
Xeon 5150
(Woodcrest)
TDP/ダイ 60 W 80 W 65 W 65 W
対5150 -7.7% +23% 0%

表3
ダイあたりのTDP

Clovertown搭載時のトータル帯域幅は、Dempsey搭載時の23%増

 一方、FSB(Front Side Bus)のクロックはClovertownとWoodcrestで1333MHzとなり、Dempseyの1066MHzより約25%高速化されている。そして、バス1本あたりの帯域幅はDempseyで最大8.5GB/s 、Woodcrest、Clovertownでは10.6GB/s 。いずれも2つのプロセッサーとチップセットを独立した2本のFSBで接続するDIB(Dual Independent Bus)アーキテクチャーを採用しているため、DPプラットフォームとしてみた場合の帯域幅は、Dempseyベースでトータル17GB/s 、Woodcrest、およびClovertownベースでは21GB/s になる。これを「ダイあたりの帯域」で見るとWoodcrestはバス1本に対してダイが1つなので最大10.6 GB/s 、2つのダイを持つClovertownは5.3 GB/s となる。Dempsey(最大4.2 GB/s)との比較ではWoodcrestが152%増、Clovertownでも26%増である。因みにMPサーバー向けプラットフォーム“Truland”*7)も、2本の独立したFSBをサポートしているが、その帯域はバス・クロック667MHz時でトータル10.6 GB/s*8)なので、BensleyプラットフォームとClovertown / Woodcrestを組み合わせたときの帯域は、その2倍に達する。

*7)
インテル E850x チップセット(Twin Castle)とXeon 7000番台(Paxville MP、2005年11月発表)、および7100番台(Tulsa、2006年8月発表)を中核としたMPサーバー向けプラットフォーム。
*8)
FSB 800MHzではバス1本あたり6.4 GB/s 、トータル12.8 GB/s となる。

インテルCoreでは帯域の使い方を効率化

 ところで一般のSMP(Symmetrical Multiprocessing)システムと同様、マルチコア・プロセッサーでもバスの帯域が性能上の重要なファクターとなる。コアの性能がいくら高くても、それに見合うだけの帯域が確保されていなければ、データの供給が滞り、結果としてコアは本来の性能を発揮できない。従って、インテルCoreベースのプロセッサーでは上記のような帯域の強化に加え、「帯域の利用効率」を高めるための様々な工夫が施されている。たとえば“インテル スマート・メモリー・アクセス”に含まれる“アドバンスト・プリフェッチャー”がその一つである。アドバンスト・プリフェッチャーでは、キャッシュに設けられたハードウェア・プリフェッチャー*9)が、データのアクセス・パターンから、次に必要となる可能性の高いデータを予測し、帯域に余裕があるタイミングを見計らって、キャッシュ内に先取りする。この機能はアクセスするメモリー・アドレスが連続する場合のほか、一定間隔ごとに飛び飛びの場合(ストライド・アクセス)にも効果を発揮する。またスマート・メモリー・アクセスには、もう一つ“メモリー・ディスアンビグエーション*10)”と呼ばれる機能がサポートされている。これにより、ストア/ロード命令間のアドレス競合の有無を事前に判定し、ロード命令が投機実行される頻度を高めている。

*9)
L1キャッシュには、“DCU(Data Cache Unit)プリフェッチャー”と“IP(Instruction Pointer)ベース・ストライデッド・プリフェッチャー”の2種類、L2キャッシュには2つの“DPL(Data Prefetch Logic)”が設けられている。
*10)
先行するストア命令の実行を待たなければ、後続のロード命令と同じアドレスを参照するか否かがわからないという「曖昧性」を事前に判定する機能。ストア/ロード命令でアドレス競合がないと判定された場合は、後続のロード命令を投機実行するようスケジューリングする。

 以上、見てきたとおりBensleyプラットフォームは、Clovertownと組み合わせることで、Dempseyより3倍近くの数の命令を1クロック・サイクルで実行でき、また帯域幅は、現行のMPサーバー向けプラットフォームの2倍に達する。ただし、バスにつながるダイが増えた分、Woodcrest搭載に比べると「ダイあたりの帯域幅」の取り分は減ってしまうという側面もある(それでもDempseyと比べれば約26%増となる)。また、Clovertown / Woodcrestは、バス帯域幅の利用効率を向上させるための仕掛けを持っているため、数字上の‘帯域の差’以上の違いが期待できる。次回は、こうしたスペック上の違いが実際の性能にどのように反映されるかを、業界標準ベンチマークの結果をもとに検証する。

記事アーカイブ

IT Manager's Desk の記事をテーマごとにまとめ読み。

  • IAストラテジー
    • IAとビジネスの新しい展望を解説します
  • IAサーバー
    • IAサーバーの最新動向をレポートします
  • ビジネスPC
    • ビジネスとITの現場を変える最新PCソリューションをお伝えします
  • 事例ウォッチ
    • IAを活用してビジネスを切り拓く、注目の導入事例をピックアップします


新着ビジネスPC