QPU: TMUのレイテンシとTMU・L2キャッシュのサイズ

概要

表1. TMUによるレイテンシ
データの場所 レイテンシ [クロック]
TMUキャッシュ 9
L2キャッシュ 12
メモリ ($\mathrm{v3d\_freq}=250$[MHz]) 20

実験環境

実験には Raspberry Pi 2 Model B を使用した.

実行したプログラム

実行したプログラムの流れをリスト1に示す. プログラムは,TMU0を通じて$\mathrm{mlen}\times 64$[B]のメモリを $64$[B]単位で読み込むという処理をrep_times回繰り返す. $\mathrm{mlen}$は$64,128,256,512$から選び, $\mathrm{rep\_times}$はQPUでのプログラム実行時間が$1$秒以上になるように選んだ. また,QPUの動作クロック$\mathrm{v3d\_freq}$を$130,250,500$から選んだ.

nop
nop
nop
nop
mov addr_orig, unif
Loop rep_times times {
  mov addr, addr_orig
  Loop mlen times {
    mov tmu0_s, addr
    Variable number of nops to measure latency
    nop.ldtmu0
    addr += 64
  }
}
mov host_int, 1
alu.program_end
nop
nop
リスト1. 実行したプログラム

結果と考察

Copyright notice

© 2018 Yukimasa Sugizaki. All rights reserved.

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.