Page-Lockedメモリ(別名pinnedメモリ)は、 ホストメモリに、CUDA用にページングしない(固定の)メモリ領域を割り当てます。 普通にcudaMallocでホスト側のメモリを確保した場合に比べ、 転送速度が速くなります。 速度の違いは、CUDA SDKのbandwidthTestを実行すると分かります。 実行時、コマンドラインから --memory=pinnedをつけて実行すると確認できます。 コマンドラインの使用方法が分からない、という人は、 149行目辺りに memMode = PINNED; を追加すれば、pinnedメモリの転送速度を確認できます。 自作プログラムで確認したところ、 float型10万個だと、普通に確保した方が速いようです・・・。 15万個辺りから、Page-Lockedメモリの方が速くなっています。