2012年11月28日水曜日

statistics

今日のページビューの中で、これは日本からだが、「dft+面白い」という検索から、このブログに来た方がいるようだ。。。これはウケた。「dft+おばか」だったらもっとウケたのに。


このブログのページビューは今年の夏頃一時的に1000件/月を越え、その後、ブログの更新の停滞と共に減少していたのだが、ここ最近増加傾向にある。不思議なのが、最近はアメリカからのページビューが増えている。日本語で記述している上に、それでも読みづらい文章の筈なのに、不思議だ。インタネットを自動で検索して回るソフトウェアによるページビューかも知れないな。



ちなみに、ブログを開始してから全期間の統計は以下の通りだ。
bloggerのシステムでは国名は上位10迄しか表示されないようだ。
過去、ここにリストされていない国名を見た記憶があるので実際はもう少し多いと思う。


内容としてはYUV422について書いたのがもっとも多く参照されている。

YUV422に関しての情報は意外とネットに転がっていないのかも知れない。
私の文章も大して中身は無いので、その意味では申し訳ない。



そうそう、統計つながりで、dviencのダウンロード数がもうすぐ300に到達しそうだ。
去年の10月に200だったので、1年で100件程の増加だ。


国数は32ヶ国に増えた。




おそらく絶対に有り得ないとは思うが、全大陸制覇したら、俺、興奮しちゃうね。



2012年11月25日日曜日

DFT IPの作成 6

実機で動かしてみた。

現状のSystem Architectureは以下の通り。

AC97コントローラの再生のRchをDFTに入力し、DFTの出力をDRAMを介さず、直接VIF(フレームバッファ)に入れている。  VGAの表示サイズがXGA (1024x768)で横方向がDFTの出力データ数と一致するので、VIFのsyncgenのxadr(水平方向カウンタ)の値をDFTのpramのアドレス入力として与え、その出力をsyngenのyadr(垂直方向カウンタ)の値と比較して、hitした場合に赤、hitしない場合に黒を出力するようにして、スペクトル表示を行うようにした。
以下はDFTの当該部だ。


また、以下はVIFの当該部だ。


この構造で音楽データを再生させながらスペクトル表示させて見たところ、再生終了(音量がゼロ)後もスペクトルが残ったり、また、そのまま放置しておいても、スペクトルが徐々に増加したりといった現象が見られた。どうも、演算誤差の累積が原因のようだ。 そこで、とりあえず、データ入力2048点毎にアキュムレータの値をクリアするようにして、動作確認を進めてみることにした。これは2048点毎にDFTを実行することと同じことになるが、この回路の設計思想からは外れるので、誤魔化しではある。dft_coreの当該部を以下に示す。 165行目のscntでデータをカウントし、2048個に到達するとsclrが1になり、アキュムレータRAMからのリード値を0に置き換えている。(180,181行目)


回路規模だが、現状 dft_core部は以下の通りだ。


dft_core部の中身はDFT演算のみであり、絶対値演算と平方根、対数変換はdft_powerという別のモジュールで行う。この、dft_power部の回路規模は以下のようになった。


現状、浮動小数演算器はハードウェア乗算器(DSP48)を使わない構成で生成しているため、LUTの使用量が大きくなっている。
dft_top (dft_core + dft_power)部としての規模は以下のようになった。


これまでの数値は、論理合成結果なので、マッピング後の結果とは若干違ってくるかも知れない。

また、何とかこれをSpartan3E 250Eにも入れられないかとやってみたのだが、駄目だった。
ムググッ、おのれ250Eめ、今度固定小数方式でリベンジしてやる。
(その前に、誤差問題を対応する必要があるが。)

Spartan6 xc6slx45への、全体の合成・マッピングは出来て、タイミングもMetした。


で、データを再生して表示してみた。
これは、絶対値を平方根した値を表示している。
これの対数変換による表示は以下だが、ちょっとパッとしない。
サイレン音を再生・表示してみた。サイレンの音程の変化に合わせて、スペクトルが移動する様が、ちょっと面白い。
次に、自動車の通過音をやってみた。
音楽をやってみた。
きゃ~~、>_< アレサー、、おしっこチビりそう。

今度はテンポの早いやつをやってみた。
いやー、めでたい。ウチナーンチュ最高! (俺、ウチナンチュでっす。)

これで、誤差問題が解決すればもっとおめでたい。
DFT演算ではexp(2πf/N)を乗じているので、ベクトルを常時回転させていることに相当するが、入力がゼロでもスペクトル値が増加すると言うことは、演算誤差により回転時に外側に膨らんでいっていると考えられる。だから、内側への補正が出来れば解決出来そうな気がするのだが、、、要検討だ。

げっ!、もうこんな時間だ。寝なきゃ。

2012年11月18日日曜日

DFT IPの作成 5

この土日は色々と野暮用があって作業が捗らなかった。
Nを2048にし、演算はその半分の1024のみを行うようにし、また、対数変換器を作成し
RTLに組み込んでシミュレーション実行までは出来た。
以下、上段は絶対値のスペクトルで、下段が対数でのスペクトルだ。


あ、それと、各種浮動小数演算器のレイテンシーも現実的な値で生成し直した。
具体的には乗算器・加減算器ともに4にした。
もう少しで、実機での動作確認に移れると思っており、AC97コントローラに組み込んで動作させてみるつもりだ。 が、ここで、対数値を20倍すべきか10倍すべきかが心許なくなってきた。。。
表示しようとしているのはパワーか?電圧か?で変わってくるはずだが。
こま~~~~けぇ~~~こたぁ~~~、いいから一度実機で動かしてみようか。
落ち着いて考えよう。


2012年11月13日火曜日

DFT IPの作成 4

今回は位相角は表示するつもりはないのだが、面白いのでちょっと検討してみた。
位相角はDFT出力のsin,cosから以下のように求める

ここで、sinθ,cosθがそれぞれ以下のような指数形式で表せるとすると、

となり、除算がなくせる。
そこで、tan^-1を例によってテーブル方式とする場合、インデックスはα^βになる訳だが、
α^βはβから一意に定まるので、インデックスとしてβを使うようにしても良いはずだ。
即ち、

という訳で、前回検討した対数変換器でsinθとcosθの対数を求め、その差分をインデックスとしてテーブル参照すればθも求められるのではないかと思う。
但し、0°や90°等の特異点は別に判定する必要があり、処理イメージとしては以下のような感じか?

この方式はテーブルの持ち方が肝になるような気がするのと、精度や回路規模、スループット、レイテンシー等の面でどれほど実用性があるかは疑問(ちゃんと考えていない)が、sinθ/cosθの除算をしなくて済むというのは面白い。


2012年11月10日土曜日

DFT IPの作成 3

DFTで求まるのは実数部と虚数部からなる複素数であり、スペクトルとして表示するためにはこれの絶対値(sqrt(r^2 + i^2))に変換する必要がある。  また、通常、対数表示されるので対数変換も必要になる。  この対数変換器について検討した。
まず、対数は以下のように任意の数を指数形式で表した場合の指数部のことであり、a(底)が10の場合を常用対数、ネイピア数の場合を自然対数と言う。スペクトルは常用対数で表す。

今作成しているDFT IPは内部演算を32bit単精度浮動小数形式で行っているが、対数変換を考える場合この浮動小数形式は都合が良い。  32bit単精度浮動小数は数値を±1.M×2^e 形式で表す。構造は以下のようになっている。

sは符号で0が正数、1が負数、exponent(e)は指数部、Mantissa(M)は仮数部である。
指数部は本来は整数で+/-の値を取りえるが、この形式では+127のオフセットが加算され正数となるようになっている。仮数部は整数部(1または0)が省略され小数部23bitのみが含まれる。
また、指数部と仮数部の特定の値の組み合わせに対して以下のような状態が割り当てられている。

このDFT IPでは値が不正規化数や無限大、非数になることは有り得ないので、正規化数に限定して検討を進める。 また、符号は負になることはないので正に限定して考える。

であり、仮数部の対数値(m)とオフセットを引いた指数部の値を加算すれば対数値が求まる。
次にmについて考える。

であり、グラフにすると以下のようになる。

凸型の曲線になっているので、計算して値を求めようとすると多項式か何かでの近似計算となりそうであり、それよりは、テーブル参照方式で求めたほうが良さそうだ。その場合、Mの小数部の上位何bitかをインデックスとして用いることになる。4,6,7,8bitの場合について見てみた。

当然だがbit数が多い程誤差は少いが、今回の用途では6bitでも良さそうな気がする。
つまり、64x32bitのテーブルを作成することにする。  対数変換器への入力は二乗和の平方根だったが、sqrt(x)はx^1/2であるので、開平せず二乗のまま対数変換をしその結果を2で割るという方法も可能で、こうすればsqrt演算器を省略することができる。ここまでの処理で求めた値は2を底とする対数値なので、最後にこれを常用対数に変換する必要がある。これは(log210)^-1をかければいい。ここでもlogが出てきてしまうが、固定値なので定数化できる。
と、言うことで、ここまでの処理イメージをまとめると以下のようになる。


2012年11月6日火曜日

AC'97 Codecを制御してみる 5


AC97コントローラのsnapshot版を以下に公開した。
(今作成中のDFT IPの前にやっていたやつです。)

http://www.hi-ho.ne.jp/bravo-fpga/


2012年11月5日月曜日

DFT IPの作成 2

RTLだが、まずは1024点版を作ってみている。 演算部は当初、整数部16bit、小数部16bitの固定小数方式でやってみたのだが、累積誤差が大きくなるので結局、浮動小数方式でやることにした。

現状のRTLは以下の通りだ。ただし、まだ最終型ではない、シミュレーションでの動作確認用と言ったところだ。

dft_core.v ... ipコアのトップモジュール

5行目はステートマシンで、rst解除後の内部変数(テーブル類)の初期化と、演算回数の処理を行う。 mul_fp32, add_fp32, sub_fp32, は浮動小数演算器で、ISEのCoregenで生成した物を使っている。今回は動作確認の段階なので、レイテンシーは1にしているが、100MHzで動作させる場合は、おそらく、3~4位にする必要があるだろう。従って最終的にはパイプラインの段数が増加する。

dft_dlyline.v ... xp, xp-N用の遅延モジュール


dft_arctbl.v ... sin,cos値のテーブル

1/4周期分のみromに持ち、残りの部分の値はこれを写像して生成している。
romの中身は32bit float形式だが、このデータは以下のようにプログラムを書いて作成した。


dft_spctbl.v ... スペクトル値保持用モジュール


実態は只のRAMだ。

RTLとしては浮動小数演算器を除いては以上で、結構シンプルに出来ていると思う。
但しスペクトル値にする為には、さらに乗算器2個と√演算器、log演算器等が必要になる。

以下はシミュレーションの様子だ。  基本周期の64倍の正弦波を入れている。


上記の拡大


現状1024点としているがスペクトルの折り返しがあるので使えるのは半分になる。
従って、有意な1024点を得るためには計算は2048点で行う必要があるが、DFTの場合、必要な分のみを計算できるので、Nが2048点でありながら計算は1024点のみを行うようにも出来る。
また、スペクトル波形を画面表示することを考えるとこの位の点数で十分な気がしている。


いや~~っっっ、 FPGAって本当に面白いですね !!



GTX1050Ti と Tesla m2050 No.2 (BNN-PYNQのtrainingをやってみた)

BNN-PYNQのtraining(学習)をやってみた。  手順は https://github.com/Xilinx/BNN-PYNQ/tree/master/bnn/src/training に記載されており、特に判りづらい点はなかった。 ・ mnist.py 実行...