ローファイ日記

出てくるコード片、ぼくが書いたものは断りがない場合 MIT License としています http://udzura.mit-license.org/

wasmで動くmruby(とバイナリ互換のVM)近況報告

RubyKaigi CfP 2024のクローズ期限は本日です。みなさんは準備ですか?

今日は、先日紹介した mruby/edge の近況を報告します。

udzura.hatenablog.jp

VTRをどうぞ

youtu.be

う〜ん地味!

できてること

mec というcli経由でRubyスクリプトを直接wasmファイルにして、ハローワールドする

mec (mruby edge compiler)というフロントエンドとなるコマンドを作りました。と言っても他のコマンドのラッパーなのですが。。crates.io に上げてるので以下でインストールできます。nightlyじゃないとダメなのはいつかなんとかする。

$ rustup default nightly
$ cargo install mec

mec の動作に必要な依存コマンドは、 rustc/cargo(1.77.0-nightly)、mrbc(3.2.0)、あとは git や sed ぐらいです。

特にmrbcをパスの通ったところにインストールするのは至難の業なのですが、 Debian sid のmrubyが今ちょうど 3.2.0 なので、Ubuntu/Debian系のLinuxdebを落としてきてインストールすれば比較的楽に環境が作れます*1

上記が揃ったら、適当なRubyスクリプトを用意して一つメソッドを定義します。

def world
  puts "I love any binaries"
end

これで以下のコマンドを実行したら無事wasmファイルが、同じディレクトリに作られます。

$ mec --fnname world hello.rb
...

この hello.wasm は world というメソッドをそのまま関数としてexportしており、こうやって呼べます。

$ wasmedge --reactor ./hello.wasm world
I love any binaries
Nil

余談

このwasmバイナリのサイズです。 CRuby.wasm の18MB*2に比べると 1/10 くらいでずいぶん小さいですが、そもそも全然機能がないので当たり前ですね...。

$ ls -l hello.wasm 
-rwxrwxr-x 1 ubuntu ubuntu 1812994 Jan 31 21:16 hello.wasm

フィボナッチ数を計算する

mruby/edge はmrubyのトップレベルメソッドを定義し、それを再起で呼び出せるようになりました。

def fib(n)
  if n < 3
    return 1
  else
    return fib(n-1)+fib(n-2)
  end
end

def main
  fib(15)
end
$ mec --fnname main fib.rb
$ wasmedge --reactor ./fib.wasm main
RInteger(610)

まあ fib(20) くらいではっきり遅いとわかっちゃうため、パフォーマンス改善はこれからです...。

これから頑張ること

exportする関数の型に気を遣いたい

上記のようにMVP的なものが動くんですが、普通に使う分でもまだ機能は足りません。

たとえば、fibを上記では別の関数から呼んでますが、こうしたい。つまりこの場合 (int32) -> int32 の関数をexportしたいのでした。

def fib(n)
  if n < 3
    return 1
  else
    return fib(n-1)+fib(n-2)
  end
end
$ wasmedge --reactor ./fib.wasm main 15
610

型推論までできたら凄いんですが、当座はRBS風の文法でこんなオプション用意してもいいかなって気持ちです。う〜ん...。

$ mec --fnname fib --signature "(Integer) -> Integer" fib.rb

もっと命令をサポートする

今mruby/edgeとmecでできることです。

  • 文字の表示
  • トップレベルメソッド定義
  • フィボナッチ数計算に必要な算術演算

はい、ほぼ何もできていない。今後のマイルストーンは、ブロックの扱いとかクラス定義とか例外とかそんなところですね...。mrubyとVMに親しくなりながらやっていく所存です。

ただ、メソッド定義は、ちゃんとmrubyの中のIrepを行ったり来たりしながら実行してくれるように作れました。他の機能もmrubyやmruby/cと言ったファミリーの皆さんの実装を眺めながら随時移植できるかなと思います。きっと。

実は OP_ADDI とかすごく基本的な算術命令すらサボってるんですが、多くのものはやるだけだとは思うので、やっていきます。

やんちゃハウスで集中して実装しようかな...

mruby-asmとかmruby-objdumpが欲しい

普通にないとデバッグに不便なので頑張るぞと。

最後に

所有権は友達、怖くないよ!

ジットハブはここです:

github.com

では、福岡に住んでる人はeBPFイベントで、そうでない人は多分沖縄でお会いしましょう。

*1:パッケージで 3.0.0 が落ちてくる環境もありますが、今の所 3.0 対応してませんすいません...

*2:ruby.wasmでやれることを考えると、とんでもなく小さいと思ってます!

wasm環境で動くmrubyを作りたかった... 話

mrubyファミリー Advent Calendar 2023

24日目の記事です..............................

qiita.com

wasm環境で動くmrubyを作っているのでその途中経過をダラダラ書きます。

本当は..............

今の時点である程度まともに動かしたり、情報も整理したかったんですね。で、一昨日〜昨日と夜に時間があったはずなのですが、その日程で存在した会社の全社集会後に無限に飲み明かしてしまい、その時間と体力が.......。

なので生活の状況をシェアします。

mruby/edge (仮) を作りたかった話

続きを読む

ハンズオンWebAssemblyを読んだ

日記、やっぱり書いたほうがいいなとなるきっかけがあったので漠然とやっていく。


この本、バイナリが好きなので読んだ。

雑な感想として:

  • wasm形式自体の基礎やwatの基礎が書かれていてとても良かった
    • 11章でおもむろにwat形式を手書きする
  • emscripten、いいんだけどAPIが癖つよというか…
  • 型がない言語って読みにくいんだな… って思った…
    • 読みやすさが、 C++部分 >>>>> JavaScript部分だなという気づきがあった
    • というかC++ほぼ書いたことないんだけどあんまりそれが障壁にならなかった...型があったから...
    • 第2版が出るならTypeScriptで... ってそうなるとwasm-packみたいにwebpackが出てくるとか、抽象化レイヤが増えて辛いんかな

全体的に隠蔽しているところを、なるべくほぐそうという気持ちが感じられてよかった。

emscriptenの提供するAPIに依存するところはしているが、まあそこはemscriptenを追えばいいのだろう...。自分のやりたいことには近づけた感がある。

次はこれを読んでいるところ。

rustwasm.github.io

wasmよりwebpackの理解に難儀している........これも感想を残したい。

Xの動画を見るときに落とされるファイルを眺める

あまりにも個人の日記を書いていないので、某所にただのメモとしておいてあるやつを再構成したりしてお茶をにごす。


例えばこのツイート... ポスト。

動画を再生しようとするとき、最初に LS8h5YVnzTCKxCEM.m3u8 というファイルにアクセスした。

HLSのマニフェストを眺める

これはHLSのplaylist(マニフェスト)で、中身はこう:

#EXTM3U
#EXT-X-VERSION:6
#EXT-X-INDEPENDENT-SEGMENTS
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=501854,BANDWIDTH=639498,RESOLUTION=1280x720,CODECS="mp4a.40.2,avc1.640020"
/ext_tw_video/1708859564446429185/pu/pl/avc1/1280x720/_u3fHmjJPHlXgv3W.m3u8?container=fmp4
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=205381,BANDWIDTH=264621,RESOLUTION=640x360,CODECS="mp4a.40.2,avc1.4d001f"
/ext_tw_video/1708859564446429185/pu/pl/avc1/640x360/emjUVd3t94tT8j-1.m3u8?container=fmp4
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=91859,BANDWIDTH=116120,RESOLUTION=480x270,CODECS="mp4a.40.2,avc1.4d001e"
/ext_tw_video/1708859564446429185/pu/pl/avc1/480x270/IhZW9A8k91V6lbX3.m3u8?container=fmp4
  • 再生環境によって動画の品質を選択できるよう、複数のマニフェストを選択させるようになっている。HLS マスターマニフェストというやつ。参考1
  • コーデックは mp4a(AAC) + avc(H.264) のみ、解像度が3種類
  • container=fmp4 とのことだが、ここを例えば mpeg2tsに変えても無視される気がする...

このうち一つ IhZW9A8k91V6lbX3.m3u8 の中身はこう。こちらはメディアマニフェストとか言うらしい。

#EXTM3U
#EXT-X-VERSION:6
#EXT-X-MEDIA-SEQUENCE:0
#EXT-X-TARGETDURATION:3
#EXT-X-PLAYLIST-TYPE:VOD
#EXT-X-MAP:URI="/ext_tw_video/1708859564446429185/pu/vid/avc1/0/0/480x270/BEWYQPCMCXWMJLNs.mp4"
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/0/3000/480x270/SjaCI0mG8RqXyZZw.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/3000/6000/480x270/AEOm4mdlYZWCo9GB.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/6000/9000/480x270/DN4R2KT6gfCdACrh.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/9000/12000/480x270/atCTyDRFdq0I9JWQ.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/12000/15000/480x270/5AwGszExXRlmwlmD.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/15000/18000/480x270/Qq9t_qPDrmuLQNjN.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/18000/21000/480x270/8AviU-V8vo2GuJTe.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/21000/24000/480x270/jSQu_WPDX28DAOtc.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/24000/27000/480x270/Ng8Ba10HbqG9oLD9.m4s
#EXTINF:2.600,
/ext_tw_video/1708859564446429185/pu/vid/avc1/27000/29600/480x270/sdqh8euFgH6OtRKe.m4s
#EXT-X-ENDLIST
  • 最初に *.mp4 のファイルにアクセスする必要がある
  • その後、再生時間ごとに(3秒ごとで区切っている模様) *.m4s ファイルをダウンロードして映像・音声のデータを取り出し再生
  • シーク等をしたら、時間を計算していい感じのチャンクを落として再生

Fragmented MP4のファイルたちを眺める

MP4のファイル(MPEG-4 Part 14)はおおまかに言えば Box という単位のデータの区切りの塊で、データ本体の他にメディアのメタデータなんかを含んでおり、Box同士はツリー構造になって格納されている。

気持ち的にはhtmlのタグの入れ子みたいに認識している(実際XMLでダンプするツールなんかもある)。

まず、最初に BEWYQPCMCXWMJLNs.mp4 の構造を眺めてみる。abema/go-mp4 に含まれる mp4tool というコマンドを使っている。

[ftyp] Size=24 MajorBrand="iso5" MinorVersion=512 CompatibleBrands=[{CompatibleBrand="iso6"}, {CompatibleBrand="mp41"}]
[moov] Size=1106
  [mvhd] Size=108 ... (use "-full mvhd" to show all)
  [trak] Size=418
    [tkhd] Size=92 ... (use "-full tkhd" to show all)
    [mdia] Size=318
      [mdhd] Size=32 Version=0 Flags=0x000000 CreationTimeV0=0 ModificationTimeV0=0 Timescale=48000 DurationV0=0 Language="und" PreDefined=0
      [hdlr] Size=51 Version=0 Flags=0x000000 PreDefined=0 HandlerType="soun" Name="Twitter-vork muxer"
      [minf] Size=227
        [smhd] Size=16 Version=0 Flags=0x000000 Balance=0
        [dinf] Size=36
          [dref] Size=28 Version=0 Flags=0x000000 EntryCount=1
            [url ] Size=12 Version=0 Flags=0x000001
        [stbl] Size=167
          [stsd] Size=91 Version=0 Flags=0x000000 EntryCount=1
            [mp4a] Size=75 DataReferenceIndex=1 EntryVersion=0 ChannelCount=1 SampleSize=16 PreDefined=0 SampleRate=48000
              [esds] Size=39 ... (use "-full esds" to show all)
          [stts] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsc] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsz] Size=20 Version=0 Flags=0x000000 SampleSize=0 SampleCount=0 EntrySize=[]
          [stco] Size=16 Version=0 Flags=0x000000 EntryCount=0 ChunkOffset=[]
  [trak] Size=500
    [tkhd] Size=92 ... (use "-full tkhd" to show all)
    [mdia] Size=400
      [mdhd] Size=32 Version=0 Flags=0x000000 CreationTimeV0=0 ModificationTimeV0=0 Timescale=900000 DurationV0=0 Language="und" PreDefined=0
      [hdlr] Size=51 Version=0 Flags=0x000000 PreDefined=0 HandlerType="vide" Name="Twitter-vork muxer"
      [minf] Size=309
        [vmhd] Size=20 Version=0 Flags=0x000001 Graphicsmode=0 Opcolor=[0, 0, 0]
        [dinf] Size=36
          [dref] Size=28 Version=0 Flags=0x000000 EntryCount=1
            [url ] Size=12 Version=0 Flags=0x000001
        [stbl] Size=245
          [stsd] Size=169 Version=0 Flags=0x000000 EntryCount=1
            [avc1] Size=153 ... (use "-full avc1" to show all)
              [avcC] Size=51 ... (use "-full avcC" to show all)
              [pasp] Size=16 HSpacing=1 VSpacing=1
          [stts] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsc] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsz] Size=20 Version=0 Flags=0x000000 SampleSize=0 SampleCount=0 EntrySize=[]
          [stco] Size=16 Version=0 Flags=0x000000 EntryCount=0 ChunkOffset=[]
  [mvex] Size=72
    [trex] Size=32 Version=0 Flags=0x000000 TrackID=1 DefaultSampleDescriptionIndex=1 DefaultSampleDuration=0 DefaultSampleSize=0 DefaultSampleFlags=0x10000000
    [trex] Size=32 Version=0 Flags=0x000000 TrackID=2 DefaultSampleDescriptionIndex=1 DefaultSampleDuration=0 DefaultSampleSize=0 DefaultSampleFlags=0x10000

最初にこのファイルを参照しないといけないのは、 ftyp というBoxでファイル種類を判定する必要があるのと、 moov というBoxに動画の重要な情報(映像、音声各ストリームのコーデック情報、サンプルレートなど)が含まれるため。一方、ストリーム自体のコンテンツデータは mdat というBoxにあるのだが、それはこのファイルにはなさそう。なのでファイルとしては小さい。

次にセグメントを一つ落として見てみる。 SjaCI0mG8RqXyZZw.m4s:

[styp] Size=24 MajorBrand="iso5" MinorVersion=512 CompatibleBrands=[{CompatibleBrand="iso6"}, {CompatibleBrand="mp41"}]
[moof] Size=2736
  [mfhd] Size=16 Version=0 Flags=0x000000 SequenceNumber=2
  [traf] Size=1192
    [tfhd] Size=16 Version=0 Flags=0x020000 TrackID=1
    [tfdt] Size=20 Version=1 Flags=0x000000 BaseMediaDecodeTimeV1=0
    [trun] Size=1148 ... (use "-full trun" to show all)
  [traf] Size=1520
    [tfhd] Size=16 Version=0 Flags=0x020000 TrackID=2
    [tfdt] Size=20 Version=1 Flags=0x000000 BaseMediaDecodeTimeV1=0
    [trun] Size=1476 ... (use "-full trun" to show all)
[mdat] Size=33789 Data=[...] (use "-full mdat" to show all)

stypmoof などのBoxがあり、セグメント単位のメタデータを持っている。ちなみにメタデータから実際の映像・音声のデータへの参照は trun というBoxに記述されている。

[trun] Size=1148 Version=1 Flags=0x000301 SampleCount=141 DataOffset=2744 Entries=[{SampleDuration=3118 SampleSize=85}, {SampleDuration=1024 SampleSize=85}, {SampleDuration=1024 SampleSize=86}, {SampleDuration=1024 SampleSize=125}, {SampleDuration=1024 SampleSize=135}, ...

DataOffset=2744 というのが、上のデータで言えば moof 2736 bytes + mdatのヘッダ 8 bytes で計算できるとわかる。その後はSampleSize分のデータが順番に並んでいると考えられる。

なお、この辺りのBoxは、FragmentedでないMP4には登場しない。

そしてmdatが小さいとわかる。なので、動画がめちゃ長の場合でも、初回再生や、あるいはシークした場合でも、ちょっとだけ落としてすぐに再生を再開できる仕組みになっている。


言い訳を最後に置いておくと、公開されたファイルにしかアクセスしていないが、若干お行儀の悪い印象を受けるかもしれない。あと僕の理解が間違ってるところがあればこっそり教えてください...。