ローファイ日記

出てくるコード片、ぼくが書いたものは断りがない場合 MIT License としています http://udzura.mit-license.org/

Xの動画を見るときに落とされるファイルを眺める

あまりにも個人の日記を書いていないので、某所にただのメモとしておいてあるやつを再構成したりしてお茶をにごす。


例えばこのツイート... ポスト。

動画を再生しようとするとき、最初に LS8h5YVnzTCKxCEM.m3u8 というファイルにアクセスした。

HLSのマニフェストを眺める

これはHLSのplaylist(マニフェスト)で、中身はこう:

#EXTM3U
#EXT-X-VERSION:6
#EXT-X-INDEPENDENT-SEGMENTS
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=501854,BANDWIDTH=639498,RESOLUTION=1280x720,CODECS="mp4a.40.2,avc1.640020"
/ext_tw_video/1708859564446429185/pu/pl/avc1/1280x720/_u3fHmjJPHlXgv3W.m3u8?container=fmp4
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=205381,BANDWIDTH=264621,RESOLUTION=640x360,CODECS="mp4a.40.2,avc1.4d001f"
/ext_tw_video/1708859564446429185/pu/pl/avc1/640x360/emjUVd3t94tT8j-1.m3u8?container=fmp4
#EXT-X-STREAM-INF:AVERAGE-BANDWIDTH=91859,BANDWIDTH=116120,RESOLUTION=480x270,CODECS="mp4a.40.2,avc1.4d001e"
/ext_tw_video/1708859564446429185/pu/pl/avc1/480x270/IhZW9A8k91V6lbX3.m3u8?container=fmp4
  • 再生環境によって動画の品質を選択できるよう、複数のマニフェストを選択させるようになっている。HLS マスターマニフェストというやつ。参考1
  • コーデックは mp4a(AAC) + avc(H.264) のみ、解像度が3種類
  • container=fmp4 とのことだが、ここを例えば mpeg2tsに変えても無視される気がする...

このうち一つ IhZW9A8k91V6lbX3.m3u8 の中身はこう。こちらはメディアマニフェストとか言うらしい。

#EXTM3U
#EXT-X-VERSION:6
#EXT-X-MEDIA-SEQUENCE:0
#EXT-X-TARGETDURATION:3
#EXT-X-PLAYLIST-TYPE:VOD
#EXT-X-MAP:URI="/ext_tw_video/1708859564446429185/pu/vid/avc1/0/0/480x270/BEWYQPCMCXWMJLNs.mp4"
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/0/3000/480x270/SjaCI0mG8RqXyZZw.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/3000/6000/480x270/AEOm4mdlYZWCo9GB.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/6000/9000/480x270/DN4R2KT6gfCdACrh.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/9000/12000/480x270/atCTyDRFdq0I9JWQ.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/12000/15000/480x270/5AwGszExXRlmwlmD.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/15000/18000/480x270/Qq9t_qPDrmuLQNjN.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/18000/21000/480x270/8AviU-V8vo2GuJTe.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/21000/24000/480x270/jSQu_WPDX28DAOtc.m4s
#EXTINF:3.000,
/ext_tw_video/1708859564446429185/pu/vid/avc1/24000/27000/480x270/Ng8Ba10HbqG9oLD9.m4s
#EXTINF:2.600,
/ext_tw_video/1708859564446429185/pu/vid/avc1/27000/29600/480x270/sdqh8euFgH6OtRKe.m4s
#EXT-X-ENDLIST
  • 最初に *.mp4 のファイルにアクセスする必要がある
  • その後、再生時間ごとに(3秒ごとで区切っている模様) *.m4s ファイルをダウンロードして映像・音声のデータを取り出し再生
  • シーク等をしたら、時間を計算していい感じのチャンクを落として再生

Fragmented MP4のファイルたちを眺める

MP4のファイル(MPEG-4 Part 14)はおおまかに言えば Box という単位のデータの区切りの塊で、データ本体の他にメディアのメタデータなんかを含んでおり、Box同士はツリー構造になって格納されている。

気持ち的にはhtmlのタグの入れ子みたいに認識している(実際XMLでダンプするツールなんかもある)。

まず、最初に BEWYQPCMCXWMJLNs.mp4 の構造を眺めてみる。abema/go-mp4 に含まれる mp4tool というコマンドを使っている。

[ftyp] Size=24 MajorBrand="iso5" MinorVersion=512 CompatibleBrands=[{CompatibleBrand="iso6"}, {CompatibleBrand="mp41"}]
[moov] Size=1106
  [mvhd] Size=108 ... (use "-full mvhd" to show all)
  [trak] Size=418
    [tkhd] Size=92 ... (use "-full tkhd" to show all)
    [mdia] Size=318
      [mdhd] Size=32 Version=0 Flags=0x000000 CreationTimeV0=0 ModificationTimeV0=0 Timescale=48000 DurationV0=0 Language="und" PreDefined=0
      [hdlr] Size=51 Version=0 Flags=0x000000 PreDefined=0 HandlerType="soun" Name="Twitter-vork muxer"
      [minf] Size=227
        [smhd] Size=16 Version=0 Flags=0x000000 Balance=0
        [dinf] Size=36
          [dref] Size=28 Version=0 Flags=0x000000 EntryCount=1
            [url ] Size=12 Version=0 Flags=0x000001
        [stbl] Size=167
          [stsd] Size=91 Version=0 Flags=0x000000 EntryCount=1
            [mp4a] Size=75 DataReferenceIndex=1 EntryVersion=0 ChannelCount=1 SampleSize=16 PreDefined=0 SampleRate=48000
              [esds] Size=39 ... (use "-full esds" to show all)
          [stts] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsc] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsz] Size=20 Version=0 Flags=0x000000 SampleSize=0 SampleCount=0 EntrySize=[]
          [stco] Size=16 Version=0 Flags=0x000000 EntryCount=0 ChunkOffset=[]
  [trak] Size=500
    [tkhd] Size=92 ... (use "-full tkhd" to show all)
    [mdia] Size=400
      [mdhd] Size=32 Version=0 Flags=0x000000 CreationTimeV0=0 ModificationTimeV0=0 Timescale=900000 DurationV0=0 Language="und" PreDefined=0
      [hdlr] Size=51 Version=0 Flags=0x000000 PreDefined=0 HandlerType="vide" Name="Twitter-vork muxer"
      [minf] Size=309
        [vmhd] Size=20 Version=0 Flags=0x000001 Graphicsmode=0 Opcolor=[0, 0, 0]
        [dinf] Size=36
          [dref] Size=28 Version=0 Flags=0x000000 EntryCount=1
            [url ] Size=12 Version=0 Flags=0x000001
        [stbl] Size=245
          [stsd] Size=169 Version=0 Flags=0x000000 EntryCount=1
            [avc1] Size=153 ... (use "-full avc1" to show all)
              [avcC] Size=51 ... (use "-full avcC" to show all)
              [pasp] Size=16 HSpacing=1 VSpacing=1
          [stts] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsc] Size=16 Version=0 Flags=0x000000 EntryCount=0 Entries=[]
          [stsz] Size=20 Version=0 Flags=0x000000 SampleSize=0 SampleCount=0 EntrySize=[]
          [stco] Size=16 Version=0 Flags=0x000000 EntryCount=0 ChunkOffset=[]
  [mvex] Size=72
    [trex] Size=32 Version=0 Flags=0x000000 TrackID=1 DefaultSampleDescriptionIndex=1 DefaultSampleDuration=0 DefaultSampleSize=0 DefaultSampleFlags=0x10000000
    [trex] Size=32 Version=0 Flags=0x000000 TrackID=2 DefaultSampleDescriptionIndex=1 DefaultSampleDuration=0 DefaultSampleSize=0 DefaultSampleFlags=0x10000

最初にこのファイルを参照しないといけないのは、 ftyp というBoxでファイル種類を判定する必要があるのと、 moov というBoxに動画の重要な情報(映像、音声各ストリームのコーデック情報、サンプルレートなど)が含まれるため。一方、ストリーム自体のコンテンツデータは mdat というBoxにあるのだが、それはこのファイルにはなさそう。なのでファイルとしては小さい。

次にセグメントを一つ落として見てみる。 SjaCI0mG8RqXyZZw.m4s:

[styp] Size=24 MajorBrand="iso5" MinorVersion=512 CompatibleBrands=[{CompatibleBrand="iso6"}, {CompatibleBrand="mp41"}]
[moof] Size=2736
  [mfhd] Size=16 Version=0 Flags=0x000000 SequenceNumber=2
  [traf] Size=1192
    [tfhd] Size=16 Version=0 Flags=0x020000 TrackID=1
    [tfdt] Size=20 Version=1 Flags=0x000000 BaseMediaDecodeTimeV1=0
    [trun] Size=1148 ... (use "-full trun" to show all)
  [traf] Size=1520
    [tfhd] Size=16 Version=0 Flags=0x020000 TrackID=2
    [tfdt] Size=20 Version=1 Flags=0x000000 BaseMediaDecodeTimeV1=0
    [trun] Size=1476 ... (use "-full trun" to show all)
[mdat] Size=33789 Data=[...] (use "-full mdat" to show all)

stypmoof などのBoxがあり、セグメント単位のメタデータを持っている。ちなみにメタデータから実際の映像・音声のデータへの参照は trun というBoxに記述されている。

[trun] Size=1148 Version=1 Flags=0x000301 SampleCount=141 DataOffset=2744 Entries=[{SampleDuration=3118 SampleSize=85}, {SampleDuration=1024 SampleSize=85}, {SampleDuration=1024 SampleSize=86}, {SampleDuration=1024 SampleSize=125}, {SampleDuration=1024 SampleSize=135}, ...

DataOffset=2744 というのが、上のデータで言えば moof 2736 bytes + mdatのヘッダ 8 bytes で計算できるとわかる。その後はSampleSize分のデータが順番に並んでいると考えられる。

なお、この辺りのBoxは、FragmentedでないMP4には登場しない。

そしてmdatが小さいとわかる。なので、動画がめちゃ長の場合でも、初回再生や、あるいはシークした場合でも、ちょっとだけ落としてすぐに再生を再開できる仕組みになっている。


言い訳を最後に置いておくと、公開されたファイルにしかアクセスしていないが、若干お行儀の悪い印象を受けるかもしれない。あと僕の理解が間違ってるところがあればこっそり教えてください...。