第6回: zip-eduをどう読むとZIPの仕組みが分かるか
この連載で扱っている zip-edu は、ZIP の基本動作を zipfile や zlib に頼らずスクラッチで実装した学習用リポジトリです。
この回では、ここまで読んできた各部品がリポジトリ全体のどこにあるのかを整理し、どの順に読むと ZIP の仕組みが頭に入りやすいかをまとめます。
まず連載全体の地図
この連載は、ZIP を次の順で追っていきます。
- 第1回: ZIP 全体の役割と流れをつかむ
- 第2回: LZ77 で繰り返しをトークンに変える
- 第3回: ハフマン符号でトークンを短いビット列にする
- 第4回: Deflate をブロックとビット列として組み立てる
- 第5回: できたデータを ZIP コンテナに入れる
- 第6回: ここまでの仕組みがリポジトリのどこにあるか整理する(今回)
- 第7回: 基本実装の外側にある拡張仕様を見る
この第6回は、ここまで分けて見てきた部品を、コード全体の中でつなぎ直す回です。
ZIP 全体で見たときに、どのファイルがどの役割を持ち、圧縮と展開の流れがリポジトリ内でどうつながるかを整理します。
この回で答える問い
- 仕様とコードの対応をつける
- どの順にファイルを読むと理解しやすいかを示す
- pack と unpack が、どの部品をどんな順で通るのかを整理する
先に答えると
- 読み始める順番は、小さい部品から大きい部品へ進むのが分かりやすいです。
- ZIP の本質を見るなら
zip_format.pyとdeflate.pyが中心です。 explain系コマンドとテストを見ると、実装の意図がかなり早くつかめます。
リポジトリ全体の流れ
このリポジトリは、次の層に分かれています。
bitstream.py- ビットを読む・書く
lz77.py- 文字列を
literalとmatchに分ける
- 文字列を
huffman.py- シンボルへ符号を割り当てる
deflate.py- Deflate のビット列を作る・読む
crc32.py- 整合性確認の値を計算する
zip_format.py- ZIP の各レコードを組み立てる・読む
service.pyとcli.py- 外から呼び出す入口になる
要するに、下の層ほど部品に近く、上の層ほど「ZIP として使う」形に近づきます。
圧縮の流れ
圧縮パスは、だいたい次の関数列です。
cli.pypack
service.pypack_zip
zip_format.pybuild_zip
zip_format.py_compress_data
deflate.pycompress_deflate
lz77.pylz77_encode
huffman.py- 符号長と正準符号の生成
CLI は入口です。
中核になるのは zip_format.py と deflate.py です。
展開の流れ
展開パスは逆向きです。
cli.pyunpack
service.pyunpack_zip
zip_format.pyparse_central_directory
zip_format.pyextract_all
deflate.pydecompress_deflate
crc32.py- CRC 検証
この流れを見ると、ZIP の展開は
- まず箱を読む
- その後で圧縮方式ごとの展開へ降りる
という順番だということです。
どこを見ると意図が分かるか
このリポジトリで意図をつかみやすいのは、次の3点です。
- 圧縮ライブラリに頼っていない
- 仕様の概念がそのまま関数に出てくる
- 層が分かれている
- bit IO / LZ77 / Huffman / Deflate / ZIP コンテナを分けて読める
explainがある- 読むだけでなく、実行して確かめられる
この実装で単純化している部分
- LZ77 探索はナイーブ
- 高速化より理解を優先している
autoは実際に全部作って比較する- 理論値ではなく、できた結果のサイズで選ぶ
- GUI をコアから外している
- ZIP の理解に必要な部分だけを追いやすい
テストはどこを見るべきか
tests は、理解を確かめるうえでも重要です。
test_lz77.py- 距離と長さの制約
test_deflate.pystored / fixed / dynamicの往復
test_zip_format.pyzipfile互換性
test_explain.py- 学習用説明出力の確認
test_project_intent.py- コアが圧縮ライブラリに依存していないことの確認
テストは、単なる品質保証だけでなく、「この実装が何を大事にしているか」を示すものでもあります。
実装していないもの
ここは正直に把握した方が理解が深まります。
- ZIP64
- 暗号化
- 分割 ZIP
- Deflate 以外の実装
- 高速辞書探索
- 仕様の細かな拡張フィールド全部
ただ、これは弱点というより「教材としてそう切っている」ということです。
ここから実際にファイルを見る
おすすめの読み順は次です。
この順で読むと、小さい部品から大きい部品へ無理なく追えます。
最後にもう一度答えると
- このリポジトリは ZIP 学習用として読みやすい
- コアロジックは層ごとに分かれている
- explain 系コマンドで動かしながら理解できる
- 未実装範囲を知ることで、逆に実装範囲の輪郭がはっきりする
次回は、未実装部分も含めて ZIP 全体の地図を整理します。