<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Aug 30, 2016 at 5:18 PM, Paul Eggert <span dir="ltr"><<a href="mailto:eggert@cs.ucla.edu" target="_blank">eggert@cs.ucla.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div id="gmail-:18j" class="gmail-a3s gmail-aXjCH gmail-m156dd51cf4d7f6c6">  $ ls -l tz*.tar.*z*<br>
  -rw-r--r-- 1 eggert eggert 202609 Aug 30 14:00 tzcode2016X.tar.gz<br>
  -rw-r--r-- 1 eggert eggert 394169 Aug 30 14:00 tzdata2016X.tar.gz<br>
  -rw-r--r-- 1 eggert eggert 426667 Aug 30 14:10 tzdb-2016X.tar.bz2<br>
  -rw-r--r-- 1 eggert eggert 382991 Aug 30 14:00 tzdb-2016X.tar.lz</div></blockquote></div><div class="gmail_extra"><br></div><div class="gmail_extra">If the size of data distribution is a concern, it looks like one can achieve a much better compression by simply discarding comments in the data files:  </div><div class="gmail_extra"><br></div><div class="gmail_extra">$ cat africa antarctica asia australasia \</div><div class="gmail_extra">    europe northamerica southamerica | wc -c</div><div class="gmail_extra">  647830</div><div class="gmail_extra">$ cat africa antarctica asia australasia \</div><div class="gmail_extra">     europe northamerica southamerica | egrep -v '^\w*(#.*|$)' | wc -c</div><div class="gmail_extra">  151231</div><div class="gmail_extra"><br></div><div class="gmail_extra">Given the structured (low entropy) nature of the resulting stream, it compresses very well:</div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_extra">$ cat africa antarctica asia australasia \</div><div class="gmail_extra">     europe northamerica southamerica | egrep -v '^\w*(#.*|$)'| xz -c | wc -c</div><div class="gmail_extra">   24600</div></div></div></div>