<div dir="ltr">Dear Chris,<br><br>could you clarify or exemplify what you mean by &quot; I would suggest that we take the approach &quot;combining mark X is required in the following sequence(s) of code points only&quot;, rather than &quot;combining mark X is included with any other code point&quot;.&quot;?<br><br>Thanks,<br><br>Meikal<br></div><div class="gmail_extra"><br><div class="gmail_quote">2016-05-16 10:39 GMT+02:00 Dillon, Chris <span dir="ltr">&lt;<a href="mailto:c.dillon@ucl.ac.uk" target="_blank">c.dillon@ucl.ac.uk</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div bgcolor="white" lang="EN-GB" link="blue" vlink="purple">
<div>
<p class="MsoNormal">Dear Meikal &amp; Abdeslam,<br>
<br>
Thank you for your emails. This correspondence is a good summary of answers to difficult questions, along these lines:<u></u><u></u></p>
<ul type="disc">
<li class="MsoNormal">
Variants may consist of more than one code point.<u></u><u></u></li><li class="MsoNormal">
So far we have been able to exclude combining marks, but it is doubtful that that will continue to be possible once more work has been done on the use of the Latin Script in Africa. I would suggest that we take the approach &quot;combining mark X is required in
 the following sequence(s) of code points only&quot;, rather than &quot;combining mark X is included with any other code point&quot;.<u></u><u></u></li><li class="MsoNormal">
As regards ij and most other ligatures, they would be unallocatable variants, or possibly out-of-repertoire code points.<u></u><u></u></li><li class="MsoNormal">
I like the suggestion of waiting for the IP&#39;s informal comments before releasing our draft repertoire. The Second Level Team&#39;s work, however, could require a substantial effort to digest and so we should probably wait.<u></u><u></u></li></ul>
<p class="MsoNormal">Français: Ces emails forment une synthèse utile de réponses à quelques questions compliquées:<u></u><u></u></p>
<p><u></u><span style="font-family:Symbol"><span>·<span style="font:7.0pt &quot;Times New Roman&quot;">        
</span></span></span><u></u>Les variants peuvent consister en plus d’une lettre Unicode.<u></u><u></u></p>
<p><u></u><span style="font-family:Symbol"><span>·<span style="font:7.0pt &quot;Times New Roman&quot;">        
</span></span></span><u></u>Si on a besoin de signes pour combiner des lettres Unicode, on pourrait seulement les utiliser en des cas limités.<u></u><u></u></p>
<p><u></u><span style="font-family:Symbol"><span>·<span style="font:7.0pt &quot;Times New Roman&quot;">        
</span></span></span><u></u>Ij, etc. sont peut-être un variant de i + j qui ne pourraient jamais exister dans un TLD, ou bien peut-être tout à fait hors de notre répertoire.<u></u><u></u></p>
<p><u></u><span style="font-family:Symbol"><span>·<span style="font:7.0pt &quot;Times New Roman&quot;">        
</span></span></span><u></u>On va attendre seulement jusqu’à ce qu’on ne reçoive les comments informels du IP avant d’inviter des comments sur notre répertoire.<u></u><u></u></p>
<p class="MsoNormal"><br>
Regards,<br>
<br>
Chris.<span class=""><br>
<br>
On 14/05/2016 10:50, Meikal Mumin wrote:<u></u><u></u></span></p><span class="">
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal">Dear colleagues, <u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">so that clarifies that question - thanks Abdeslam.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Coming back to your questions Chris - I believe combining marks could be excluded, as was done in the case of Arabic LGR. Meanwhile case like ij could be declared variants with a sequence of i + j, provided we see a need for including the
 former.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">If ligatures are no part of MSR-2, then I assume the problem has solved itself.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Best,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Meikal<u></u><u></u></p>
</div>
</div>
</blockquote>
</span><p class="MsoNormal">Dear colleagues, <u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">I would suggest waiting for the feedback from IP, but not for anything regarding second levels.<u></u><u></u></p>
</div><div><div class="h5">
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Best,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Meikal<u></u><u></u></p>
</div>
<p class="MsoNormal"><br>
<br>
<u></u><u></u></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal">2016-05-11 22:27 GMT+02:00 Abdeslam Nasri &lt;<a href="mailto:abdeslam.nasri@gmail.com" target="_blank">abdeslam.nasri@gmail.com</a>&gt;:<u></u><u></u></p>
<div>
<blockquote style="border:none;border-left:solid #cccccc 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<p class="MsoNormal">Dear Chris and Colleagues, <u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Digraphs or more generally sequences of code points, can be specified as variants of a single code point.<u></u><u></u></p>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">An excerpt from the LAGER specification :<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">&quot;<span style="font-size:10.0pt"> A sequence of multiple code points can be specified as a variant of a</span><u></u><u></u></p>
</div>
<pre>   single code point.  For example, the sequence of LATIN SMALL LETTER O<u></u><u></u></pre>
<pre>   (U+006F) then LATIN SMALL LETTER E (U+0065) might hypothetically be<u></u><u></u></pre>
<pre>   specified as a variant for an LATIN SMALL LETTER O WITH DIAERESIS<u></u><u></u></pre>
<pre>   (U+00F6) as follows:<u></u><u></u></pre>
<pre><u></u> <u></u></pre>
<pre>       &lt;char cp=&quot;00F6&quot;&gt;<u></u><u></u></pre>
<pre>           &lt;var cp=&quot;006F 0065&quot;/&gt;<u></u><u></u></pre>
<pre>       &lt;/char&gt;<u></u><u></u></pre>
<div>
<p class="MsoNormal">&quot;<u></u><u></u></p>
</div>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">In the typical case of digraphs these are named precomposed versus decomposed formats of a single letter. Normalization should exist in Unicode in order to allow these variants, or otherwise block them.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal">Kind Regards,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Abdeslam NASRI<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<div>
<div>
<p class="MsoNormal">2016-05-09 15:43 GMT+02:00 Dillon, Chris &lt;<a href="mailto:c.dillon@ucl.ac.uk" target="_blank">c.dillon@ucl.ac.uk</a>&gt;:<u></u><u></u></p>
</div>
</div>
<blockquote style="border:none;border-left:solid #cccccc 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm">
<div>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Dear Meikal,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Thank you for your thoughts on digraphs.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">In that case, we would have blocked variants like i, dotless i  and iota, where application for a label containing one,
 would block applications for labels containing any of the others.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">We would also have blocked variants, digraphs like
</span>ij,<span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> which could never be allocated at all. If we need to do this, it will be necessary to describe variants for ligature code points we have not yet analysed in the Latin ranges, as they aren’t
 in MSR2.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">(This distinction is what I was finding difficult during the face-to-face meeting in Marrakech.)</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Incidentally, I’m fairly sure two code points could be a variant of one. ( I wonder what happens with the Arabic ligature
 of laam and alif that looks like Greek gamma; in Urdu the two do not combine so closely, if at all.)</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Regards,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Chris.</span><u></u><u></u></p>
<p class="MsoNormal"><span lang="EN-US" style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">--</span><u></u><u></u></p>
<p class="MsoNormal"><span lang="EN-US" style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Research Associate in Linguistic Computing, Centre for Digital Humanities, UCL, Gower St, London WC1E 6BT
 Tel <a href="tel:%2B44%2020%207679%201599" target="_blank">+44 20 7679 1599</a> (int 31599)
<a href="http://www.ucl.ac.uk/dis/people/chrisdillon" target="_blank"><span style="color:#0563c1">www.ucl.ac.uk/dis/people/chrisdillon</span></a>
</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:11.0pt;font-family:&quot;Calibri&quot;,sans-serif">From:</span></b><span lang="EN-US" style="font-size:11.0pt;font-family:&quot;Calibri&quot;,sans-serif"> Meikal
 Mumin [mailto:<a href="mailto:meikal.mumin@uni-koeln.de" target="_blank">meikal.mumin@uni-koeln.de</a>]
<br>
<b>Sent:</b> 09 May 2016 09:38<br>
<b>To:</b> Dillon, Chris &lt;<a href="mailto:c.dillon@ucl.ac.uk" target="_blank">c.dillon@ucl.ac.uk</a>&gt;<br>
<b>Cc:</b> <a href="mailto:latingp@icann.org" target="_blank">latingp@icann.org</a><br>
<b>Subject:</b> Re: [Latingp] Digraphs</span><u></u><u></u></p>
<p class="MsoNormal"> <u></u><u></u></p>
<div>
<p class="MsoNormal">Dear Chris and colleagues,<u></u><u></u></p>
<div>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">apologies for the late reply. I believe we don&#39;t need to exclude digraphs. We could simply set them up as variants, e.g.  ij as equivalent of i + j. It could be useful to verify
 with IP, if it is possible to declare a sequence of two code-points as a variant of one - we had not encountered such a case with Arabic script.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Best wishes,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"> <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">Meikal<u></u><u></u></p>
</div>
</div>
<div>
<p class="MsoNormal"> <u></u><u></u></p>
<div>
<p class="MsoNormal">2016-03-29 9:54 GMT+02:00 Dillon, Chris &lt;<a href="mailto:c.dillon@ucl.ac.uk" target="_blank">c.dillon@ucl.ac.uk</a>&gt;:<u></u><u></u></p>
<blockquote style="border:none;border-left:solid #cccccc 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-top:5.0pt;margin-right:0cm;margin-bottom:5.0pt">
<div>
<div>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Dear colleagues,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Mirjana’s recent research on Montenegrin has raised some interesting issues.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">One of them is diagraphs.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Currently we have digraphs like æ and œ in our repertoire, but Dutch ij (U+0133) as in vijf ‘five’ is white in MSR-2 (not
 compatible with IDNA 2008). Certainly many digraphs, including ij are visually similar to their component letters. We could consider adding all digraphs to the list of criteria for exclusion, or adding them with exceptions (less good from a usability point
 of view). Incidentally, ß and &amp; are probably excluded for other reasons, Longevity Principle and Punctuation, respectively.</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">What do you think?</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Français: Qu’est-ce qu’on devrait faire avec les digraphs dans notre répertoire – les permettre ou pas?</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Regards,</span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif"> </span><u></u><u></u></p>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">Chris.</span><u></u><u></u></p>
</div>
</div>
</blockquote>
</div>
<p class="MsoNormal"><span style="font-family:&quot;Century Gothic ,sans-serif&quot;,serif">…</span><u></u><u></u></p>
</div>
</div>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</div>
</blockquote>
</div>
</div>
</blockquote>
<p class="MsoNormal"><u></u> <u></u></p>
</div></div></div>
</div>

</blockquote></div><br></div>