<html>
  <head>
    <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <div class="moz-cite-prefix">On 4/22/2017 9:16 AM, Andrew Sullivan
      wrote:<br>
    </div>
    <blockquote cite="mid:20170422161627.GA6736@mx4.yitter.info"
      type="cite">
      <pre wrap="">On Sat, Apr 22, 2017 at 01:32:08PM +0000, <a class="moz-txt-link-abbreviated" href="mailto:nalini.elkins@insidethestack.com">nalini.elkins@insidethestack.com</a> wrote&gt; 
</pre>
      <blockquote type="cite">
        <pre wrap="">For example, you may wish to see the following permutations which have already been obtained.  (And, it appears not by Apple)

<a class="moz-txt-link-abbreviated" href="http://www.applé.com">www.applé.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-epa.com">www.xn--appl-epa.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-epa.com">www.xn--appl-epa.com</a>         
<a class="moz-txt-link-abbreviated" href="http://www.applê.com">www.applê.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-jpa.com">www.xn--appl-jpa.com</a>    <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-jpa.com">www.xn--appl-jpa.com</a>         
<a class="moz-txt-link-abbreviated" href="http://www.applė.com">www.applė.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-yva.com">www.xn--appl-yva.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-yva.com">www.xn--appl-yva.com</a>         
<a class="moz-txt-link-abbreviated" href="http://www.applę.com">www.applę.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-8va.com">www.xn--appl-8va.com</a>   <a class="moz-txt-link-abbreviated" href="http://www.xn--appl-8va.com">www.xn--appl-8va.com</a>
</pre>
      </blockquote>
      <pre wrap="">
Do you think that those qualify as "homographs"?  I suppose they
might, as might àpple.com and so on, but these at least don't seem to
me to be any different than app1e.com, which we decided long ago was
Apple's problem and nobody else's. </pre>
    </blockquote>
    <br>
    The claim that letters with diacritics are homoglyphs of the
    undecorated letters is<br>
    rather tenuous. There are some words where diacritics are optional
    in some languages,<br>
    and for those words, even a native reader may not notice the
    difference in spelling,<br>
    but that is not all that different from "color" vs. "colour".<br>
    <br>
    A slightly stronger case might be made that some diacritics are not
    reliably<br>
    distinguished from each other. Cedilla and comma below come to mind.
    There are<br>
    plenty of examples, mostly in print, that show the use of one in
    place of the other,<br>
    even if the language ostensibly calls for a specific one and not the
    other. Their shapes<br>
    are not so different that the substitution would always be jarring.<br>
    <br>
    Extending that, it's generally the diacritics below that are less
    readily distinguished<br>
    from each other; partially that's because there's less real estate
    in the glyph (and the <br>
    bottom of the line may be clipped by the following line of text if
    the spacing is too<br>
    tight).<br>
    <br>
    The real issue with diacritics is when multiple ones are applied to
    a base letter. <br>
    While they are supposed to stack neatly outward in the order that
    they are entered,<br>
    there isn't room enough at the bottom of the glyph to show that
    reliably. Also,<br>
    sometimes diacritics "overprint" instead of stacking.<br>
    <br>
    From a perspective of making IDNs universally acceptable, registries
    should be<br>
    encouraged to restrict the use of dual diacritics unless central to
    the writing system,<br>
    as it is for Vietnamese. The Unicode principle of allowing all
    combinations is fine<br>
    for general texts (or more likely, academic texts), but misplaced
    for identifiers.<br>
    <br>
    <br>
    <blockquote cite="mid:20170422161627.GA6736@mx4.yitter.info"
      type="cite">
      <pre wrap=""> 

This is quite different to the case of true homoglyphs of the sort
that Asmus is talking about, where the very same glyph is normally
used in two different scripts such that nobody would be able to tell
the difference.  One maybe could argue that "аррӏе" is pure homoglyphs
(0430,0440,0440,04CF, 0435), but I think it's tough to argue for it.</pre>
    </blockquote>
    <br>
    "арр" / "app" or "аре" / "ape" would be true homographs (always
    identical), <br>
    but the palochka (04CF - "ӏ") is at best a near homoglyph. It
    renders<br>
    identical in many fonts, even though it can be rather distinct in <br>
    others (especially certain console fonts).<br>
    <br>
    <img src="cid:part1.EFAA123F.AF4435C6@ix.netcom.com" alt=""><br>
    <br>
    Since those console fonts are a minority, the Palochka should
    probably be treated<br>
    conservatively as a homoglyph.<br>
     <br>
    <br>
    <blockquote cite="mid:20170422161627.GA6736@mx4.yitter.info"
      type="cite">
      <pre wrap="">

Remember, the IDNA rules are really _quite_ restrictive, and if
registries also require "same script per label" those restrictions
catch an _awful_ lot of corner cases (that was the outcome of the
"paypal" controversy some time ago).

If you want to argue that policy should be different, that's fine, but
it seems to me to require some PDP within ICANN.  Note that ICANN is
probably going to propose some rules for variant handling, and
combined with the LGR stuff that is working its way through the system
we may find an awful lot of stuff is blocked.</pre>
    </blockquote>
    <br>
    Actually, you can block "an awful lot" and yet not affect the
    universe of valid <br>
    labels very much. <br>
    <br>
    A case in point is Ethiopic, which for linguistic reasons I won't go
    into, is best <br>
    handled by treating a number of code points internal to the script
    as variants of<br>
    each other (making them mutually exclusive if they occur as
    alternates in otherwise<br>
    identical labels). <br>
    <br>
    The linguistic reasons apply, strictly speaking, only to one of the
    languages (albeit<br>
    the most prominent one). The concern was raised how that would
    interfere with<br>
    the ability to register labels in other languages.<br>
    <br>
    For the TLD IDN project we ran an analysis over a corpus of unique
    words, separated<br>
    by language. We found that the reduction in available labels was
    much less than<br>
    one might have guessed from the considerable number of variants. The
    reductions<br>
    came to a few percent, much less than the effect of the languages
    sharing words<br>
    that happened to be spelled the same (e.g. like English/French "but"
    or Englis/German<br>
    "also").<br>
    <br>
    The main reason for this is that legitimate labels would tend to
    contain at least one <br>
    distinct code point, enough to prevent the label from being blocked.
    (Just as<br>
    "dapple" is no longer a homograph of any Cyrillic string even if
    "apple" is.)<br>
    <br>
    The other reason is many strings that would otherwise be homographs
    do not <br>
    make sense in the other context, and therefore are much less likely
    to be used for<br>
    legitimate labels (and only used for phishing).<br>
    <br>
    Just like the string "аррӏе" (using Cyrillic code points) makes no
    sense to anyone<br>
    using a language written in Cyrillic.<br>
    <br>
    For short labels, acronyms etc. might increase the set of legitimate
    labels beyond<br>
    the word analysis we were doing, but it would be instructive to run
    such experiments<br>
    on Latin/Cyrillic corpora assuming the widest definition of
    homoglyph variants;<br>
    if those corpora are not limited to dictionary words, but include
    names, brands<br>
    and acronyms, that would yield a pretty reliable estimate. <br>
    <br>
    I predict that the overlap will prove smaller than feared, for the
    same reasons<br>
    that we found for Ethiopic, some high visibility exceptions
    notwithstanding.<br>
    <br>
    <blockquote cite="mid:20170422161627.GA6736@mx4.yitter.info"
      type="cite">
      <pre wrap="">

In any case, I think our purpose is very badly served by conflating
these two different kinds of issues.</pre>
    </blockquote>
    <br>
    Agreed. Our purpose is best served by making careful distinctions
    among these:<br>
    <br>
    <pre>- identical              renders same in all fonts and sizes</pre>
    <pre>- near identical         may not be perfectly identical but almost</pre>
    <pre>- not reliably distinct  may be distinct if shown side by side or in some contexts</pre>
    <pre>- confusingly similar    close enough that it can get misidentified

- similar                 everything else that is not clearly distinct

</pre>
    My take is that there is a call for addressing the first two at the
    level of an LGR <br>
    (registry policy) and that the third requires some judgement call on
    whether it's <br>
    more like the first two, or more like the latter two. <br>
    <br>
    A./<br>
    <br>
    <br>
    <blockquote cite="mid:20170422161627.GA6736@mx4.yitter.info"
      type="cite">
      <pre wrap="">

Best regards,

A

</pre>
    </blockquote>
    <p><br>
    </p>
  </body>
</html>