<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style id="owaParaStyle" type="text/css">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body ocsi="0" fpstyle="1">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;">Dear all,<br>
<br>
Some attempts at &quot;underloading&quot; the word &quot;variant&quot;:<br>
<br>
I would like to give an example of Nadya's &quot;same word in two different languages&quot;:<br>
<div>.travel could be <span style="font-weight: bold;">translated</span> as .reise ('trip' in German or Norwegian, also '(to) travel' in the latter). It could also be translated as .reisen 'to travel' in German. This and similar cases are why this approach
 could never work. The same English word can be translated several ways even into one language.
<br>
<br>
I would also like to pick up Urdu diacritics. I think the situation may be similar in Arabic and Farsi. In Urdu, apart from the Qur'an and texts for foreigners, often texts are written without indicating short vowels (a, i, u). Short a looks like an acute accent.
 Short i is an acute accent but is written below the letter. Short u is another accent above the letter. For me this is actually rather like
<span style="font-weight: bold;">spelling </span>e.g. colour and color, or better cafe and café but I can see why at least one of the Arabic registries is registering the basic form and then the three forms with diacritics to avoid confusion.<br>
<br>
For me Cyrillic cases where the same word e.g. komercant may be written with (pre-Revolution spelling) and without the hard sign are also
<span style="font-weight: bold;">spelling</span>.<br>
<br>
I am now thinking I should have filed this under Andrew's rather than Nadya's e-mail, but I'm worried about losing the e-mail so I shall send it.<br>
<br>
Regards,<br>
<br>
Chris.<br>
==<br>
<div style="font-family: Tahoma; font-size: 13px;"><font size="2"><span style="font-size: 10pt;">Faculty Information Support Officer<br>
for Arts &amp; Humanities and Laws<br>
Arts &amp; Humanities Faculty Office<br>
Andrew Huxley Building<br>
UCL, Gower St, London WC1E 6BT<br>
Tel 020 7679 1599 (int. 31599)<br>
<a href="http://www.ucl.ac.uk/isd/staff/fiso/ah" target="_blank">http://www.ucl.ac.uk/isd/staff/fiso/ah</a></span></font>
<div style="font-family: Tahoma; font-size: 13px;"></div>
</div>
</div>
<div style="font-family: Times New Roman; color: rgb(0, 0, 0); font-size: 16px;">
<hr tabindex="-1">
<div style="direction: ltr;" id="divRpF429217"><font color="#000000" face="Tahoma" size="2"><b>From:</b> vip-bounces@icann.org [vip-bounces@icann.org] on behalf of Nadya Morozova [nad.morozova@gmail.com]<br>
<b>Sent:</b> 23 June 2011 11:46<br>
<b>To:</b> Patrik Fältström<br>
<b>Cc:</b> vip@icann.org<br>
<b>Subject:</b> Re: [vip] Suggested meta-questions to think about<br>
</font><br>
</div>
<div></div>
<div><font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">Hello all,</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">Please accept my apologies if I’ll be re-iterating what has been discussed, and furiously argued, over the previous sessions that I missed. Having
 read this thread starting from Patrik’s post, here are some of thoughts, I hope these can help.
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><font size="3"><span style="" lang="EN-US"><font face="Calibri">There are a number of very broad issues being discussed here, and it may make sense to try and ring-fence those that this work group can address
 within reasonable time. I agree with James Seng that A1 and A2 should be of priority</font></span><span style="font-family: &quot;Arial&quot;,&quot;sans-serif&quot;;">.
</span></font></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">I hate to come back to the definitions here, but it’s important to agree what we’re trying to regulate here. For example, Patrik’s post, mentions
 case A4, same word in two different languages. From a linguistic point of view, it is not possible as each language is a standalone system, so cross-language similarities should probably be kept out of the scope. It’d be interesting to see a rare case where
 two TLD applications claim the same string but in different languages. </font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><font face="Calibri"><font size="3"><span style="" lang="EN-US">Also, Daniel says that in Cyrillic, variants are word-based rather than character-based and gives an example of E and
</span><span style="" lang="RU">Ё</span><span style="" lang="EN-US"> in one word. I’m not sure I follow the example and logic and tend to disagree, although the exception of “</span><span style="" lang="RU">обед</span><span style="" lang="EN-US">” given later
 on makes a point. I’ll be happy to have a separate discussion with the Cyrillic group to clarify this, but as a linguist and native Russian speaker, I do not see a problem with
</span><span style="" lang="RU">Ё</span><span lang="RU"> </span>using E forming variant domain names. There is always a character layer, pure spelling with no pronunciation issues, and that’s what we need to focus on, as that’s what makes up an FQDN.
</font></font></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">So, taking on board Siavash’s advice, I’ve made up a short list of working definitions for the purpose of this discussion, just to make myself
 clear. For me, an atomic unit here is a specific character within a specific language, and the variations this character produces when forming a (domain) name. Then “variant” can be a string of characters that is similar and interchangeable with another string;
 all “variant” strings form a “bundle”, an atomic domain unit that can be treated as one – cf. the SC &amp; TC treatments in ccTLD registries. If two strings are similar but one cannot be mistaken for another, they are not variants. I don’t know what to call similar
 strings as in a language they are just “different words”, and no-one defines the degree of differentiation. I’ll use a random word like “pancakes” to mean unique strings that are similar but not interchangeable. Pancake cases may be useful where two words
 differ only in diacritics.</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">So, from my standpoint, there are several layers here:
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoListParagraphCxSpFirst" style="margin: 0cm 0cm 0pt 36pt; text-indent: -18pt;">
<span style="" lang="EN-US"><span style=""><font face="Calibri" size="3">1.</font><span style="font: 7pt &quot;Times New Roman&quot;;">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><span style="" lang="EN-US"><font size="3"><font face="Calibri">Ring-fencing character variants within different scripts, with sub-groups for specific languages where needed (for example, where the same character is used in different languages
 differently – cf., Arabic Alif and Cyrillic Yer (Hard sign); explained below). Any pancakes need to be identified and not mixed with variants.
<span style="">&nbsp;</span></font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoListParagraphCxSpMiddle" style="margin: 0cm 0cm 0pt 36pt; text-indent: -18pt;">
<span style="" lang="EN-US"><span style=""><font face="Calibri" size="3">2.</font><span style="font: 7pt &quot;Times New Roman&quot;;">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><span style="" lang="EN-US"><font size="3"><font face="Calibri">Determining policies to define all variants of a specific character forming a bundle, its Unicode representations, font implications within a language, and any cross-language
 specifics. </font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoListParagraphCxSpLast" style="margin: 0cm 0cm 10pt 36pt; text-indent: -18pt;">
<span style="" lang="EN-US"><span style=""><font face="Calibri" size="3">3.</font><span style="font: 7pt &quot;Times New Roman&quot;;">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span></span><span style="" lang="EN-US"><font size="3"><font face="Calibri">Where possible, forming recommendations on technical implementations of those policies within the DNS or at higher levels.
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">Ok, so I have my own terms and my own plan of action. Starting with point one and looking at the practical experiences presented at the Wednesday
 session, here are my initial thoughts. This is part one of a series of rants, and I plan to continue with French and more thoughts on Cyrillic in a separate email.
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">I don’t speak Arabic and mostly base my assumptions on the Internets – presentations, wiki, etc. Please accept my apologies if I’m wrong, I’ll
 gladly stand corrected.</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">From what I see, most “variants” in Arabic scripts stem from the optional tashkeel diacritics modifying consonant letters to show which vowels
 to read them with. Tashkeel are optional and vary in different scripts, thus it is impossible to distinguish between words formed written with and without diacritics. That’s why ccTLD registries in the region treat them as variants and block the possible options,
 once a variant is written. To me, this sounds reasonable although policy work could help determine how these variants are managed, and what can be done to simplify and improve management of shadow-domains.
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<p class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font size="3"><font face="Calibri">Perhaps, there’s a special case for the Arabic Hamza, a glottal stop separating two syllables, which can be represented as a diacritic or use
 a carrier. If Hamza is required and cannot be omitted, then should words without it be treated as variants of the word with Hamza?
</font></font></span></p>
<font face="Times New Roman" size="3"></font>
<div class="MsoNormal" style="margin: 0cm 0cm 10pt;"><font size="3"><font face="Calibri"><span style="" lang="EN-US">By the way, in Russian, there’s a similar glottal stop situation with the old character Yer or Hard Sign,
</span><span style="" lang="RU">ъ</span><span style="" lang="EN-US">, often replaced by an apostrophe in modern Russian. No other language using Cyrillic alphabet has this character except Bulgarian, where it denotes a specific sound. For Russian IDNs, should
 the spelling with no Yer be a variant of the spelling with it, and vice versa? There are a number of other characters in Russian that are somehow “special”, including the mentioned
</span><span style="" lang="RU">Ё</span><span style="" lang="EN-US"> or characters that in some fonts may be confusingly similar to other letters. In some cases, it is not reasonable to treat these similarities as variants; instead, the confusion can be avoided
 prohibiting registration of names that can be confusingly similar to a canonical string that has already been registered.
</span></font></font></div>
<div class="MsoNormal" style="margin: 0cm 0cm 10pt;"><font size="3"><font face="Calibri"><span style="" lang="EN-US">Perhaps, Vladimir Shadrunov from the .tel Registry could share Telnic’s experiences in defining language policies for Russian and other supported
 IDN languages in .tel. </span></font></font></div>
<font face="Times New Roman" size="3"></font>
<div class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font face="Calibri" size="3">Kind regards,</font></span></div>
<div class="MsoNormal" style="margin: 0cm 0cm 10pt;"><span style="" lang="EN-US"><font face="Calibri" size="3">Nadya Morozova</font>&nbsp;</span></div>
<font face="Times New Roman" size="3"></font><br>
<br>
<div class="gmail_quote">2011/6/20 Patrik Fältström <span dir="ltr">&lt;<a href="mailto:patrik@frobbit.se" target="_blank">patrik@frobbit.se</a>&gt;</span><br>
<blockquote class="gmail_quote" style="margin: 0px 0px 0px 0.8ex; padding-left: 1ex; border-left: 1px solid rgb(204, 204, 204);">
Hi, I am sending this as an interested individual, and not as SSAC Chair...<br>
<br>
I have a few times this weekend already tried to explain my view on &quot;variants&quot;, and after doing that in a chat, I felt it start to (for me) make sense, so I wanted to share with you.<br>
<br>
We have, I think, a problem divided in two different questions. And unfortunately many people think of the solution only the form of &quot;answers to the second question&quot;. Let me try to explain.<br>
<br>
First, whether something is a variant or not (note: word is undefined), is actually a grayscale from &quot;yes&quot; to &quot;no&quot;. There are various shades of gray there. For example:<br>
<br>
A.1. Two characters in Unicode really are to be treated as being equivalent. I presume one could say that the Hangul SC/TC issues fall in that category.<br>
A.2. Two different spellings of the same word in the same script and same language, like color/colour.<br>
A.3. Same word in the same language in two different scripts (bulgarian)<br>
A.4. Same word in two different languages<br>
<br>
And then there are many A.1.1, A.1.2, A.2.1 etc, and I did even hear today people say &quot;two variants are two different accepted spellings of the same word that _sound_ the same&quot;. I do not even know where to put that.<br>
<br>
But one thing I because of that think should be done, and could be done, by people is to list all different &quot;variants&quot; they can come up with...<br>
<br>
The one draw the line, what is and what is not? Is the line drawn at A.1.1232 or A.2.56?<br>
<br>
Ok, given we have some agreement on what is a variant and not, we have to discuss what implications it has. I here also see a number of different questions to be answered. For example:<br>
<br>
B.1. Should an application with more TLDs than one be counted as one application if the TLDs in the application are variants of each other? And if so, should there be only one fee per application?<br>
B.2. Should two different variants be able to be managed by two different registries or not, and if not, what should happen with the variants? One primary and others like the bundling tactics in some TLDs (i.e. choice between &quot;yes delegation&quot; or &quot;just block
 for other to register&quot;)?<br>
<br>
And then there might be a technical question in there...<br>
C.1. Given two domain names are variants of each other, is there something that can be done in the DNS from a technical point of view to express that, or can we only do delegations?<br>
<br>
The really tricky question is of course to really draw the line between variants and not variants. I think the line from a technical point of view, AND the implications on the second questions, should be for the new TLD approval process be as conservative as
 possible.<br>
<br>
Default answer: If someone want two domain names, just send in two applications.<br>
<br>
Exception: As you desperately need both and not only one of the domain names, you will get both treated as one application.<br>
<br>
Then ICANN ask IETF formally &quot;can you please let us know if it is possible to have some kind of solution for _technically_ link two TLDs with each other, in a safe and stable way&quot;. Via a letter to IAB.<br>
<br>
Until and if IETF give such a solution, ICANN only have the following two alternatives for the ones that do get two variants approved:<br>
<br>
1. Get both delegated<br>
<br>
2. Get one delegated and the other blocked<br>
<br>
Then MAYBE there will be a third option:<br>
<br>
3. Get both with some alias solution<br>
<br>
But these are things which are implications given a definition on what &quot;variants&quot; are, and that discussion is in the future -- although I am pretty sure some parties really would like to have certain solutions to the problem...<br>
<font color="#888888"><br>
&nbsp; Patrik<br>
<br>
<br>
</font></blockquote>
</div>
<br>
</div>
</div>
</div>
</body>
</html>