Punycode — Википедия
Материал из Википедии — свободной энциклопедии
Punycode (произносится как «паникод», «пьюникод», «пуникод») — стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности (англ. ASCII Compatible Encoding — кодировка, совместимая с ASCII[1]), которые состоят только из алфавитно-цифровых символов, как это разрешено в доменных именах. Punycode был разработан для однозначного преобразования доменных имен в последовательность ASCII-символов.
Важнейшей причиной введения Punycode был тот факт, что в утверждённой стандартом системе доменных имен разрешены только 26 символов латинского алфавита, цифры от 0 до 9 и дефис. Для английского и некоторых других языков на основе латинского алфавита этого достаточно, однако другие языки могут содержать дополнительные символы, например, ä
, ö
или ü
.
В качестве базисных символов выступают символы латинского алфавита a — z (без различия между прописными и строчными буквами), цифры от 0 до 9 и дефис «-»; всего 37 символов. Алгоритм преобразования состоит из двух этапов. На первом этапе из исходного текста выбираются все символы, входящие в основную кодировку ASCII (коды 0—127), и переносятся подряд в закодированное слово. После этого, если в тексте встретились не ASCII-символы, к закодированному слову добавляется дефис, и далее преобразование идёт по процедуре, описанной в RFC3492.
Последовательность символов | Кодировка |
---|---|
abcdef | abcdef |
abæcdöef | abcdef-qua4k |
schön | schn-7qa |
ยจฆฟคฏข | 22cdfh2b8fsa |
☺ | 74h |
правда | 80aafi6cg |
Список примеров в этом разделе не основывается на авторитетных источниках, посвящённых непосредственно предмету статьи или её раздела.Добавьте ссылки на источники, предметом рассмотрения которых является тема настоящей статьи (или раздела) в целом, а не отдельные элементы списка. В противном случае раздел может быть удалён. |
Поддержка интернационализованных доменных имён[править | править код]
Существуют также специальные программы или сервисы, называемые Punycode-конвертерами, позволяющие осуществлять кодирование/декодирование последовательности Unicode-символов в ACE и наоборот. Примеры см. в разделе «Ссылки».
Транслитерация для поисковиков Яндекс и Google
Транслитерация для поисковиков Яндекс и GoogleОнлайн сервис для перевода русских букв в латинские по правилам, которые правильно воспринимают поисковые системы Яндекс и Google.
Сервис транслитерация для поисковиков используется для подбора доменных имён и информативных адресов страниц сайтов (ЧПУ). Правильная транслитерация в именах доменов и названиях страниц положительно влияет на место сайта в выдаче поисковиков Яндекс и Google.
Если текст, полученный в результате транслитерации, предназначен для чтения людьми, лучше воспользоваться транслитерацией текста для чтения.
Настройка перевода
Регистр букв | нижний первоначальный |
Разделение слов | дефис подчёркивание пробел точка |
ё | yo e |
й | j y |
х | kh после букв k,z,c,s,e,h ; в остальных случаях — h kh после букв k,z,c,s,e ; в остальных случаях — h kh после букв k,z,c,s,h ; в остальных случаях — h kh после букв k,z,c,s ; в остальных случаях — h всегда kh |
ц | c ts |
щ | shch sch shh |
э | eh e |
Полное соответствие транслитерации правилам поисковиков Яндекс и Google гарантируется только при выборе первых опций в каждом пункте настройки (как выбрано по умолчанию при первой загрузке страницы).
2014
Транслит, перевод или кириллица в доменных именах и в URL адресах — что использовать
Создано: 16.11.18 Обновлено: 16.11.18 Категория: ДоменыАдреса в сети Интернет играют одну из важных ролей, поэтому они должны выглядеть максимально привлекательно и быть удобными в использовании. Особенно важно правильно придумать доменное имя, так как если адреса еще можно сменить в любое время без особых потерь, то смена домена – нежелательная операция, которая неизбежно отразится на посещаемости сайта и его конверсии.
Существует несколько вариантов того, что использовать в названии домена и в остальных адресах – транслит, перевод или кириллица в URL. К сожалению не все пользователи сразу выбирают верный вариант, в результате чего им приходится переделывать значительную часть адресов или что хуже – прекратить заниматься своим проектом или начинать его с нуля. Особо важный вопрос, на который стоит ответить — стоит ли использовать кириллицу в доменных именах и в остальных URL?
Для того, чтобы понять, что использовать в URL, необходимо прежде всего определиться — как должны выглядеть и где будут использоваться составленные адреса, а дальше выбрать наиболее подходящий вариант. Коротко рассмотрим основные преимущества и недостатки транслита, перевода и кириллицы
:- транслит URL – наиболее выгодный вариант, отлично воспринимается поисковыми системами, людьми и остальными сервисами. Легко читается и неплохо выглядит;
- перевод URL на английский – также хороший вариант, особенно полезен при реализации международных ресурсов и сервисов. Важен для разработки серьезных проектов, а также там, где транслит будет выглядеть неуместно;
- кириллица в URL – худший вариант, как бы не пытались оправдывать ее использование. Проектов с кириллицей в адресах не так много и этому есть причины. С одной стороны, кириллица в URL может быть полезна для русскоговорящих пользователей, для продвижения и использования в рекламе. Однако с другой, технической стороны — возникают проблемы – она не всегда отображается в понятном виде, внутри программного кода и в различных сервисах кириллица попросту кодируется в непонятные символы (Punycode), что доставляет массу неприятностей. В последствии также могут возникнуть проблемы с размещением ссылок на сторонних ресурсах, адресацией внутри программ и т.д.
Таким образом, лучше всего использовать в URL транслит или перевод – это избавит от множества неудобств и возможных проблем. Кириллицу в URL использовать не рекомендуется из-за частой необходимости кодирования ее в Punycode.
е | e | Есенин — Esenin Сергеевич — Sergeevich | ГОСТ 7.79-2000 загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Народная Карта Яндекса международные телеграммы |
ye в начале слова, после гласных и знаков ъ и ь; в остальных случаях — e | Есенин — Yesenin Сергеевич — Sergeyevich | Госдепартамент США | |
ё | yo | ёлка — yolka проём — proyom | ГОСТ 7.79-2000 Народная Карта Яндекса |
e | ёлка — elka проём — proem | загранпаспорт водительское удостоверение банковская карта Яндекс.Денег международные телеграммы | |
ye в начале слова, после гласных и знаков ъ и ь; в остальных случаях — e | ёлка — yelka проём — proyem | Госдепартамент США | |
jo | ёлка — jolka проём — projom | ||
ж | zh | жало — zhalo | ГОСТ 7.79-2000 загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США |
j | жало — jalo пожар — pojar | международные телеграммы | |
й | j | рой — roj сойка — sojka | ГОСТ 7.79-2000 |
i | рой — roi сойка — soika | загранпаспорт водительское удостоверение банковская карта Яндекс.Денег международные телеграммы | |
y | рой — roy сойка — soyka | Народная Карта Яндекса Госдепартамент США | |
х | kh после букв c, e, h, k, s, z; в остальных случаях — h | хлеб — hleb кхмеры — kkhmery шхуна — shkhuna пароход — parohod | |
kh | хлеб — khleb кхмеры — kkhmery шхуна — shkhuna пароход — parokhod | загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США | |
x | хлеб — xleb кхмеры — kxmery шхуна — shxuna пароход — paroxod | ГОСТ 7.79-2000 | |
h | хлеб — hleb кхмеры — khmery шхуна — shhuna пароход — parohod | международные телеграммы | |
ц | c | цунами — cunami перец — perec | ГОСТ 7.79-2000 международные телеграммы |
ts | цунами — tsunami перец — perets | загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США | |
щ | shch | щука — shchuka Рощин — Roshchin | загранпаспорт водительское удостоверение Госдепартамент США |
sch | щука — schuka Рощин — Roschin | банковская карта Яндекс.Денег Народная Карта Яндекса | |
shh | щука — shhuka Рощин — Roshhin | ГОСТ 7.79-2000 | |
sc | щука — scuka Рощин — Roscin | международные телеграммы | |
ъ | » (кавычка) | подъезд — pod»ezd |
|
» (два апострофа) | подъезд — pod»ezd | ГОСТ 7.79-2000 (упрощ.) | |
« (два грависа) | подъезд — pod«ezd | ГОСТ 7.79-2000 | |
ie | подъезд — podieezd | загранпаспорт водительское удостоверение | |
не пишется | подъезд — podezd | банковская карта Яндекс.Денег Госдепартамент США международные телеграммы | |
y перед буквой е; в остальных случаях не пишется | подъезд — podyezd | Народная Карта Яндекса | |
ы | y | первый — pervyj Давыдов — Davydov | ГОСТ 7.79-2000 (упрощ.) загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Госдепартамент США международные телеграммы |
y` (y с грависом) | первый — pervy`j Давыдов — Davy`dov | ГОСТ 7.79-2000 | |
i в окончаниях перед буквой й; в остальных случаях — y | первый — perviy Давыдов — Davydov | Народная Карта Яндекса | |
ь | ‘ (апостроф) | конь — kon’ пьеса — p’esa | ГОСТ 7.79-2000 (упрощ.) |
` (гравис) | конь — kon` пьеса — p`esa | ГОСТ 7.79-2000 | |
не пишется | конь — kon пьеса — pesa | загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Госдепартамент США международные телеграммы Народная Карта Яндекса | |
э | e | эхо — ekho поэт — poet | ГОСТ 7.79-2000 (упрощ.) загранпаспорт водительское удостоверение банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США международные телеграммы |
eh | эхо — ehkho поэт — poeht |
| |
e` (e с грависом) | эхо — e`ho поэт — poe`t | ГОСТ 7.79-2000 | |
ю | yu | юг — yug каюта — kayuta | ГОСТ 7.79-2000 банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США |
iu | юг — iug каюта — kaiuta | загранпаспорт водительское удостоверение международные телеграммы | |
ju | юг — jug каюта — kajuta | ||
я | ya | як — yak поляна — polyana | ГОСТ 7.79-2000 банковская карта Яндекс.Денег Народная Карта Яндекса Госдепартамент США |
ia | як — iak поляна — poliana | загранпаспорт водительское удостоверение международные телеграммы | |
ja | як — jak поляна — poljana |
Как вы относитесь к использованию кириллицы в доменном имени? / Habr
Предлагаю обсудить использование кириллицы в доменном имени. Как вы к этому относитесь?До сих пор существует некоторые проблемы с использование кириллицы. Известно, что даже русифицированный Firefox очень не любит использование кириллицы в строке браузера и всегда пытается перевести кириллические символы либо в латиницу, либо в какие то не меренного размера коды.
Например, такие.
Две свежие новости на тему кириллицы в доменном имени:
1. Евросоюз разрешил регистрировать сайты с русскими адресами на европейском домене .eu (26.06.2009):
Евросоюз разрешил регистрировать интернет-сайты с русскими адресами на общеевропейском домене .eu
В сообщении официального представителя Еврокомиссии Мартина Зелмайера отмечается, что со следующей недели для регистрации сайтов на домене .eu можно будет использовать кириллицу и греческий алфавит. Также на европейском домене создана техническая поддержка для использования в названиях сайтов не входящих в базовый латинский алфавит букв европейских языков. Раньше для регистрации сайтов на домене .eu можно было использовать только буквы латинского алфавита и цифры от 0 до 9.
На европейском домене зарегистрировано уже более 3 миллионов сайтов, что является одним из самых высоких показателей в мире. Домен .eu был создан в 2006 году как дополнительный к национальным доменам входящих в ЕС государств.
2. Россия предпринимает практические шаги по внедрению кириллического домена первого уровня «РФ» (26.06.2009):
План по внедрению кириллического домена верхнего уровня «РФ» представила Россия Интернет-корпорации по управлению доменными именами и числовыми адресами (ICANN).
Презентация состоялась на проходившей в Сиднее 35-й Международной конференции ICANN.
По словам заместителя министра связи и массовых коммуникаций РФ Алексея Солдатова, домен «РФ» будет являться национальным доменом Российской Федерации и позволит обеспечить адресацию в сети Интернет на русском языке. Он подчеркнул: «Россия организационно и технически готова к приёму кириллического корневого домена».
Презентацией своего плана Россия сделала первый конкретный шаг по внедрению корневых доменов с использованием символов национальных алфавитов среди стран – участников проекта Fast Track.
Руководство ICANN в апреле 2009 года предложило российской стороне предварительный план по реализации проекта Fast Track, который позволит России сэкономить время на внедрение русскоязычного домена, после его утверждения правлением ICANN.
В качестве официального обозначения российского кириллического домена верхнего уровня сочетание символов «РФ» было предложено в ноябре 2008 года. Оно прямо указывает на принадлежность домена Российской Федерации и к тому же содержит букву «Ф», которую нельзя перепутать ни с одной латинской буквой.
P.S.: Зона «ру» уже существует: на www.webnames.ru продают её домены — 280 рублёв за штуку. Однако официальными корневыми DNS она не поддерживается, а только альтернативными.
Подробнее читайте: «Многоязычные доменные имена Интернет»:
«Отныне, название вашей компании необязательно переводить на английский язык для представления в Сети. С появлением русских доменов интернет стал более приспособлен к Вашим потребностям. Имена вебсайтов на русском языке легко запоминать и рекламировать…»
Перекодировщик кириллических доменов в xn-- (Punycode)
Сразу скажу, что кодировка в Punycode идет по принципу генерации хешей. Это значит, что тебе не удаться просто взять кириллические (русские) буквы и заменить каждую на некую комбинацию латинских символов.
Вот сам передкодировщик. Вставляете в поле кириллический домен, нажимаете кнопку Punycode и готово.
Немного информации из 2010, если никуда не спешите
Задумался сегодня над кириллическими доменами. Для тех, кто не знает, кириллические домены набираются в адресной строке браузера русскими буквами.
Ну например домен лексиум.ру
Спрашивается, для чего такие домены нужны?
Мое мнение — не нужны совсем!
НО! Они есть. Они доступны для регистрации. С вводом кирилических доменов .РФ люди все чаще будут задаваться вопросом, как писать ваш сайт? Русскими или латинскими (английскими) буквами?
А это значит, что кирилические домены в зонах .РУ, .КОМ, .НЕТ и пр., которые сейчас пустуют, все-таки начнут скупать.
Ну и скупай, — скажете вы. В чем проблема зайти и купить? При чем тут перекодирование?
А вот при чем… На самом деле, когда вы вводите кириллическое доменное имя в адресную строку браузера, происходит его незаметная перекодировка (не смейтесь) в последовательность латинских символов.
Так домен лексиум.ру превращается в xn--80adjurfhd.xn--j1aef
Совершенно не информативная и нечитаемая белеберда…
А как быть, если вы купили кириллический домен у регистратора и хотите подключить его на хостинг?
Простые способы перекодировки в xn-- (Punycode)
Заходите в админку хостинг-провайдера, вписываете поддержку домена, например лексиум.ру, а поддержка и не включается. Ошибку выдает! Не понимает хостинг кириллические домены…
Значит нужно вводить латинскими, как уже показывал xn--80adjurfhd.xn--j1aef
А как перевести понятный и читаемый кириллический домен в эту Puncode-белеберду?
А сделать это можно на сайте регистратора webnames.ru
Там же, кстати, можно и купить кирилические домены.
Кстати, если ваш браузер (IE или FF) не поддерживает кириллические домены, это можно исправить установкой программы программу iClient™.
Вот ссылка:
Update 07.10.2017: Сейчас Punycode для кириллических доменов поддерживается даже мобильными браузерами, так что проблем возникать не должно.
Если требуется подключить кодировку-раскодировку (Punycode) к своему сайту. Ну мало-ли. Есть такие веб-мастера, которые хотят сваять свой собственный Punycode-кодировщик и поставить его на сайт в надежде на на резкий наплыв страждущих. Им придется поискать готовый класс и подключить его к соответствующей форме.
Помогло? Зашли Админу на чай.
А с вами был Лексиум.
До встречи в эфире))
е | e | енот — enot веер — veer | ГОСТ 7.79-2000 загранпаспорт водительское удостоверение международные телеграммы ИКАО |
ye в начале слова, после гласных и знаков ъ и ь; в остальных случаях — e | енот — yenot веер — veyer | BGN/PCGN госдеп США | |
ё | yo | ёлка — yolka бурёнка — buryonka | ГОСТ 7.79-2000 |
e | ёлка — elka бурёнка — burenka | загранпаспорт водительское удостоверение международные телеграммы ИКАО | |
ye в начале слова, после гласных и знаков ъ и ь; в остальных случаях — e | ёлка — yelka бурёнка — burenka | BGN/PCGN госдеп США | |
jo | ёлка — jolka бурёнка — burjonka | ||
ж | zh | жаба — zhaba абажур — abazhur | ГОСТ 7.79-2000 загранпаспорт водительское удостоверение BGN/PCGN госдеп США ИКАО |
j | жаба — jaba абажур — abajur | международные телеграммы | |
й | j | зной — znoj тройка — trojka | ГОСТ 7.79-2000 |
i | зной — znoi тройка — troika | загранпаспорт водительское удостоверение международные телеграммы ИКАО | |
y | зной — znoy тройка — troyka | BGN/PCGN госдеп США | |
х | kh после букв c, e, h, k, s, z; в остальных случаях — h | халва — halva кхмеры — kkhmery шхуна — shkhuna блоха — bloha | |
kh после букв c, s, e, h; в остальных случаях — h | халва — halva кхмеры — khmery шхуна — shkhuna блоха — bloha | ||
kh | халва — khalva кхмеры — kkhmery шхуна — shkhuna блоха — blokha | загранпаспорт водительское удостоверение BGN/PCGN госдеп США ИКАО | |
x | халва — xalva кхмеры — kxmery шхуна — shxuna блоха — bloxa | ГОСТ 7.79-2000 | |
h | халва — halva кхмеры — khmery шхуна — shhuna блоха — bloha | международные телеграммы | |
ц | c | цунами — cunami перец — perec | международные телеграммы |
ts | цунами — tsunami перец — perets | загранпаспорт водительское удостоверение BGN/PCGN госдеп США ИКАО | |
c перед буквами e, i, y, j; в остальных случаях — cz | цунами — czunami перец — perecz | ГОСТ 7.79-2000 | |
щ | shch | щука — shchuka банщик — banshchik | загранпаспорт водительское удостоверение BGN/PCGN госдеп США |
sch | щука — schuka банщик — banschik | ||
shh | щука — shhuka банщик — banshhik | ГОСТ 7.79-2000 | |
sc | щука — scuka банщик — banscik | международные телеграммы | |
ъ | » (кавычка) | подъезд — pod»ezd |
|
» (два апострофа) | подъезд — pod»ezd | ГОСТ 7.79-2000 (упрощ.) | |
« (два грависа) | подъезд — pod«ezd | ГОСТ 7.79-2000 | |
ie | подъезд — podieezd | загранпаспорт водительское удостоверение ИКАО | |
не пишется | подъезд — podezd | BGN/PCGN госдеп США международные телеграммы | |
y перед буквой е; в остальных случаях не пишется | подъезд — podyezd | ||
ы | y | первый — pervyj кувырок — kuvyrok | ГОСТ 7.79-2000 (упрощ.) загранпаспорт водительское удостоверение BGN/PCGN госдеп США международные телеграммы ИКАО |
y` (y с грависом) | первый — pervy`j кувырок — kuvy`rok | ГОСТ 7.79-2000 | |
i в окончаниях перед буквой й; в остальных случаях — y | первый — perviy кувырок — kuvyrok | ||
в окончаниях перед буквой й не пишется; в остальных случаях — y | первый — pervy кувырок — kuvyrok | по правилам Wikipedia | |
ь | ‘ (апостроф) | конь — kon’ пьеса — p’esa | ГОСТ 7.79-2000 (упрощ.) |
` (гравис) | конь — kon` пьеса — p`esa | ГОСТ 7.79-2000 | |
′ (штрих) | конь — kon′ пьеса — p′esa | BGN/PCGN госдеп США BGN | |
не пишется | конь — kon пьеса — pesa | загранпаспорт водительское удостоверение BGN/PCGN госдеп США международные телеграммы ИКАО | |
э | e | эхо — ekho поэт — poet | ГОСТ 7.79-2000 (упрощ.) загранпаспорт водительское удостоверение BGN/PCGN госдеп США международные телеграммы ИКАО |
eh | эхо — ehkho поэт — poeht |
| |
e` (e с грависом) | эхо — e`ho поэт — poe`t | ГОСТ 7.79-2000 | |
ю | yu | юг — yug каюта — kayuta | ГОСТ 7.79-2000 BGN/PCGN госдеп США |
iu | юг — iug каюта — kaiuta | загранпаспорт водительское удостоверение международные телеграммы ИКАО | |
ju | юг — jug каюта — kajuta | ||
я | ya | як — yak поляна — polyana | ГОСТ 7.79-2000 BGN/PCGN госдеп США |
ia | як — iak поляна — poliana | загранпаспорт водительское удостоверение международные телеграммы ИКАО | |
ja | як — jak поляна — poljana | ||
разделение слов | пробел | russkie i angliyskie | для всех |
— (дефис) | russkie-i-angliyskie | URL, SEO | |
_ (подчёркивание) | russkie_i_angliyskie | URL, SEO | |
регистр букв | исходный | Tаблица — Tablica Словарь — Slovar | для всех |
нижний | Tаблица — tablica Словарь — slovar | URL, SEO | |
верхний | Tаблица — TABLICA Словарь — SLOVAR | URL, SEO | |
знаки и спецсимволы | не изменять оставить исходные | для всех | |
удалить все знаки кроме букв, цифр и пробелов | конвертер/1гр кг — konverter1gr-kg | URL, SEO | |
удалить все символы кроме букв, цифр, пробелов, косая черта «/» | конвертер/1гр кг — konverter/1gr-kg | URL, SEO | |
заменить на пробел все знаки кроме букв и цифр | конвертер/1гр кг — konverter-1gr-kg | URL, SEO |