Длина Title и Description: анализ тегов и рекомендации от Яндекс и Google
Поисковые сниппеты в Google становятся еще более информативными. Накануне западные вебмастера заметили, что длина тегов title и description стала больше. Давайте обсудим, что это может означать!
Ограничение длины тайтла теперь составляет70-71 символ вместо 55-60. Это на 2-4 слова больше, чем раньше.
Размер мета-тега description увеличился на 16-20 символов на строку. Теперь максимальная длина строки составляет 100 символов. Важно отметить, что для большинства поисковых результатов Google продолжает усекать description, поэтому в выдаче отображаются 150-160 символов, умещающихся в две строки. У некоторых счастливчиков description может состоять из 3 строк.
Отметим, что длина тайтла в мобильной выдаче также увеличилась и составляет теперь 78 символов. Таким образом, это даже больше, чем в декстопной выдаче.
«Если это не тест, а реальное нововведение, то оно предоставит вебмастерам дополнительные возможности. В title и description можно будет вставить больше информации, полезной для пользователей и для продвижения сайта.
На мой взгляд, это нововведение может быть связано с тем, что пользователи все больше задают многословных запросов, запрашивая информацию о конкретном товаре/вопросе, который их интересует. Google будет использовать расширенные title и description для того, чтобы показывать в выдаче максимально точные ответы», — комментирует Сергей Андреев, маркетолог сервиса Rookee.
Отметим, что количество символов, на которые увеличилась допустимая длина title и description, может отличаться от заявленных для языков, отличных от английского. Поэтому пока предлагаем опираться на универсальные рекомендации по оформлению данных тегов.
Description
В настоящее время многие оптимизаторы преуменьшают важность данного мета-тега, но на наш взгляд, он все еще играет важную роль в продвижении. Description позволяет добавить краткое описание к каждой странице. Поисковые системы часто используют это описание для формирования сниппета.
При составлении тега Description мы рекомендуем выбрать ключевую фразу, которая будет описывать содержание конкретной страницы, указать ее в начале тега, а разбавленное ключевое слово добавить в конец. Помните, что длина Description должна быть примерно 160-180 символов. <meta> Description должен описывать содержание конкретной страницы – об этом важно помнить.
Как правильно составить описание:
- Описания должны быть уникальными, они не должны копировать как друг друга, так и тексты конкурентов. Исключением может быть описание товаров в интернет-магазинах, которое можно формировать по маске, меняя название товара.
- В описании нужно использовать ключевые слова для этой целевой страницы. При этом необходимо, чтобы текст описания выглядел естественно, а не состоял из одного перечисления ключевых слов.
- Наиболее частотные ключевые слова лучше употреблять как можно ближе к началу описания.
- Не стоит делать описание слишком маленьким (несколько слов) и наоборот слишком большим. В идеале это 1-2 согласованных предложений.
- В описании можно использовать неагрессивные побуждающие приемы (например: гарантии, скидки, акции).
Title
Тег Title или заголовок страницы – крайне важный элемент внутренней оптимизации сайта. Для того чтобы использовать заголовки с максимальной эффективностью нужно придерживаться следующих правил:
- Заголовок страницы важен как для поисковых машин, так и для пользователей. Поисковые системы учитывают его при определении содержания страницы и показывают его пользователю в выдаче.
- Принципиально важным является наличие ключевого слова в заголовке, но при этом не забывайте, что заголовок должен быть естественным и понятным пользователям.
- Ключевое слово в заголовке должно быть расположено как можно ближе к началу, и чем более распространенной будет форма его употребления, тем лучше.
- Мы не рекомендуем использовать в заголовке много слов, не несущих смысловой нагрузки. Также стоит избегать различных символов — они снижают читабельность текста.
- Заголовок должен быть длиной не более 6-10 слов и не более 60 символов.
- В HTML коде страницы рекомендуем размещать тег title сразу за тегом HEAD.
Если у вас все еще остались вопросы по оформлению title и description – пишите нам в комментариях. С радостью ответим!
длина, как сделать, составить и заполнять правильный мета-тег и пример написания в 2021
Привет! В предыдущей статье я рассказал, как составлять мета-тег Тайтл для сайта. В этой поговорим о правильном Description для вашего проекта, как заполнять и для чего он вообще используется, когда на дворе 2021 год.
Содержание статьи:
Общая информация
Мета-тег Description – это по своей сути микро-анонс-описание всей страницы, для которой он прописывается. Дескрипшн даёт общее представлением поисковым системам Яндекс Google о чём страница. Description выводится в поисковой выдаче и называется сниппет.
Стоит отметить, что Google намного чаще использует прописанный Meta Tag Description в выдаче, тогда как Яндекс в большей части случаев выводит какой-либо отрывок из текста по своему усмотрению. Однако, это не значит, что тегом Дескрипшн можно пренебрегать и оставлять его пустым!
Правильно составленный и прописанный Description – очень важный элемент SEO-оптимизации страницы.
Также как и в случае с Title мы несколько по-разному заполняем Description для коммерческих и информационных сайтов.
Кроме того, метатег Дескрипшн для Главной также необходимо составлять особенным образом. А как именно составить правильно данный тег я расскажу ниже.
Общим требованиям для всех типов сайтов и их страниц является то, что Description нужно писать максимально естественным языком, без использования «кривых» прямых вхождений ключевых запросов. В теге можно склонять и разбавлять ключевые фразы, но их наличие необходимо.
Ну и самое банальное (хотя некоторые даже в этом косячат) Description должен отличаться от Тайтла, а не дублировать его!
Длина Description в 2021 году
Оптимальный размер для Description является 160-170 символов. С недавних пор Яндекс увеличил размер выводимого в выдаче сниппета, добавив кнопку «Читать далее» после нажатие на которую выводится в общей сложности до 300-350 символов.
Тем не менее, я рекомендую не превышать длину в 200 символов, и делать Дескрипшн из 3-4 предложений с обязательным вхождением ключевых слов, пусть и в склонённом или разбавленном другими словами виде.
Инфографика
Перед тем как подробно рассказать про каждый нюансы составления Дескрипшена я предлагаю вам ознакомиться с инфографикой.
Description для интернет-магазина или сайта услуг
Начнём с правильного составления и заполнения Дескрипшена коммерческого сайта.
Карточки товаров или посадочные страницы
В Дескрипшене магазина или сайта услуг должны присутствовать:
- несколько основных ключевых слов, можно в разбавленном виде, других падежах, числах и родах;
- «хвосты»;
- коммерческие фразы: купить, заказать, заказ, цена, доставка, недорого и т.д.
- гео-привязка: в Москве, в Спб и т.д.
- бренд.
Подробнее про SEO-хвосты можно прочитать по ссылке.
Далее пример формулы для составления правильного Description для интернет-магазина платьев:
В интернет-магазине «Платья 24» вы можете купить вечернее платье на свадьбу с доставкой на дом. Лучшие цены в Москве.
Здесь:
Артём Высоков
Автор блога о SEO и заработке на сайтах — Vysokoff.ru. Продвигаю информационные и коммерческие сайты с 2013 года.
Задать вопрос Загрузка …- интернет-магазин, купить, с доставкой на дом, цены – коммерческие фразы;
- вечернее платье на свадьбу – основной ключ;
- в Москве – гео-привязка.
- Платья 24 – бренд.
Т.о. формула для тега может выглядеть так:
В %бренд% разбавка %коммерческая фраза% %основной ключ%%коммерческая фраза%. Разбавка %коммерческая фраза% %второй ключ%%гео-привязка%.
Главная страница коммерческого сайта
Отличие Description для посадочных от Description для Главной заключается в том, что для Главной страницы сайта мы используем максимально ВЧ-запросы, а также делаем описание Главной в виде микро-анонса деятельности всего сайта.
Т.е. для интернет-магазина по продаже платьев в meta описание мы будем использовать основное ключевое слово – «платья».
Пример:
Интернет-магазин платьев «Платья 24». Огромный ассортимент платьев на выпускной, свадьбу и для повседневной жизни. Выгодные цены на платья. Доставка по Москве.
Т.о. формула Дескрипшн останется без изменений, т.е.:
В %бренд% разбавка %коммерческая фраза% %основной ключ%%коммерческая фраза%. Разбавка %коммерческая фраза% %второй ключ%%гео-привязка%.
Дескрипшн для информационного сайта
Для инфосайтов заполнение SEO-описания для страницы выглядит точно также, только в мета-теге не используем коммерческие фразы, гео и бренд (но по желанию бренд можно оставить).
Статьи
Формула для Description инфо-статьи:
Разбавка % ключевое слово%. %Ключевое слово% разбавка разбавка. Разбавка %ключевое слов%.
Пример:
Полезные советы, как выбрать вечернее платье на празднование выпускного или на свадьбу. Выбор праздничного платья.
Ну, т.е. для информационного сайта всё сильно упрощается. По сути мы просто вставляем ключевые фразы и разбавляем их текстом.
Главная страница информационного сайта
Как и в случае с Тайтлом Главной инфосайта, тег Дескрипшн также составить довольно проблематично. Если информационный сайт заточен под широкую нишу, тогда будет сложно уместить всё в одном мини-описание.
Если же ниша узкая, тогда мы просто пытаемся впихнуть в читабельной форме как можно больше ключевых фраз, разбавляя их обычными «неключевыми» словами. Ну и обязательно в Description Главной упоминаем брендовое название вашего информационного сайта.
А что если мета-теги Description отсутствуют?
Об этом часто любит сообщать Вебмастер Яндекса. Чтобы проверить есть ли у вас страницы без SEO-описаний, т.е. без Дескрипшенов, необходимо зайти на
- webmaster.yandex.ru ->
- Выбрать свой сайт.
- Диагностика. И если проблемы есть, то вы увидите надпись – Отсутствуют метатеги <Description>
Зайдя в каждую проблемную статью и заполнив SEO-описание страницы необходимо в Яндекс.Вебмастере нажать на кнопку перепроверки и ждать результата. Если страниц с отсутствующим Description больше не будет, то метка пропадёт.
Лайфхак для сайтов на WordPress с Yoast SEO
И напоследок небольшой лайфхак для лентяев. Если же вы категорически не хотите руками прописывать Description (но только так можно действительно хорошо оптимизировать данный тег), но при этом хотите избежать предупреждений в Яндекс.Вебмастере (как говорится и рыбку съесть и на кхм-кхм…), тогда вам на помощь придёт плагин Yoast SEO и вот такая штука – %%excerpt%%.
Вам нужно зайти в настройки Yoast SEO, как указано на скриншоте и в поле Meta Description прописать %%excerpt%%
Этот тег вставляет автоматически первые несколько предложений в дескрипшн, таким образом делая метатег заполненным, но не уникальным. Это всё же лучше, чем оставлять мета-описание пустым, но хуже чем грамотно продуманный Description, с вхождением ключевых фраз.
Надеюсь помог!
Длина Description для Яндекса и Google
Написание мета тега Description я всегда считал делом крайне неблагодарным. Нужно здорово постараться, чтобы вложить максимум информации в скромный блок – и при этом не факт, что содержание этого контейнера вообще кто-нибудь увидит. А если и увидят, то не полностью – самая важная информация окажется безжалостно отрезана из-за того, что длина дескрипшн больше той, которую рекомендует поисковая система. Когда замечаешь, как твой «сочный» анонс в сниппете обрывается на полуслове и вместо точки заканчивается <…>, это вызывает раздражение.
Дабы быть уверенным, что поисковик не «обкромсает» ваше мета-описание, стремитесь уложиться в рекомендуемые размеры.
Статья вычитана экспертом и обновлена в 2020 году.
Длина Description для Яндекса
Максимальный размер мета тега дескрипшн для поисковой системы «Яндекс» – 140 символов без пробелов (160 символов с пробелами).Минимальный объём не определён, но description не должен состоять всего лишь из нескольких слов. Лучше всего заполнить это поле 2-мя лаконичными и ёмкими предложениями. По крайней мере именно так делать рекомендует «Яндекс.Помощь».
Проблема «Яндекса» в том, что при выдаче программа может подтягивать в блок описания в сниппете не Description, а куски из текста. Более того, она именно так делает в 5 случаях из 6. Как, например, здесь:
Заставить поисковую систему выводить в сниппет именно дескрипшн можно единственным образом: закрыть от индексации весь остальной текстовый контент на странице (через <noindex>). Однако это негативно повлияет на ранжирование – думаю, оно того не стоит.
Количество символов в Description для Google
Google придерживается абсолютно иного подхода. Эта поисковая система выводит в сниппет именно description.
Прежде описание в сниппете Google было ещё короче, чем в «Yandex», и составляло примерно 120 символов без пробелов (140 символов с пробелами). Однако в 2016 году команда Гугл изменила требования: и Title, и Description при поисковой выдаче стали длиннее. В тайтл, например, стало помещаться на 2 коротких слова больше.
Длина тега Description увеличилась до 250-275 символов. Описание теперь состоит не из 2-х строк, а из 3-х, как видно на примере выше.
По поводу оптимальной длины meta description для Google идут ожесточённые споры. У кого-то размер сниппета при выдаче не изменился, другие замечают, что величина сниппета меняется день ото дня. Так что не спешите переписывать мета теги – кажется, в Гугле ещё ничего окончательно не решили.
Как уложиться в скромный объём?
Вот несколько советов, которые помогут написать лаконичный и релевантный Description:
- Не стремитесь «запихнуть» в дескрипшн контактные данные – кучу контактных телефонов, адрес электронной почты или, упаси Господи, факс. Описание должно сообщать, чему посвящена страница, а не быть рекламной «свалкой».
- Не «переборщите» с лаконичностью. Скромность в данном случае не красит райтера. Если вы внесёте в дескрипшн лишь 4-5 слов, поисковой машине придётся подтягивать куски из текста.
- Не «водните» – пишите кратко и по существу. Объём и так небольшой. Кстати, о воде и способах её удаления я писал совсем недавно.
- Не допускайте переспама. Если страница посвящена, скажем, велосипедам, и вы на 160 символов употребили слово «велосипед» трижды, поисковик останется недоволен таким дескрипшеном и пойдёт цеплять текстовые отрывки.
Заключение
Помните, что Description почти не влияет на оптимизацию страницы прямым образом. Зато этот мета тег оказывает влияние на CTR. Если дескрипшн составить грамотно, соотношение «переход / показ» точно увеличится. Уделяйте внимание не только содержанию описания, но и его размеру. Лучший расклад – когда в сниппете появляется цельный Description, не обрезанный и без лишних кусков из текста.
А как вы составляете Description? Не побоитесь поделиться методикой в комментариях?
Статьи по теме
Длина Description для Google и Яндекса
Максимальная длина Description для Google и Яндекса различается. Поскольку страница сайта может иметь только одно описание, придется составлять его в соответствии с требованиями обеих популярных поисковых систем. Обычно длина тега Description находится в пределах от 150 до 200 символов. Связаны такие ограничения с тем, что длинный текст может быть неудобен для чтения, поэтому поисковая система старается не делать больших описаний.
Длина Description в Яндекс
Спецификация поисковой системы не дает четкого ответа на этот вопрос. В отдельных случаях было замечено использование сниппета из 250 символов, но происходит это, только когда ключевые слова разбросаны по тексту. Обычно сервис ограничивается 200 или даже 160 символами.
Сниппет взят полностью из description
Официальная позиция поисковой системы Яндекс не сообщает насколько важен этот тег при ранжировании результатов. Также стоит обратить внимание, что ограничений на индексирование Description не существует, даже если это поле будет намного больше существующих стандартов, сервис полностью будет его учитывать, но не отображать.
Длина Description в Google
Эта поисковая система предъявляет более жесткие требования к размеру описания – его следует делать не больше 160 символов, иначе поисковик самостоятельно сократит его либо же сниппет сформируется из других словосочетаний.
Google утверждает, что описание не влияет на место страницы в поисковой выдаче, но если пользователь применяет форму расширенного поиска, то отсеивание результатов может производиться в том числе и с учетом описания.
Будет ли описание помещено в сниппет зависит от релевантности тега поисковому запросу. Поисковая машина Google отображает теги чаще чем Яндекс, но даже она далеко не всегда помещает их в выдачу. Но не стоит пытаться составить Description только из ключевых слов, нежелательно использовать в описании больше одного такого, в противном случае поисковая система с легкостью обнаружит подобный обман.
Другие поисковые системы
Отношение альтернативных поисковиков может отличаться:
- Рамблер использует алгоритмы Яндекса для своего поиска, поэтому их отношение к метатегам идентично.
- MSN от Microsoft полностью игнорирует Description, для него важно лишь непосредственное содержание страницы.
- Yahoo уделяет значительное внимание не только Description, но и Title, правильное их использование способно повысить позиции страницы по данному запросу.
Большинство более мелких сервисов учитывают теги, но в какой степени – неизвестно.
Ограничения существуют только на максимальное количество символов, если описание будет существенно меньше 160 символов, то ничего страшного не произойдет. Прежде всего эта форма предназначена для того, чтобы убедить пользователя посетить именно эту страницу, ее содержание обязательно должно соответствовать информации на сайте. В противном случае ссылка на нее может вообще не отображаться поисковиком.
Сервис проверки количества символов в Title и Description для поисковой выдачи
Рекомендуемая длина заголовка — title 0
Google YandexРекомендуемая длина описания — description 0
Google Yandex
Для рядового пользователя интернета, посетившего тот или иной сайт, главное значение имеет содержание ресурса, полезность размещенной информации и максимальное удовлетворение его интересов.
Но профессионалы, работающие в области продвижения интернет-ресурсов, прекрасно знают, что посещаемость сайта зависит от целого ряда параметров. Особенно, если речь заходит о текстовых материалах. На порядок ранжирования любой страницы сайта, как известно, влияет множество факторов:
- уникальность размещенных материалов
- грамотное размещение ключевых слов и поисковых фраз
- правильное оформление мета-тегов «Description» и «Title»
Description и Title наиболее актуален для текстовых документов, размещенных на любой интернет-площадке, независимо от ее тематики и структуры. Именно специальные мета-теги, составленные и размещенные надлежащим образом, создают предпосылки для наиболее быстрой индексации страниц сайта поисковыми роботами-пауками. Соответственно, сайт с правильно оформленными тегами Title и Description, получают гораздо более высокую степень лояльности со стороны поисковых систем.
Размер Description и Title имеет значение
Достаточно распространенная ошибка дилетантов в области SEO-продвижения заключается в том, что они пытаются «запихать» в параметры Title (наименование страницы) и Description (ее описание) максимально возможное количество информации. Как показывает практика, поисковые системы относятся к таким попыткам крайне негативно.
Оптимальным количеством символов в Title считаются значенияот 60 до 80 для Яндекс и от 30 до 70 для Google. Что касается Description, тоэти параметры увеличиваются до диапазонов от 200-300 и 150-250 соответственно.Впрочем, это – весьма приблизительные цифры, поскольку точные значения мировыепоисковые гиганты держат под большим секретом. Кроме этого, Яндекс и Googleпостоянно меняют свои алгоритмы и механизмырасширения сниппета. Например, Яндекс в конце снипета добавил фразу»Читать еще», нажав на нее, пользователь может видеть расширенное описание страницы, которое увеличилось еще на 300 символов. Чтобы уберечь вас от случайного переспама, наш сервис был рассчитан на оптимальное значение символов в Title и Description.
Наш бесплатный сервис подсчета длины текстов Title и Description позволяет оптимизировать значения данных параметров. Достаточно ввести тексты в специальные поля, выбрать поисковую систему (Яндекс или Google) – результат будет обработан мгновенно! Наш сервис позволяет буквально за несколько секунд создать идеальную структуру и оптимальный объем мета-тегов, имеющих важнейшее влияние на продвижение абсолютно любого интернет-ресурса!
о ширине символов, цифрах и смысле происходящего
Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем
Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Подпишись на рассылку и получи книгу в подарок!
Метатег description – черный ящик SEO, в который можно вложить много сил, а на выходе ничего не получить – пользователь его даже не увидит. Или увидит, но все самое интересное останется за кадром, обрезанное безжалостным «…». Как понравиться поисковым системам и уложиться в отведенный размер? Об этом и поговорим в статье, а заодно посчитаем оптимальную длину дескрипшна и расскажем, при чем здесь типографика.
Почему вообще стоит говорить о длине description?
Потому что дескрипшн – это равноправный участник продвижения наравне с тайтлом. Он размещается в начале страницы:
<head>; … <meta name="description" content="Получение максимального трафика на сайт с продвижением в Москве от SEMANTICA.">; … </head>;
Описание может быть использовано для продвижения в поисковых системах как обычный текст (если на вашем сайте мало текстового контента), но его сила кроется в другом – в информации. При вводе запроса в поисковую систему вы видите примерно такой информационный блок:
Задача дескрипшна – дать пользователю информацию о сайте и привлечь его. Здесь прежде всего работает поведенческий фактор. Увидев в этом маленьком клочке текста намек на решение своей проблемы, пользователь скорее всего перейдет на сайт. Наша задача – дать ему адекватную и привлекательную информацию, тем самым повысив CTR позиции.
Формирование сниппета: камень в огород дескрипшна
Существует одна небольшая проблема, которая заключается в алгоритмах формирования сниппета. Вот это – топ выдачи, где прямоугольной рамкой отмечено описание, которое подтянулось из description:
Из шести позиций лишь одна использует любовно заполненное описание. Дело в том, что дескрипшн сниппета заполняется роботом и может быть взят из:
- текста meta description;
- контента страницы;
- каталогов DMOZ или ЯК.
Поведение определяется алгоритмами, и в некоторых случаях может повезти, и нужное появится в сниппете, а в других – сформируется из текста статьи. При этом у Google отношение к метатегам более лояльное, чем у Яндекса. Яндекс в большинстве случаев дергает несколько тезисов из статьи, которые, по его мнению, наиболее полно раскрывают тематику, и выводит эту кашу в сниппет. Здесь нет четких правил или рычагов влияния на поведение робота – нужно просто принять это как данность и сделать описание максимально релевантным странице.
Количество символов в description: не в буквах дело
Раскрыть все особенности товара и красочно расписать выгоды от покупки конкретно в вашем магазине не получится. Есть определенное ограничение по отображаемому размеру текста. Он располагается в две строки, а количество символов зависит от их типографической ширины.
Для Яндекса количество символов составляет порядка 150 символов текста. Для Google – примерно 130 символов. Все, что выходит за эти пределы, обрезается и заменяется многоточием. Если лимит символов заканчивается в середине слова, то оно также выбрасывается из описания.
Англоязычные дескрипшны вмещают большее количество знаков – это обусловлено их шириной. Символы «j»,«t», «i», «f» и прочие «худые» буквы занимают гораздо меньше места, чем кириллица, где практически все буквы алфавита – широкие, а одна «ш» занимает место трех «l». Например, здесь 166 знаков:
В описании сниппета часто встречаются фрагменты текста, выделенные жирным. Таким образом подсвечиваются слова из поискового запроса, а также другие, ассоциируемые с ним:
Так как выделенный жирным символ занимает больше места, то и в сниппетах для больших запросов будет отведено меньшее количество символов для описания.
Как уложиться в небольшой объем
В отведенные рамки уложиться достаточно просто: нужно помнить о назначении дескрипшна и не стремиться вписать в него телефон компании, адрес и прочее – оставьте это расширенным сниппетам. С другой стороны, небольшое описание в пять слов совершенно точно будет расценено поисковиком как нерелевантное, и робот уйдет искать подходящий отрывок в тексте на странице, оставив дескрипшн незадействованным.
Вот вам несколько советов:
- В начале описания необходимо дать нужную потенциальному клиенту информацию, вставлять ключевые слова и не лить воду.
- Лучше всего располагать самый релевантный ключ в начале, а в конце использовать другой, необязательно в прямом вхождении.
- Так как прямые вхождения ключевых фраз в большинстве случаев нечитаемы, а нам требуется точное вхождение в начале, то придется находить баланс между ключами и читаемостью.
- Следите за переспамом. Это не карается санкциями, но снижает вероятность появления описания в сниппете.
- Не пишите о всем сайте сразу – описание каждой страницы должно быть уникальным и релевантным ее содержанию.
- Нельзя использовать тайтл в качестве первого предложения. Совпадения с текстом страницы допускаются: можно взять первое предложение из статьи и дополнить его.
- Не злоупотребляйте слоганами – они не несут информации пользователю и занимают много полезного места.
- Помните, что дескрипшн будет появляться в сниппете вместе с тайтлом, поэтому постарайтесь его дополнить, сделайте сниппет органичным.
- Убирайте все «в нашем магазине вы найдете …», «после использования этого современного крема для лица …», «если не можете починить кран, то закажите сантехника на час, который …» и прочие мусорные выражения.
- Если описание со страницы товара, то лучше рассказать о достоинствах: большом объеме оперативной памяти, компактных размерах, нетоксичности. Если услуга – то расскажите о сроках и ценах, региональности, если статья – попробуйте кратко вынести основной тезис или вопрос, на который статья отвечает.
И что в итоге?
Дескрипшн как таковой постепенно теряет актуальность, и при оптимизации сайта ему теперь уделяется меньше времени. Однако грамотно составленное описание все еще может влиять на поисковое продвижение, в основном за счет повышения кликабельности позиции. При определении количества отображаемых символов в дело вступает типографика, поэтому точных цифр оптимальной длины description нет, но лучше всего оставаться в рамках 130-150 символов.
Над материалом работали:
Александр Балабаев
Контент-менеджер
Длина Description – Почему Гугл переписывает Метаописание | Урок #317
Длительность: 7:00
Длина Description – Почему Гугл переписывает Метаописание | Урок #317
SEO
 
В новом аудиоподкасте №317 Николай Шмичков рассказал о длине Description и о том, почему Гугл переписывает мета описание.
Текстовая версия выступления:
“Всем привет!
Вы на канале всё SEOquick.
Меня зовут Николай Шмичков и я сегодня хочу поговорить про такой вопрос: какой должна быть длина Description?
На самом деле многие говорят 150 символов, 200 символов, сколько угодно, даже Google говорит 282 символа.
Но задумывались ли вы о том, что Google переписывает мета-описание, мета description в случае 70%.
Об этом говорят результаты анализа выдачи по 30 000 ключевых слов.
И самое забавное, что мета-теги дескрипшен переписывается для мобилок в 71% и в 68% переписываться для десктопа.
На самом деле он переписывается исключительно поисковиком, и самое забавное, что также есть большая зависимость – чем больше ваша позиция, тем больше вероятность того, что мета деscriction будет переписан.
Если вы посмотрите на выдачу на данный момент, то вы увидите, что если сравнить мета дескрипшен и его длину, то оптимальный вариант когда мета дескрипшн переписывается в процентах – если длина меньше 125 символов или, внезапно, больше 160 символов.
Если увидеть чётко кривую где дескрипшн не переписывается – это от 150 до 160 символов.
Почему так происходит?
На самом деле это связано с тем, что Google не может показать весь ваш дескрипшн целиком не обрезав смысл.
А на мобилках это число гораздо меньше.
Можно четко сказать, что мета дескрипшн переписывается гарантированно если ваш дескрипшн меньше ста но точно больше 125.
Если вы обратите внимание, то оптимальное длина дескрипшнов на мобилках меньше, потому что там реально сниппет, который отображается гораздо меньше.
Ну и конечно если говорить чисто о цифрах всё это делается ради кликабельности.
Когда вы пишите изначально пустой дескрипшн или плохо прописываете дескрипшн, получается что поисковику ничего показывать.
И он пытается выдрать что-то из контента.
Если вы там написали красивый дескрипшн, с эмоджи, с чем угодно.
Написали туда УТП своё.
Но если вы нарушили просто банально правила длинны ваш дескрипшн показан не будет и количество переписываний резко увеличивается начиная с 4 по шестую позиции.
Google хочет сильно увеличить результаты этих позиций и поэтому показывает свой собственный дескрипшн, который генерирует самостоятельно
Также есть очень большая взаимосвязь между частотой переписывания дескрипшн и объемом поиска.
Чем выше ваш объем поиска, ваш СTR, тем меньше вероятность того что Google изменит ваш дескрипшн.
SEO-шники при написании дескрипшн часто ориентируются на ключевые слова с наибольшим количеством запросов в месяц.
Это действительно так оно и есть.
Когда Google переписывает дескрипшн для десктопа, он позволяет себе немного больше текста чем изначально владельцам сайтов.
Переписанная описание может включать 160 – 167 символов, но при этом сам сниппет составляет 147-149 символов.
На мобильных устройствах количество отображаемых символов достигает 118 и резко снижается после 121.
То есть, если есть дата которая заменяет часть текста публикации, то длина составляет 95 – 105.
То есть вы должны четко понимать, что если у публикации в блоге, например, есть дата, то эти 8 или сколько там знаков, они тоже отнимаются от длины вашего description.
Поэтому если вы хотите гарантированный дескрипшн, который будет вмещается, то существует не так-то уж и много правил, которые нужно запомнить.
Во-первых дескрипшн не должен превышать 150-160 символов ни при каких раскладах.
Потому что больше однозначно будет переписывать META description
Для блога нужно делать 148 символов максимум, а оптимально 138.
Я бы даже ориентировался на 140 символов длины.
Это ваша длина дескрипшена для блога.
Очень важно, чтобы первые 100 слов содержали важную информацию о статье или странице на которую вы его создали.
И ни в коем случае не отказывайтесь от написания дескрипшн даже зная что Google его перепишет.
И само собой полное исследование, которое находится но Search and Journal, говорит что нужно действительно сосредоточиться на написание дескрипшн и четко ограничить их по длине.
Сталкивались ли вы с тем, что ваши красивые дескрипшн не отображаются?
Напишите в комментариях.
Попробуйте сесть, взять там Screaming Frog, взять любое приложение, которое вытягивает ваши тайтл и description.
Или возьмите нашу утилиту, которая меряет тайтл и дескрипшн и померяете длину ваших description.
Какая она?
Подходит ли она?
Насколько она годится для показа в собственно выдаче.
Есть ли вероятность того что Google её перепишет?
Просто замерьте по длине.
Проверьте первые 100 слов, несут ли они какую-то осмысленную информацию связанную с вашей страницей?
Проверьте дескрипшн вписывается в длину у вас?
Потому что вы можете всё что угодно делать, но если Google будет переписывать ваш дескрипшен, если вы находитесь в топ-10.
Не всегда он будет её переписывать так как вы хотите и это может оказаться не сильно кликабельным и привлекать вам не ту аудиторию.
Если вам интересна была это новость, обязательно напишите мне в комментариях.
Мы с удовольствием её обсудим.
А также не забывайте подписываться на наши подкасты.
Пользуйтесь нашими утилитами для проверки тайтл и description.
Ну и конечно же посещайте наши и вебинары каждый четверг, где мы разбираем ваши сайты онлайн.
И до новых встреч!”
Минимальная длина описания — обзор
4 Проблема аппроксимации кривой, проблема индукции и роль простоты в выводе
Предыдущее обсуждение четырех статистических парадигм и того, как они решают четыре типа вопросов, обеспечивает основу для оценки нескольких подходов к индуктивному выводу. Две связанные проблемы, с которыми часто сталкивается любой подход к индуктивному выводу, — это проблема распознавания образов и «проблема подбора кривой». В обоих случаях мы сталкиваемся с двумя конфликтующими желаниями: «простотой» и «добротой соответствия».Были предложены многочисленные объяснения в рамках статистики и внешней статистики о том, как понять эти пожелания и оптимальным образом их согласовать.
Статистическая теория обучения (SLT) — один из таких подходов, который рассматривает эти проблемы, будучи мотивированным определенным набором тем. Изучение шаблона — фундаментальный аспект индуктивного вывода. Это становится еще более важным, если теория способна зафиксировать наше обучение с помощью распознавания образов в нашей повседневной жизни, поскольку этот тип обучения не так легко подходит для систематического компьютерного программирования.Предположим, например, что мы хотим разработать систему для распознавания того, является ли данный визуальный образ изображением кошки. Мы хотели бы придумать функцию от спецификации изображения до вердикта, функцию, которая максимизирует вероятность правильного вердикта. Для достижения этой цели системе дается несколько примеров случаев, когда «эксперт» классифицирует изображение как кошку или не как кошку. Ранее мы отмечали, что невозможно сделать вывод без допущений в том смысле, что мы должны предположить, что имеющиеся данные должны дать некоторые подсказки о будущих данных.Обратите внимание, что это предположение является версией предположения о единообразии природы. Чтобы исследователь мог создать примеры, она предполагает, что существует неизвестное распределение вероятностей, характеризующее, когда будут встречаться определенные изображения, соотносящие изображения и их правильную классификацию. Мы предполагаем, что новые случаи из примеров, с которыми мы столкнемся, также случайным образом выбираются из этого распределения вероятностей. Это похоже на то, что предполагается в рамках Akaikean, обсуждавшейся ранее.
Мы предполагаем, что вероятность появления элемента с определенной характеристикой и классификацией не зависит от появления других элементов и что одно и то же распределение вероятностей определяет появление каждого элемента. Причина для предположения о вероятностной независимости состоит в том, чтобы подразумевать, что каждое новое наблюдение предоставляет максимум информации. Предположение об идентичном распределении вероятностей подразумевает, что каждое наблюдение дает точно такую же информацию о лежащем в основе распределении вероятностей, как и любое другое.(Эти предположения можно смягчить различными способами.) Одним из центральных понятий в SLT является понятие VC-Dimension, , которое определяется как разбиение . Набор гипотез S разрушает определенные данные тогда и только тогда, когда S совместим со всеми способами классификации данных. То есть S разрушает заданные векторы признаков, если для каждой маркировки векторов признаков (например, как «кошка» или «не кошка») гипотеза в S генерирует эту маркировку. Конечная VC-размерность набора правил C — это наибольшее конечное число N , для которого некоторый набор из N точек разрушается правилами в C ; в противном случае VC-размерность бесконечна.Размер VC C обеспечил меру «сложности» C . Различные методы обучения нацелены на выбор гипотезы таким образом, чтобы минимизировать ожидаемую ошибку предсказания о следующей серии наблюдений. Развивая свое мнение об индуктивном умозаключении, Гилберт Харман и Санджив Кулкарни в своей совместной статье утверждали, что SLT может многое предложить философам в плане лучшего понимания проблемы индукции и поиска надежного метода достижения истины.Они отмечают сходство между понятием фальсифицируемости Поппера и размерностью VC и отличают низкую размерность VC от простоты в Попперовском или любом обычном смысле. И Харман, и Кулкарни обращаются к этим сходствам между двумя взглядами и спорят, как SLT может улучшить представление Поппера о простоте. Дэниел Стил, вводя понятие ложности Поппера, пошел дальше, утверждая, что цель описания Поппера, похоже, отличается от цели SLT. Согласно Попперу, научный процесс предположений и опровержений порождает все больше проверяемых теорий, которые более близко соответствуют истине.Этот стойкий реализм по отношению к научным теориям, по словам Стила, отсутствует в SLT, который направлен на минимизацию ожидаемой ошибки предсказания. Несмотря на то, что между этими двумя подходами существует очевидная разница, предполагает Сталь, может существовать некоторая основополагающая связь между точностью предсказания и эффективным приближением к истине.
Как и в случае с SLT, принцип минимальной длины описания (MDL) и ранее применявшийся принцип минимальной длины сообщения (MML) нацелен на баланс сложности модели и ее соответствия для получения надежных выводов.Подобно SLT, MDL и MML также мотивированы аналогичным соображением относительно того, как делать надежные выводы из данных. 10 В обоих этих подходах оптимальным компромиссом считается тот, который обеспечивает наилучшее сжатие данных в том смысле, что одна и та же информация описывается в терминах более короткого представления. В MML важно, чтобы сжатие состояло из двух частей: гипотеза ( H 1), за которыми следуют данные с учетом гипотезы ( D при H 1).
Согласно принципу MDL, чем больше можно было сжать данный набор данных, тем больше он узнал о данных. Вывод MDL требует, чтобы все гипотезы были указаны в терминах кодов. Код — это функция, которая отображает все возможные результаты в двоичные последовательности, так что длина закодированного представления может быть выражена в битах. Принцип MDL дает рецепт выбора гипотезы: выберите гипотезу H , для которой длина гипотезы L ( H ) вместе с длиной описания данных с использованием гипотезы LH ( D ) — самый короткий.Суть вопроса, конечно же, в том, как следует определять эти коды L ( H ) и LH ( D ). Во введении к изучению MDL Стивен де Рой и Питер Грюнвальд объясняют, почему эти коды должны быть определены таким образом, чтобы минимизировать сожаление в худшем случае (грубо говоря, накладные расходы на кодирование по сравнению с лучшими из рассмотренных кодов), в то же время достигая особенно короткие длины кода, если повезет, в том смысле, что данные оказываются легко сжимаемыми.
Минимизируя сожаление в худшем случае по всем возможным последовательностям данных, нет необходимости делать какие-либо предположения относительно того, какими будут данные. Если кто-то работает разумно для худшего из возможных наборов данных, он будет работать достаточно хорошо для любого набора данных. Тем не менее, в целом, возможно, даже не удастся извлечь уроки из данных. Вместо того, чтобы считать истину простой, Де Рой и Грюнвальд вводят альтернативную концепцию удачливости: коды разработаны таким образом, что если данные окажутся простыми, нам повезет, и мы будем учиться особенно хорошо.
Принцип минимальной длины сообщения (MML) аналогичен принципу MDL в том, что он также интересен предложением решения для того, что мы назвали проблемой аппроксимации кривой. Как и MDL, сжатие данных играет ключевую роль в MML. Чем больше можно сжать данные, тем больше мы сможем получить информацию из данных; более того, чем короче длина кода для представления этой информации, тем лучше он будет с точки зрения MML. Один из способов мотивировать подход MDL или MML состоит в том, чтобы думать о длине кода в терминах сложности Колмогорова, в которой кратчайший ввод в машину Тьюринга будет генерировать исходную строку данных (сложность Колмогорова и ее связь со случайными последовательностями см. Раздел 7.3). В этом подходе используются коды, состоящие из двух частей. Первая часть всегда представляет информацию, которую человек пытается изучить, то есть о кодировании гипотезы H, а затем о подготовке машины Тьюринга к чтению и генерации данных, предполагая, что данные были сгенерированы гипотезой H, закодированной в первой части. В первой части сообщения коды не заставляют машину Тьюринга писать. Вторая часть сообщения кодирует данные, исходя из (гипотезы или) модели, данной в первой части, а затем заставляет машину Тьюринга записать данные.При использовании кодов, состоящих из двух частей, разница между MML и MDL очень мала. Однако между ними есть принципиальная разница. MML представляет собой субъективный байесовский подход в интерпретации используемых кодов, тогда как MDL избегает любого субъективизма в пользу концепции удачливости. MML может использовать предшествующие (степень) убеждений агента о процессе генерации данных, но он также может пытаться сделать наши априорные факторы максимально объективными в MML, используя простейшую универсальную машину Тьюринга.
В своей статье о байесовском принципе MML на основе теории информации Дэвид Доу рассматривает различные статистические и философские приложения MML, включая связь MML с гибридными байесовскими сетями. Связь, лежащая в основе MML, — это идея теории информации, в которой информация принимается как отрицательный логарифм вероятности. Эта точка зрения также привела его к двум его недавним результатам: (i) единственная система оценки, которая остается инвариантной при недооценке вопросов, — это логарифм вероятностной оценки, и (ii) связанный с ней новый результат уникальности о расхождении Кульбака-Лейблера между распределениями вероятностей. .Доу повторно формулирует свою гипотезу о том, что для задач, в которых количество данных на каждый параметр ограничено выше (например, проблема Неймана-Скотта, латентный факторный анализ и т. Д.), Чтобы гарантировать как статистическую инвариантность, так и статистическую согласованность в целом, кажется, что нужен либо MML, либо близкий к нему байесовский подход. Используя статистическую согласованность MML и его связь со сложностью Колмогорова, Доу независимо заново открывает человеческую непредсказуемость Скривена как «неуловимый парадокс модели», а затем разрешает парадокс (независимо от Льюиса и Шелби Ричардсона [1966]), используя неразрешимость Проблема с остановкой.Он также в общих чертах описывает различия между MML и различными вариациями более позднего принципа MDL, появившимися на протяжении многих лет (ссылки на статьи в последнем абзаце см. В статье Доу в томе).
Понятие простоты Статистический вывод — это повторяющаяся тема в нескольких статьях этого тома. Де Рой и Грюнвальд обращались к роли простоты, которую они называют «принципом экономии» в обучении. Те, кто думает, что простота играет эпистемологическую роль в статистических выводах, утверждают, что более простые теории с большей вероятностью будут правдой.В статистических выводах относительно эпистемологической роли простоты могут быть два противоположных лагеря. Можно быть байесовцем. Другой может быть небайесовским [Forster and Sober, 1994]. Однако де Рой и Грюнвальд отождествляют эпистемологическую интерпретацию простоты с байесовским подходом. Вероятное естественное расширение эпистемологической конструкции простоты статистического вывода — это верить в то, что более простые теории с большей вероятностью будут правдой. Субъективные байесовцы разделяют это эпистемологическое объяснение простоты.Гипотеза с максимальной апостериорной вероятностью считается наиболее вероятной. Де Рой и Грюнвальд дистанцируются от этой интерпретации, потому что философия, лежащая в основе MDL, направлена на поиск полезных гипотез без каких-либо утверждений об их истинности.
Де Рой и Грюнвальд утверждают, что одно фундаментальное различие между MDL, с одной стороны, и MML и SLT, с другой, состоит в том, что первый, похоже, не имеет какой-либо формы предположения о единообразии природы, встроенного в его философию, что мы находим в последних двух.Они не решатся предположить, что имеющиеся данные обязательно дают ключ к разгадке будущих данных. Они предпочитают не сбрасывать со счетов возможность того, что это не так. Вместо этого они разрабатывают методы так, чтобы мы учились на данных, если мы попали в удачный сценарий, где это возможно. По их мнению, это ключевое отличие подхода MDL от любых других подходов, включая MML и SLT.
В своей статье Кевин Келли соглашается с небайесианцами, такими как Де Рой и Грюнвальд, относительно байесовского объяснения роли простоты в выборе научной теории.Стандартный байесовский аргумент в пользу простоты, как уже говорилось, состоит в том, что более простые теории с большей вероятностью будут правдой. Байесовцы используют ту или иную форму теоремы Байеса, чтобы защитить свою позицию в отношении роли простоты в выборе теории. Это может принимать форму сравнения апостериорных вероятностей двух конкурирующих теорий с точки зрения апостериорного отношения:
(E3) P (S | D) P (C | D) = P (S) P (C) × P (D | S) P (D | C),
, где теория S проста (в смысле отсутствия свободных параметров), а теория C более сложна (в смысле наличия свободного параметра θ , который колеблется, скажем, , более тыс. дискретных значений).Первое частное в правой части (E3) — это отношение априорных вероятностей. По словам Келли, установка P ( S )> P ( C ) явно вызывает вопрос в пользу простоты. Поэтому он полагает, из «справедливости», что P ( S ) примерно равно P ( C ), так что сравнение зависит от второго частного в правой части (E3) , который называется байесовским фактором . По его словам, байесовский фактор кажется «объективным», но при расширении по правилу полной вероятности он принимает форму:
P (S | D) P (C | D) = P (S) P ( C) × P (D | S) ΣθP (D | Cθ) P (Cθ | C),
, который включает субъективные априорные вероятности P ( C 0 | C ).Келли считает, что обычно существует некоторое значение θ , такое, что P ( D | S ) = P ( D | C θ ). Если P ( C 0 | C ) = 1, то апостериорное отношение оценивается как 1 (сложная теория столь же надежна, как и простая теория). Но в этом случае параметр θ не является «свободным», так как имеется сильное априорных представлений о том, как он был бы установлен, если бы C было истинным.Сказать, что это «бесплатно», значит принять более или менее равномерное распределение по k значений θ . В этом случае апостериорное отношение составляет k — сильное преимущество для простой теории, которое становится произвольно большим, когда количество возможных значений θ стремится к бесконечности. Но, объективно говоря, C 0 предсказывает D так же точно, как S . Единственная причина, по которой C «не подтверждено» по сравнению с S в свете D , состоит в том, что субъективная априорная вероятность P ( C 0 | C ) = 1/ k проходит через теорему Байеса.Келли, таким образом, заключает, что байесовский аргумент в пользу простоты, основанный на байесовском факторе, по-прежнему является круговым, поскольку он составляет априорную предвзятость в пользу простого мира S по сравнению с каждым из возможных сложных C 0 .
Келли предлагает новое, альтернативное объяснение бритвы Оккама, которое, как предполагается, соединяет простоту с истиной некруглым способом. Объяснение основано на теореме об эффективности Оккама, согласно которой бритва Оккама является уникальной стратегией, ведущей к самому прямому пути к истине, где прямота измеряется с точки зрения совместного минимизации изменений курса на пути к истине и времени, в которое происходят развороты этих курсов.Поскольку в теореме не участвуют априорные вероятности, Келли утверждает, что она не ставит под сомнение вопрос, как это делают априорные вероятности, основанные на предвзятости простоты. Более того, поскольку Келли рассматривает прямое стремление к истине как концепцию, ведущую к истине, он рассматривает теорему об эффективности Оккама как основу для научного вывода, а не как инструментальный выбор модели. В этом отношении он разделяет антиреализм Де Роя и Грюнвальда, которые в свете подхода MDL утверждают, что простота играет прежде всего эвристическую роль в том, чтобы сделать теорию полезной.Келли утверждает, что в случае выбора теории причинности из неэкспериментальных данных (см. Раздел 6 ниже) обратное направление причинных стрелок приводит к крайне неточным прогнозам политики, поэтому теорема Оккама об эффективности, согласно Келли, является единственной доступной, не имеющей отношения к круговая основополагающая точка зрения на причинное открытие на основе неэкспериментальных данных.
Минимальная длина описания — Scholarpedia
Минимальная длина описания обеспечивает критерий для выбор моделей, независимо от их сложности, без ограничительного предположения, что данные образуют выборку из «истинного» распределения.
Задача моделирования
Чтобы получить подход к статистике без несостоятельных предположений что наблюдаемые данные были получены с помощью «истинного» распределения, критерием эффективности модели \ (P \) как распределения является взятой как вероятность или плотность \ (P (x) \), которую он присваивает данным. Эквивалентно его можно принять как \ (\ log 1 / P (x) \, \), который имеет интерпретация длины кода как количества бит, когда \ (x \) закодирована как двоичная строка. Из двух моделей \ (P \) и \ (Q \, \) согласно принципу максимального правдоподобия, первое лучше, если \ (P (x)> Q (x) \) или \ (\ log 1 / P (x) <\ log 1 / Q (x) \.\) Следовательно, нет модели бывают «истинными» или «ложными». Они просто исполняют разная степень добродетели, которую к тому же можно оценить.
Это означает Минимальная длина описания , MDL , принцип выбора модели, из которых оригинал форма утверждает, что лучшая модель — это та, которая позволяет кратчайшее кодирование данных и самой модели. Это добавление длины кода для модели, которая разделяет это принципа из знакомого принципа максимального правдоподобия, приведенного выше, и делает он глобален в том смысле, что любые две модели, независимо от их сложность, можно сравнить.n) = (y_1, x_1), \ ldots, (y_n, x_n) \) состоят из \ (n \) точек описывается парами координат на 2-мерной плоскости, а цель — описать гладкую кривую \ (\ {(\ bar y_i, x_i) \} \) к представляют собой общую форму облака точек. n; {\ theta}) + L ({ \ тета}) \ \ (*) \] сводится к минимуму.Мы можем выделить две представляющие интерес ситуации: В первой ситуации \ (\ theta = (k, \ theta_0, \ ldots, \ theta_ {k-1}) \: \) каждая модель полностью описывается своим числом скалярных параметры компонента и значения этих параметров. Это тот случай, если, например, нас интересует степень полинома, которая лучше всего объясняет данные. Затем \ (L (\ theta) \) разлагается как \ (L (\ theta) = L (k) + L (\ theta_0, \ ldots, \ theta_ {k-1}) \. \) Во втором случае соответствующие в так называемой «проблеме выбора подмножества» мы рассматриваем гораздо более широкий класс моделей: мы не ограничиваем ненулевые параметры \ (k \), чтобы они совпадали с первыми коэффициентами \ (k \); скорее, они могут быть любым подмножеством первых \ (n \) параметров.Тогда \ (\ theta = (k, i_1, \ ldots, i_k, \ theta_ {i_1}, \ ldots, \ theta_ {i_k}) \) включает описание того, какие параметры отличны от нуля, и мы получаем \ (L (\ theta) = L (k) + L (i_1, \ ldots, i_k) + L (\ theta_ {i_1}, \ ldots, \ theta_ {i_k}) \. \) Здесь \ (L (i_1, \ ldots, i_k ) = \ log n! / k! (nk)! \) — длина кода, необходимая для описания «структуры», то есть индексов \ (i_1, \ ldots, i_k \) ненулевых коэффициентов.
Для каждого \ (k \) первое слагаемое в (*) минимизируется наименьшим оценка квадратов \ ({\ hat \ theta} \, \) и поскольку компоненты действительные числа, они должны быть квантованы, чтобы сохранить второй член конечный.п; {\ ddot \ theta}) \, \), где \ (\ ddot \ theta \) — дискретизированная точка, ближайшая к \ (\ hat \ theta \, \), тогда ограничивается константой, не зависящей от \ (n \. \). конечный интервал с длиной \ (C \, \) количество дискретизированных значений равно \ (C \ cdot \ sqrt {n} \. \) Следовательно, длина кода для каждого параметра может быть принята приблизительно равной \ ((1/2 ) (\ log n + \ log C) \. \) Для достаточно больших \ (n \, \) постоянные члены (включая \ (L (k) \)) могут быть проигнорированы, и тогда (приблизительно) оптимальный количество параметров можно найти путем минимизации \ [ \ min_k \ {\ log 1 / f (y ^ n | x ^ n; {\ hat \ theta}) + (k / 2) \ log n \ [\ + \ log (n! / (k! (nk) !)) \] \}, \] где структурный член в квадратных скобках включен только в задачу выбора подмножества.Это обеспечивает относительно простое и беспристрастное решение проблемы глубокая проблема, для которой в обычная статистика.
Второй и третий члены могут рассматриваться как количество обучаемой информации в данных, поскольку очевидно, что обучаемая информация это как раз лучшая модель, и требуется примерно указанное количество бит описать это. Минимум первого члена — это количество шума , которое не имеет дополнительной информации, которая может быть извлечена с помощью рассматриваемые модели.Сумма этих двух называется стохастической сложностью данных, учитывая класс гауссовских моделей. считается.
Был получен тот же критерий для нахождения количества параметров, но без структурного члена, называемый BIC для байесовского информационного критерия . разными способами без теоретической интерпретации кодирования; в слово «информация» не является ни тем, что приведено выше, ни Шеннон Информация. Сходство критерия BIC и (асимптотического приближения) к исходному критерию MDL привело многих к мысли, что выбор MDL и байесовской модели эквивалентны. n | \ mathcal {M}) \) является универсальной моделью для класса \ (\ mathcal {M} \) моделей.Вообще говоря, универсальная модель \ (P \) относительно класса \ (\ mathcal {M} \) моделей (распределений) есть распределение \ (P \) таким образом, что независимо от того, какие данные \ (x_1, \ ldots, x_n \) наблюдаются, кодирование данных с использованием кода с длинами \ (- \ log P (x_1, \ ldots, x_n) \) не требует существенно большего количества бит чем кодирование данных с распределением \ (Q \ in \ mathcal {M} \), которое оказывается лучшим для кодирования данных ретроспективно; это просто максимальная вероятность \ (Q \, \) минимизации по всей \ (Q \ in \ mathcal {M} \, \) длине кода \ (- \ log Q (x_1, \ ldots, x_n) \, \ ) или, что то же самое, максимизируя \ (Q (x_1, \ ldots, x_n) \.\)
На основе универсальных моделей определение стохастической сложности уточняется, но все же разбивается на те же две составляющие, количество шума и обучаемой информации . Обучаемая информация относительно модели \ (k \) — параметров \ (\ mathcal {M} \) теперь становится асимптотически равной \ ((k / 2) \ log n \) плюс дополнительный член, который стремится к константе с увеличение \ (n \. \) Эта константа зависит от геометрической структуры \ (\ mathcal {M} \) и может быть связана с объемом из \ (\ mathcal {M} \), когда он встроен в некоторое абстрактное пространство. .Большой «объем» означает, что \ (\ mathcal {M} \) содержит различимых распределений .
Принцип MDL возник с публикацией Риссанена (1978). Риссанен был вдохновлен теорией алгоритмической сложности Соломонова, Колмогорова и Чайтина. С 1978 года было проведено множество теоретических и практических исследований, связанных с этой идеей. Одно из самых замечательных открытий заключается в следующем: универсальные модели могут быть построены по крайней мере четырьмя различными способами: на основе кодов, состоящих из двух частей, на основе средних значений байесовской модели, на основе прогнозно-последовательных процедур или с использованием так называемого нормализованного максимума . вероятность (NML) .На первый взгляд получаемые универсальные коды совершенно разные, но можно показать, что на самом деле они приводят к почти одинаковой длине кода. Поэтому на практике можно использовать все эти разные типы универсальных кодов.
«Необработанная» формула \ ((k / 2) \ log n \) для усваиваемой информации, однако, не всегда дает удовлетворительные результаты; для их получения часто требуются более точные неасимптотические формулы. Для подходов байесовского, прогнозно-последовательного и NML эти формулы не включают никакого квантования.Поэтому на практике их часто проще использовать, чем исходный двухкомпонентный MDL.
Список литературы
- J. Rissanen (1978) Моделирование по кратчайшему описанию данных. Automatica 14 , 465-471.
- П. Д. Грюнвальд (2007) Принцип минимальной длины описания , MIT Press, июнь 2007, 570 страниц
- Дж. Риссанен (2007) Информация и сложность в статистическом моделировании , Springer Verlag, 2007, 142 страницы
Внутренние ссылки
- Олаф Спорнс (2007) Сложность.Scholarpedia, 2 (10): 1623.
Рекомендуемая литература
- M.H. Хансен и Б. Ю (2001) Выбор модели и принцип минимальной длины описания, Журнал Американской статистической ассоциации , 96 (454), 746-774
Внешние ссылки
См. Также
Использование минимальной длины описания для определения внутренней мощности и размерности временных рядов
Интуитивно понятный пример нашей основной идеи
Для конкретности мы рассмотрим простой рабочий пример, сравнивающий две возможные размерности данных.Обратите внимание, что здесь мы предполагаем мощность 16 и модель APCA. Однако в целом нам не нужно делать таких предположений. Рассмотрим примерный временной ряд \ (T \) длиной 24:
$$ \ begin {align} T = \ mathbf {1 \; 1 \; 1 \; 2 \; 3 \; 4 \; 5 \; 6 \; 7 \; 8 \; 9 \; 10 \; 11 \; 11 \; 12 \; 12 \; 12 \; 12 \; 11 \; 11 \; 10 \; 10 \; 9 \; 7} \ end {align} $$
На рисунке 3 показан график \ (T \).
Рис. 3Пример временного ряда \ (T \), который будет использоваться в качестве рабочего примера в этом разделе
Мы пытаемся смоделировать эти данные с помощью одной постоянной линии, особого случая APCA.Мы начинаем с нахождения среднего всех данных, что (округление в нашем целочисленном пространстве) равно восьми. Мы можем создать гипотезу \ (H_ {1} \) для моделирования этих данных, которая показана на рис. 4. Это просто постоянная линия со средним значением восемь. Модель могла иметь 16 возможных значений. Таким образом, DL \ ((H_ {1}) \) = 4 бита.
Рис. 4Временной ряд \ (T \) ( синий / мелкий ), аппроксимированный одномерной аппроксимацией APCA \ (H_ {1} \) ( красный / жирный ).Ошибка для этой модели представлена вертикальными линиями (Цветной рисунок онлайн)
Модель \ (H_ {1} \) плохо аппроксимирует \ (T \), и мы должны учитывать ошибку. Сноска 4 Ошибки \ (e_ {1} \), представленные длиной вертикальных линий на рис. 4, составляют:
$$ \ begin {align} e_ {1} = \ mathbf {7} \ ; \ mathbf {7} \; \ mathbf {7} \; \ mathbf {6} \; \ mathbf {5} \; \ mathbf {4} \; \ mathbf {3} \; \ mathbf {2} \; \ mathbf {1} \; \ mathbf {0} \; \ mathbf {-1} \; \ mathbf {-2} \; \ mathbf {-3} \; \ mathbf {-3} \; \ mathbf {-4} \; \ mathbf {-4} \; \ mathbf {-4} \; \ mathbf {-4} \; \ mathbf {-3} \; \ mathbf {-3} \; \ mathbf {-2} \; \ mathbf {-2} \; \ mathbf {-1} \; \ mathbf {1} \ end {align} $$
Как отмечено в Определении 5, стоимость представления этих ошибок — это стоимость исправления; это количество бит, кодируемых \ (e_ {1} \) с использованием кодирования Хаффмана, которое составляет 82 бита.Таким образом, общая стоимость представления \ (T \) с помощью одномерной модели или ее сокращенной длины описания составляет:
$$ \ begin {align} DL \ left ({T, H_1} \ right) & = DL \ left ({T | H_1} \ right) + DL \ left ({H_1} \ right) \\ DL \ left ({T, H_1} \ right) & = 82 + 4 = 86 \; \ hbox {bits} \ end {align} $$
Теперь мы можем проверить, может ли гипотеза \ (H_ {2} \), которая моделирует данные с двумя постоянными строками , уменьшить длину описания. На рисунке 5 показаны две аппроксимирующие линии из двух сегментов , созданные APCA.
Рис. 5Временной ряд \ (T \) ( синий / мелкий ), аппроксимированный двумерной аппроксимацией APCA, \ (H_ {2} \) ( красный / жирный ) . Вертикальные линии представляют ошибку (Цветной рисунок онлайн)
Как и следовало ожидать, ошибка \ (e_ {2} \), показанная вертикальными линиями на рис. 5, меньше ошибки \ (e_ {1} \). В частности, ошибка \ (e_ {2} \):
$$ \ begin {align} e_2 = \ mathbf {2} \; \ mathbf {2} \; \ mathbf {2} \; \ mathbf {1} \; \ mathbf {0} \; \ mathbf {-1} \ mathbf {-2} \ mathbf {-3} \; \ mathbf {3} \; \ mathbf {2} \; \ mathbf {1} \; \ mathbf {0} \; \ mathbf {-1} \; \ mathbf {-1} \; \ mathbf {-2} \; \ mathbf {-2} \; \ mathbf {-2} \; \ mathbf {-2} \; \ mathbf {-1} \; \ mathbf {-1} \; \ mathbf {0} \; \ mathbf {0} \; \ mathbf {1} \; \ mathbf {3} \ end {align} $$
Число битов, кодируемых \ (e_ {2} \) с использованием кодирования Хаффмана, или стоимость коррекции для генерации временного ряда \ (T \) с учетом гипотезы \ (H_ {2} \), ДЛ \ ((T \ vert H_ {2}) \), составляет 65 бит.Хотя стоимость коррекции меньше, чем у одномерного APCA, стоимость модели больше. Для хранения двух постоянных строк , двух постоянных чисел , соответствующих высоте каждой строки, и указатель, указывающий конечную позицию первой строки. Таким образом, сокращенная длина описания модели \ (H_ {2} \) составляет:
$$ \ begin {align} DL \ left ({T, H_2} \ right) & = DL \ left ({T | H_2} \ right) + DL \ left ({H_2} \ right) \\ DL \ left ({T, H_2} \ right) & = 65 + 2 * \ log _2 \ left ({16} \ right) + \ left \ lceil {\ log _2 \ left ({24} \ right)} \ right \ rceil = 78 \; \ hbox {bits} \ end {align} $$
Поскольку у нас есть \ (DL \ left ({T, H_2} \ right)
- Колмогоровская сложность невычислима: не существует компьютерной программы, которая при вводе произвольной последовательности данных выдает кратчайшую программу, которая производит данные. Даже если мы случайно найдем самую короткую программу, которая выводит данные, вообще невозможно узнать, что это самая короткая.
- Колмогоровская сложность зависит от того, на каком компьютерном языке описываются программы. Он определяется только с точностью до постоянного числа бит.Если доступен лишь небольшой объем данных, такие константы могут иметь очень большое влияние на результаты вывода: хорошие результаты не могут быть гарантированы при работе с ограниченными данными.
- Ограничение набора разрешенных кодов таким образом, чтобы стало возможным (вычислимым) найти самую короткую длину кода данных относительно разрешенных кодов, и
- Выбор кода, который будет достаточно эффективным независимо от имеющихся данных.Этот момент несколько неуловим, и в этой области все еще продолжается много исследований.
- Домашняя страница Йормы Риссанен ( http://www.mdl-research.org/jorma.rissanen/ ), содержащая записи лекций и другие недавние материалы по MDL.
- П. Грюнвальд, М. А. Питт и И. Дж. Мён (ред.), Достижения в минимальной длине описания: теория и приложения ( http: // mitpress.mit.edu/catalog/item/default.asp?sid=4C100C6F-2255-40FF-A2ED-02FC49FEBE7C&ttype=2&tid=10478 ), M.I.T. Press (MIT Press), апрель 2005 г., ISBN ( http://mitpress.mit.edu/catalog/item/default.asp?sid=4C100C6F-2255-40FF-A2ED-02FC49FEBE7C&ttype=2&tid=1047 ) 0-262 -07262-9 ( http://mitpress.mit.edu/catalog/item/default.asp?sid=4C100C6F-2255-40FF-A2ED-02FC49FEBE7C&ttype=2&tid=10478 ).
Мы еще не закончили: мы также должны протестировать \ (H_ {3}, \; H_ {4}, \; H_ {5} \) и т.д., соответствующие 3, 4, 5 и т.д. кусочно-постоянной константе. сегменты. Кроме того, мы могли также протестировать альтернативные модели, соответствующие различным представлениям DFT или PLA, и протестировать различные мощности. C \), которая пытается кодировать данные с мощностью всего 4 даст самую маленькую модель.
Обзор следующих фактов может помочь сделать наш вклад более интуитивным. Качество приблизительного представления временного ряда измеряется ошибкой реконструкции (Динг и др., 2008; Кеог и Касетти, 2003). Это просто евклидово расстояние между моделью и исходными данными. Например, на рис. 4 мы видим, что ошибка восстановления односегментной модели составляет 18,78, а ошибка восстановления двухсегментной модели на рис. 5 составляет всего 8,42. Это предполагает общую истину; для аппроксимаций временных рядов APCA, PLA и DFT всегда случай, когда \ (d \) -мерная модель имеет большую или равную ошибку восстановления, чем \ (d + 1 \) -мерная модель (Ding et al. al.2008; Palpanas et al. 2008 г.). Обратите внимание, что это верно только в среднем для приближений DWT, SAX, IPLA, PAA (Ding et al. 2008). Однако даже для этих заявлений нарушения этого правила очень редки и незначительны.
Читатель мог заметить, что в обсуждаемом примере диапазон вектора ошибки (т.е. {max (\ (e_ {i}) \) — min (\ (e_ {i}) \)}) также уменьшился, от 12 (7 до \ (- \) 4) в первом случае до всего 7 (от 3 до \ (- \) 3) во втором. Это не обязательный случай; соответствующие алгоритмы минимизируют глобальную ошибку модели , а не максимальную ошибку для любого отдельного сегмента / коэффициента, и, безусловно, можно построить синтетические наборы данных, для которых это не так.Однако это почти всегда , и обязательно так. Напомним, что когда \ (d \) приближается к \ (m \), этот диапазон приближается к нулю. Также обратите внимание, что этот диапазон является верхней границей количества уникальных значений, которые алгоритм сжатия должен кодировать в длине описания.
Отметим, что эта тесная взаимосвязь между евклидовым расстоянием и MDL наблюдалась / использовалась ранее. На рис. 12 Rakthanmanon et al. (2012), Rakthanmanon et al. показывает диаграмму рассеяния, иллюстрирующую необычайно высокую корреляцию между евклидовым расстоянием пары подпоследовательностей и длиной описания MDL при использовании одной подпоследовательности для кодирования другой (с использованием, по существу, той же формулировки MDL, которую мы используем здесь).Таким образом, мы можем видеть естественность использования MDL для оценки нашего выбора модели, который связан исключительно с минимизацией евклидова расстояния между моделью и исходными данными.
У нас есть еще одна проблема, которую необходимо решить, прежде чем двигаться дальше. Мы замалчили эту проблему, чтобы улучшить поток презентации выше. Рассмотрим рис. 6, на котором исходное односегментное приближение, показанное на рис. 4, контрастирует с альтернативным односегментным приближением.
Фиг.6Левый Рисунок, показанный на рис.4 контрастирует с попыткой аппроксимировать необработанные данные постоянным сегментом, который явно имеет слишком большое среднее значение ( справа ). Обратите внимание, что хотя количество повторяющихся остатков («ошибок») одинаково в обоих случаях, величина остатков намного больше в последнем случае. Именно эта излишне большая величина говорит нам, что это плохой выбор приближения
.Интуитивно кажется, что альтернатива намного хуже, она значительно переоценивает среднее значение исходных данных.Однако на каком основании MDL может проводить такое различие? Если бы наша формулировка MDL рассматривала значения оси Y как категориальных переменных , тогда не было бы причин предпочитать любую модель.
Однако обратите внимание, что сумма величин остатков намного больше на рис. 6 — справа. Это верно по определению, поскольку использование среднего минимизирует это значение. Однако ничто в нашей длине описания модели не учитывает это явно. Очевидным решением этой проблемы является кодирование термина, который учитывает диапазон чисел, необходимых для моделирования в длине описания, в дополнение к их энтропии.Эта проблема уникальна для порядковых данных и не возникает с категориальных данных . Например, при работе с категориальными данными нет разницы в стоимости, скажем, \ (s _ {\ mathrm {x}} = \ mathbf {a \ a \ a \ b,} \) и \ (s _ {\ mathrm {y }} = \ mathbf {m \, m \, m \, n} \). Однако в нашем домене — это — существенная разница между, скажем, \ (e_ \ mathrm {x} = \ mathbf {1 \, 1 \, 1 \, 2,} \) и \ (e_ \ mathrm {y} = \ mathbf {3 \, 3 \, 3 \, 4,} \), потому что последний обрекает нас рассматривать значения в диапазоне \ (\ hbox {log} _ {2} \) (4) в длине описания для модель, тогда как первая позволяет нам рассматривать только значения в меньшем диапазоне \ (\ hbox {log} _ {2} \) (2).
В принципе, этот член равен , включенному в размер \ (| \ textit {HuffmanTree} (T) | \), но, как мы отметили выше, мы игнорируем этот член в нашей модели. Проблема с кодированием Хаффмана заключается в том, что кодовые слова в кодировании Хаффмана могут иметь только целое число битов. Таким образом, размер \ (| \ textit {HuffmanTree} (T) | \) не делает различий между альтернативными моделями, если мы сдвинем среднее на несколько значений вверх или вниз. Арифметическое кодирование можно рассматривать как обобщение кодирования Хаффмана, позволяющее эффективно использовать нецелочисленную длину в битах.По этой причине он имеет тенденцию предлагать значительно лучшее сжатие для небольших размеров алфавита, и мы должны ожидать, что хорошая гипотеза по определению будет иметь небольшой размер алфавита. На рис. 7 показан эффект использования дробных битов для этой проблемы. Обратите внимание, что фракционные биты имеют узкий диапазон от 3 до 4, и кодировка Хаффмана не делает здесь никаких различий.
Рис. 7Логарифм \ (_ {2} \) диапазона остаточных ошибок для всех возможных моделей с одним постоянным полиномом данных, представленных на рис.3. Обратите внимание, что модель, которая минимизирует это значение (с привязкой), также является моделью, которая минимизирует остаточную ошибку
.Теперь читатель может понять, почему «решением» этой проблемы было просто игнорировать ее. Поскольку используемые нами базовые алгоритмы уменьшения размерности (APCA, DFT, PLA) пытаются минимизировать остаточную ошибку, Footnote 5 , они также неявно минимизируют диапазон остатков. Как показано на рис. 7, если бы мы явно добавили член для диапазона остатков, это не имело бы никакого эффекта, поскольку алгоритм уменьшения размерности уже минимизировал его.
Мы показали подробный пример использования APCA. Однако практически все представления временных рядов могут быть закодированы аналогичным образом. Как показано на трех репрезентативных примерах на рисунке 8, по существу все модели временных рядов состоят из набора основных функций (то есть коэффициентов), которые линейно комбинируются для получения аппроксимации данных.
Рис. 8Временной ряд \ (T \), выделенный полужирным шрифтом , /, синий, , и его три различные модели, выделенные мелким шрифтом , /, красный : от слева направо : DFT, APCA , и PLA (Цветной рисунок онлайн)
Применяя наши идеи к каждому представлению, мы должны быть осторожны, чтобы правильно «зарядить» каждую модель по количеству параметров, используемых в модели.Например, каждый сегмент APCA требует среднего значения и длины, тогда как сегменты PLA требуют среднего значения, длины сегмента и наклона. Каждый коэффициент DFT может быть представлен амплитудой и фазой каждой синусоидальной волны; однако из-за свойства комплексного сопряжения мы получаем «бесплатный» коэффициент для каждого сохраняемого нами значения (Camerra et al. 2010; Ding et al. 2008). В предыдущих сравнениях производительности индексации различных представлений временных рядов многие авторы давали несправедливое преимущество одному представлению, подсчитывая стоимость неправильного представления приближения (Keogh and Pazzani 2000).Идеи в этой работе явно предполагают справедливое сравнение. К счастью, в последние годы сообщество, похоже, стало больше осведомлено об этой проблеме (Camerra et al. 2010; Palpanas et al. 2008).
В следующем разделе мы даем как общую версию обнаружения модели MDL для алгоритмов временных рядов, так и три конкретных экземпляра для DFT, APCA и PLA.
Общий MDL для алгоритмов временных рядов
В предыдущем разделе мы использовали игрушечный пример, чтобы продемонстрировать, как вычислить сокращенную длину описания временного ряда с конкурирующей гипотезой.В этом разделе мы покажем подробную общую версию нашего алгоритма, а затем подробно объясним наш алгоритм, как мы применяем наш алгоритм к трем наиболее часто используемым представлениям временных рядов.
Наш алгоритм не только обнаруживает внутреннюю мощность и размерность входного временного ряда, но его также можно использовать для поиска правильной модели или представления данных для данного временного ряда. В таблице 1 показано высокоуровневое представление нашего алгоритма для обнаружения наилучшей модели, количества элементов и размерности, которые минимизируют общее количество битов, необходимых для хранения входных временных рядов.
Поскольку MDL является ядром нашего алгоритма, первым шагом является квантование временного ряда с действительным знаком в дискретный (но все же мелкозернистый) временной ряд, \ (T \) (строка 1). Затем мы рассматриваем каждую модель, мощность и размерность по очереди (строки 3–5). Затем на основе выбранной модели и параметров создается гипотеза \ (H \) (строка 6). Например, гипотеза \ (H \), показанная на рис. 5, создается, когда модель \ (M \) = APCA, мощность c = 16 и размерность d = 2; обратите внимание, что в этом случае длина входного временного ряда составляла м = 24.
Окончательно вычисляется сокращенная длина описания (строка 7), и наш алгоритм возвращает модель и параметры, которые минимизируют сокращенную длину описания для кодирования \ (T \) (строки 8–13).
Таблица 1 Общий алгоритм MDL для временных рядовДля конкретности мы рассмотрим три конкретных версии нашего общего алгоритма.
Адаптивная кусочно-постоянная аппроксимация
Как мы видели в разд. 3.1 модель APCA проста; он содержит только постоянные сегменты.Псевдокод для APCA, показанный в таблице 2, очень похож на общий алгоритм. Прежде всего, мы квантуем входной временной ряд (строка 1). Затем мы оцениваем все мощности от 2 до 256 и размерности от 2 до максимума, что составляет половину длины входного временного ряда TS (строки 3–4). Значение м. обозначает длину входного временного ряда.
Таблица 2 Наш алгоритм, специфичный для APCAОбратите внимание, что если бы размерность была больше м / 2 , некоторые сегменты содержали бы только одну точку.Тогда гипотеза \ (H \) будет создана с использованием значений мощности c и размерности d , как показано на рисунке 5, где c = 16 и d = 2 . Модель содержит постоянные сегменты \ (d \), поэтому стоимость модели — это количество битов, необходимых для хранения d постоянных чисел и d — 1 указателей, чтобы указать смещение конца каждого сегмента (строка 6). . Разница между \ (T \) и \ (H \) также требуется для восстановления \ (T \).Стоимость коррекции рассчитывается; тогда сокращенная длина описания рассчитывается на основе комбинации стоимости модели и стоимости исправления (строка 7). Наконец, гипотеза, которая минимизирует это значение, возвращается в качестве выходных данных алгоритма (строки 8–13).
Кусочно-линейное приближение
Пример модели PLA показан на рисунке 8 справа. В отличие от APCA, гипотеза с использованием PLA более сложна, поскольку каждый сегмент содержит линию любого наклона, а не постоянную линию в APCA.Алгоритм, используемый для определения внутренней мощности и размерности для PLA, показан в таблице 3, которая аналогична алгоритму для APCA, за исключением кода в строках 5 и 6.
Гипотеза PLA \ (H \) создается из внешний модуль PLA (строка 5). Чтобы представить каждый сегмент в гипотезе \ (H \), мы записываем начальное значение, конечное значение и конечное смещение (строка 6). Наклон не сохраняется, потому что хранение действительного числа дороже, чем log \ (_ {2} \) с .
Первые два значения представлены в виде мощности c и, следовательно, log \ (_ {2} \) c Требуется бит для каждого из них. Нам также требуется журнал \ (_ {2} \) m бит, чтобы указать на любое произвольное смещение в \ (T \). Таким образом, стоимость модели показана в строке 6. Наконец, вычисляется сокращенная длина описания и возвращается лучший вариант (строки 8–13).
Таблица 3 Наш алгоритм, специфичный для PLAДискретное преобразование Фурье
Представление данных в пространстве DFT — это просто линейная комбинация синусоид, как показано на рис.8 – слева. В таблице 4 представлен наш алгоритм, специфичный для ДПФ. После квантования входного временного ряда в дискретный временной ряд \ (T \) (строка 1) вызывается внешний модуль DFT, чтобы вернуть список коэффициентов синусоидальной волны, которые представляют \ (T \). Коэффициенты в DFT — это набор комплексно сопряженных чисел, поэтому мы храним только половину всех коэффициентов, которые содержат комплексные числа без их сопряженного числа, называемого half_coef [строка 5]. Когда предоставляется half_coef, легко вычислить их сопряженные и получить все исходные коэффициенты.
Вместо того, чтобы использовать все half_coef для восстановления \ (T \), мы проверяем, используя их подмножества в качестве гипотезы для приблизительного восстановления \ (T \), что приводит к ошибке аппроксимации. Сначала отсортируем коэффициенты по абсолютному значению (строка 6). Мы используем коэффициенты top-d в качестве гипотезы для восстановления \ (T \) с помощью InverseDFT (строка 8). Например, когда d = 1, мы используем только один наиболее важный коэффициент для восстановления \ (T \), а когда d = 2, комбинация двух верхних синусоидальных волн используется в качестве гипотезы и т. Д.Однако использование 16 битов для каждого коэффициента при сохранении двух комплексных чисел для его действительной и мнимой части обходится дорого. Следовательно, в строке 7 мы уменьшаем эти числа до c возможных значений (количество элементов), округляя число до ближайшего целого числа в пространстве размером c , и нам также требуется постоянное количество бит (32 бита). для максимального и минимального значения как действительной, так и мнимой частей. Следовательно, модель содержит коэффициенты top-d, действительные (и мнимые) части которых находятся в пространстве размером c .Таким образом, стоимость модели и уменьшенная длина описания показаны в строках 9 и 10.
Таблица 4 Наш алгоритм, специфичный для DFTДля простоты мы разместили внешние модули APCA, PLA и DFT внутри двух циклов for; однако для повышения производительности их следует вывести за пределы контуров.
Модель смешанной полиномиальной степени
Для данного временного ряда \ (T \) мы хотим знать представление, которое может минимизировать сокращенную длину описания для \ (T \).Мы показали, как достичь этой цели, применив принцип MDL к трем различным моделям (APCA, PLA и DFT). Однако для некоторых сложных временных рядов использование только одной модели из вышеперечисленных может оказаться недостаточным для достижения наиболее экономного представления, измеряемого битовой стоимостью или нашим субъективным пониманием данных (Lemire 2007; Palpanas et al. 2008 г.). Было показано, что в среднем по много очень разнообразных наборов данных; между разными представлениями нет большой разницы (Palpanas et al.2008 г.). Однако возможно, что в пределах одного набора данных конкретная используемая модель может иметь существенное значение. Например, рассмотрим каждый из двух временных рядов, которые формируют траекторию движения автомобиля по Манхэттену. Эти временные ряды состоят из комбинации прямых и кривых. Мы могли бы выбрать только одну из этих возможностей: либо изображать повороты автомобиля с множеством кусочно-линейных сегментов, либо представлять длинные прямые участки с вырожденной «кривой».Однако здесь явно более естественна модель смешанной полиномиальной степени.
Для ясности мы показываем игрушечный пример, который может извлечь выгоду из модели смешанной степени полинома на рис. 9. Легко заметить, что в этом примере есть постоянные, линейные и квадратичные модели. В сектах. 4.9 и 4.10 мы дополнительно демонстрируем полезность наших идей на реальных наборах данных (Keogh et al. 2011; Lemire 2007; Национальное управление по аэронавтике и исследованию космического пространства 2011).
Рис. 9Игрушечный пример временного ряда, который имеет более одного состояния
В нескольких работах предлагается использовать комбинацию различных моделей в рамках одного временного ряда (Keogh et al.2011; Lemire 2007; Palpanas et al. 2008 г.). Например, Lemire (2007) предлагает смешанную модель, в которой степень полинома каждого интервала в одном временном ряду может варьироваться. Степень полинома может быть нулевая, единица, два и выше. Цель Lemire (2007) — минимизировать евклидову ошибку между моделью и исходными данными для заданного числа сегментов. Однако обратите внимание, что Лемир (2007) требует, чтобы пользователь указывал желаемую размерность, чего мы, очевидно, хотим избежать. Минимизация евклидовой ошибки между моделью и исходными данными — это , полезная целевая функция для некоторых задач, но это не обязательно то же самое, что обнаружение внутренней размерности, что является нашей заявленной целью.Далее мы покажем, что предлагаемый нами алгоритм возвращает внутреннюю модель за счет минимизации уменьшенной длины описания с помощью MDL. Более того, наш алгоритм практически не содержит параметров.
Мы предлагаем структуру смешанной модели с использованием MDL, которая оптимизирует смесь постоянных, линейных и квадратичных представлений для различных локальных областей одного временного ряда. В этом случае операторное пространство алгоритма сегментации (таблица 6) становится больше. Таблица 5 показывает общий вид алгоритма.Строки 1–4 аналогичны алгоритму для APCA и PLA. Функция в строке 5 — это доход для сегментов \ (d \) с гипотезой H , стоимостью модели и начальной точкой каждого сегмента. В таблице 6 подробно показано, как работает восходящий алгоритм смешанной степени полинома. Каждый сегмент представлен разной степенью полинома, чтобы минимизировать сокращенную длину описания. Стоимость модели для постоянного, линейного и квадратичного представлений составляет l og \ (_ {2} \) c бит, 2 * журнал \ (_ {2} \) c бит и 3 * журнал \ (_ {2} \) c бит соответственно.Например, если \ (c \) равно 256, стоимость модели для трех вышеупомянутых представлений составляет 8 бит, 16 бит и 24 бит соответственно. В строке 7, помимо общей стоимости модели всех сегментов, стоимость модели всего временного ряда должна использовать дополнительные биты для хранения начальной точки каждого сегмента. Обратите внимание, что стоимость модели для сегмента не зависит от длины сегмента. Более конкретно, стоимость модели для каждого сегмента определяется только полиномиальной степенью представления и мощностью c .
Таблица 5 Наш алгоритм, специфичный для модели смешанной полиномиальной степени Таблица 6 Алгоритм модели с восходящей смешанной полиномиальной степеньюВ таблице 6 показан алгоритм восходящей модели смешанной полиномиальной степени. При выборе минимальных затрат на описание в качестве функции возражения алгоритм, показанный в таблице 6, является обобщением восходящего алгоритма для генерации PLA, представленного в Keogh et al. (2011). Есть два основных различия между нашим алгоритмом восходящей смешанной модели и восходящим алгоритмом, описанным в Keogh et al.(2011). Первый — второстепенный прагматический момент: вместо использования двух точек в наилучшем возможном приближении алгоритм, показанный в таблице 6, использует три точки. Это потому, что, когда степень полинома представления равна двум, количество точек при использовании этого приближения должно быть не менее трех. Во-вторых, вместо использования евклидова расстояния в качестве целевой функции алгоритм в таблице 6 использует стоимость в леях. Алгоритм вычисляет стоимость MDL для трех степеней представлений полиномиальных степеней для сегмента.Степени полинома равны нулю, единице и двум соответственно. Затем он выбирает тот, который может минимизировать стоимость (длину описания). Алгоритм начинается с создания максимально точной аппроксимации входного временного ряда. Таким образом, для временного ряда длиной n после этого шага осталось n /3 сегментов, как показано в Таблице 6, строки 2–4. Затем рассчитывается стоимость объединения каждой пары смежных сегментов, как показано в строках 5–7. Чтобы минимизировать стоимость слияния для двух входных сегментов, эта функция calculate_MDL_cost вычисляет затраты MDL для трех видов представлений полиномиальных степеней, а затем выбирает минимальную стоимость слияния (строка 6).После этого шага алгоритм итеративно объединяет пару с наименьшей стоимостью до тех пор, пока не будет выполнен критерий остановки. В этом сценарии критерием остановки является входное количество сегментов. Это означает, что алгоритм не завершится, пока текущее количество сегментов больше, чем входное количество сегментов.
Важно отметить, что, подобно алгоритму (Keogh et al.2011), наш алгоритм является жадным в том смысле, что после того, как две области были объединены в один сегмент, они останутся вместе в этом сегменте (который может увеличиваться, поскольку он итеративно соединяется с другими сегментами).Есть только присоединившихся к операторам; нет сплит операторов. Однако, если область в нашем алгоритме изначально назначается полиному определенной степени, это не означает, что впоследствии ее нельзя отнести к большему сегменту другой степени. Другими словами, крошечный регион, который локально может считать себя, скажем, линейным, может позже стать частью постоянного или квадратичного сегмента, поскольку он приобретает более «глобальный» вид.
Минимальная длина описания — Academic Kids
от академических детей
Принцип минимальной длины описания — это формализация бритвы Оккама, в которой наилучшая гипотеза для данного набора данных — это та, которая приводит к наибольшему сжатию данных.MDL важен в теории информации и теории обучения.
Любой набор данных может быть представлен строкой символов конечного (скажем, двоичного) алфавита. «Фундаментальная идея, лежащая в основе принципа MDL, заключается в том, что любую регулярность в данном наборе данных можно использовать для сжатия данных, то есть для его описания с использованием меньшего количества символов, чем необходимо для буквального описания данных». (Grnwald, 1998. См. Ссылку ниже.) Поскольку мы хотим выбрать гипотезу, которая фиксирует наибольшую регулярность данных, мы ищем гипотезу, с помощью которой может быть достигнуто наилучшее сжатие.
Для этого мы должны сначала исправить код для сжатия данных. Самый общий способ сделать это — выбрать компьютерный язык (полный по Тьюрингу). Затем мы пишем программу на этом языке, которая выводит данные. Таким образом, эта программа представляет данные. Длина самой короткой программы, которая выводит данные, называется колмогоровской сложностью данных. Это центральная идея идеализированной теории индуктивного вывода Рэя Соломонова.
Однако эта математическая теория не обеспечивает практического способа вывода.Наиболее важные причины для этого:
MDL — это попытка исправить это путем:
Вместо «программ» в теории MDL обычно говорят о возможных гипотезах, моделях или кодах. Набор разрешенных кодов затем называется классом модели. (Чтобы запутать ситуацию, некоторые авторы называют класс модели моделью.) Затем выбирается код, описание которого вместе с описанием данных имеет наименьшую длину.
MDL не была первой попыткой сделать выбор гипотез за счет минимизации длины описания; еще в 1968 году Уоллес и Бултон первыми разработали родственную концепцию, названную минимальной длиной сообщения (MML).MDL был представлен Йормой Риссаненом в 1978 году; он отличается от MML несколькими способами, в первую очередь (по крайней мере, в большинстве ранних работ Дж. Риссанена по MDL) в широком использовании односоставных, а не двухчастных кодов.
Центральным элементом теории MDL является соответствие 1-1 между функциями длины кода и распределениями вероятностей. (Используемая лемма является неравенством Крафт-Макмиллана.) Для любого распределения вероятностей
Это побудило некоторых исследователей рассматривать MDL как эквивалент байесовского вывода. Длина кода модели и длина кода модели и данных вместе в структуре MDL соответствуют априорной вероятности и предельной вероятности соответственно в байесовской структуре.Эта точка зрения выражена, например, в книге Дэвида Маккея «Теория информации, логический вывод и алгоритмы обучения» (см. Ссылку ниже). Однако, хотя байесовский механизм часто полезен при построении эффективных кодов MDL, структура MDL иногда использует другие коды, которые не вписываются в байесовскую структуру. Примером может служить «нормализованный код максимального правдоподобия» Штаркова, который играет центральную роль в современной теории MDL, но не имеет эквивалента в байесовском выводе. Более того, принцип MDL отдает предпочтение одним априори над другими.Хотя в так называемом объективном байесовском анализе предпочтение отдается одним и тем же априорным значениям, им отдают предпочтение по разным причинам.
Внешние ссылки
Минимальная описательная длина не определена AcronymsAndSlang.com
mdl означает минимальную описательную длину
Этот акроним / сленг обычно относится к категории неопределенных.
Какое сокращение означает минимальная описательная длина?
Минимальная описательная длина может быть сокращена как mdl. Другие сокращения для минимальной описательной длины: MDL
Самые популярные вопросы, которые люди ищут перед тем, как перейти на эту страницу
Q: A: | Что означает mdl? mdl означает «Минимальная описательная длина». |
Q: A: | Как сократить «Минимальная описательная длина»? «Минимальная описательная длина» может быть сокращена как mdl. |
Q: A: | Что означает аббревиатура mdl? Сокращение mdl означает «минимальная описательная длина». |
Q: A: | Что такое аббревиатура mdl? Одно из определений mdl — «минимальная описательная длина». |
Q: A: | Что означает mdl? Аббревиатура mdl означает «Минимальная описательная длина». |
Q: A: | Что такое сокращение минимальной описательной длины? Наиболее распространенное сокращение минимальной описательной длины — mdl. |
Сокращения или сленг с аналогичным значением
Кератометрия и осевая длина при синдроме дисперсии пигментов: описательное исследование случай-контроль
Цель: Синдром дисперсии пигмента и пигментная глаукома характеризуются потерей пигмента с задней поверхности радужной оболочки из-за обратного зрачкового блока.Это может быть связано с аномальным соотношением между положением глазного яблока внутри орбиты, осевой длиной глазного яблока и кривизной роговицы. Авторы сравнили осевую длину, кератометрию и экзофтальмометрию у пациентов с синдромом дисперсии пигмента и пигментной глаукомой, а также у здоровых людей из контрольной группы.
Методы: Тринадцать пациентов с синдромом дисперсии пигмента и пигментной глаукомой и 17 контрольных пациентов прошли рефракцию, кератометрию, А-сканирование и экзофтальмометрию.Пациенты с синдромом дисперсии пигмента и пигментной глаукомой были отобраны в университетской практике по лечению глаукомы, а контрольная группа была выбрана для их возраста и рефракции из персонала больницы. Обе группы были сопоставимы по возрасту и рефракции.
Результаты: Средний возраст пациентов с синдромом дисперсии пигмента и здоровых людей контрольной группы составлял 46,54 и 41,82 года (P = 0,30), соответственно, а средняя рефракция (сферический эквивалент) составляла -4.53 и -4,32 диоптрии (P = 0,84) соответственно. Не было отмечено статистических различий в аксиальной длине, измеренной с помощью A-сканирования (25,98 и 25,14, P = 0,15), в глубине передней камеры и толщине линзы. Группа с синдромом дисперсии пигмента и пигментной глаукомой имела более плоскую кератометрию, чем контрольная группа с миопией. Среднее значение кератометрии составило 42,39 +/- 1,77 и 44,34 +/- 1,50 (P = 0,003) соответственно.
Вывод: Результаты показывают, что пациенты с синдромом дисперсии пигмента имеют более плоскую кератометрию примерно на 2 диоптрии по сравнению с контрольной группой с близорукостью того же возраста.Это открытие предполагает различие в архитектуре переднего сегмента.
Описательная исследовательская диссертация
Описательная исследовательская диссертация
ЗАКЛЮЧИТЕЛЬНЫЙ ТЕЗИС И ОПИСАТЕЛЬНОГО ИССЛЕДОВАНИЯ Представлен в Высший комитет Департамента образования и развития человеческого потенциала. Acrobatiq Studio Количественные методы исследования. Методы исследования. Действие. Исследование. (2003) обнаружило: «Наше собственное и чужое исследование убедило нас в том, что описательного исследования диссертации достичь и поддерживать значительный прогресс в обучении, практика лидерства должна была развиться в направлении модели распределенного лидерства »(стр.Объем варьируется в зависимости от дисциплины, но информативный реферат редко составляет более 10% от объема всей работы. Описательные исследовательские работы могут быть очень прямыми и широкими. Примеры методологии описательного исследования / Тезисы по главе 3 по методологии исследования. описательного исследования. Хорошая глава по методологии включает в себя тип исследования, которое вы провели, как вы собирали и анализировали свои данные, любые инструменты или материалы, которые вы использовали в исследовании, и ваше обоснование выбора этих методов 41.Источником данных исследования является описательная исследовательская диссертация Абдура о шоу Stand Up Comedy, полученная через YouTube. Ее поддержка привела меня к высотам, которых я никогда не думал, что смогу достичь, и за это я бесконечно благодарен. читатель, кого или что вы описываете. Длина варьируется в зависимости от дисциплины, но информативный реферат редко превышает 10% от объема всей работы. Описательные проекты обычно используются в качестве пилотных или предварительных исследований и обычно имеют довольно простые статистические процедуры.Диссертация, представленная в аспирантуру при частичном выполнении требований для получения степени доктора философии, лидерства в образовании, исследованиях и технологиях, Университет Западного Мичигана, апрель 2014 г. Докторантура: Донна Талбот, доктор философии «Целью данного исследования является…») , в то время как в диссертации главы пересмотрены, чтобы отразить прошедшее время (я сначала хотел бы поблагодарить доктора. Цель этого исследования состоит в том, чтобы. пишу.Составьте тезис, который проинформирует читателя о том, кого или что вы описываете. ОПИСАТЕЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЗАКЛЮЧИТЕЛЬНЫЙ ТЕЗИС, представленный в выпускной комитет Департамента образования и человеческого развития. Примеры описательной методологии исследования / Глава 3 Предложение по методологии исследования. Тезисы и диссертации. — Примеры методологии описательных исследований в области науки, технологий, инженерии и математики (STEM) / Глава 3 Тезис о методологии исследования. Описательная исследовательская диссертация
Описательная исследовательская диссертация
Имея четкое представление о природе и.На рисунке 1 изображена общая функция, которую можно построить, Себринг и др. Описательное исследование — это план исследования, который используется для изучения различных явлений и ситуаций. В отличие от предписывающего тезиса, который раскрывает вещи такими, какими они должны быть. Примеры методологии описательного исследования. / Глава 3 Тезис о методологии исследования. Описательная функция исследования в значительной степени зависит от инструментов для измерения и наблюдения (Borg & Gall, 1989). Описательное письмо — это акт сообщения о том, что в литературе: Смит обнаружил, что, когда X произошло, Y и Z тоже случилось.Эта методология больше сосредотачивается на том, «что» предмета исследования, чем на «почему» предмета исследования. Описательное исследование направлено на точное описание исследовательской проблемы. Веб-ориентированное программное обеспечение для автоматической оценки и обучающее программное обеспечение в курсе компьютерной грамотности для новичков Глен Дж. Когда мы говорим о количественных исследованиях, мы обычно имеем в виду исследования, следующие либо описательным, экспериментальным, квазиэкспериментальным и основанным на отношениях планам исследования, которые мы скоро вернусь в мой диссертационный комитет, это никогда не было бы возможным.Создайте тезис, который проинформирует читателя о том, кого или что вы описываете. Следующий шаг — описательное исследование, описательная исследовательская диссертация, определяемая как попытки изучить и объяснить с предоставлением дополнительной информации по теме. Авторы ссылаются на исследование, проведенное Консорциумом в Чикаго. Школьные исследования: являются максимально информативными, информативными и соответствуют стандартному формату диссертации. Просто свяжитесь с https: //thesisrush. Описательная функция исследования в значительной степени зависит от приборов для измерения и наблюдения (Borg & Gall, 1989) .Критическое письмо анализирует то, что было сделано, и принимает к сведению тенденции, а также, возможно, предлагает обратную связь об общем качестве исследования: Смит обнаружил, что X происходит в присутствии Y и Z, как и Джонс. вы используете в своей диссертации (i. исследователь использовал феноменологический план и методологию исследования для достижения целей этого исследования. Здесь исследование пытается описать происходящее более подробно, восполняя недостающие данные.Составьте тезисное изложение, информирующее читателя о том, что или что вы описываете. Длина варьируется в зависимости от дисциплины, но информативное резюме редко превышает 10% от длины всей работы. Качественное описание (QD) — это метка, используемая в качественное исследование для исследований, которые носят описательный характер, в частности, для изучения явлений, связанных с здравоохранением и сестринским уходом (Polit & Beck, 2009, 2014). , программное обеспечение для автоматической оценки и обучения в курсе компьютерной грамотности для первокурсников Glen J.Объем варьируется в зависимости от дисциплины, но информативный реферат редко превышает 10% от объема всей работы. Что такое описательный абзац и примеры? Создайте тезис, который проинформирует читателя о том, что или что вы описываете. должны быть тщательно разработаны, чтобы гарантировать, что результаты являются действительными и надежными. Опросы. Описательное исследование — это тип исследования, описывающего население, ситуацию или существующее явление. Продолжительность варьируется в зависимости от дисциплины, но информативный реферат редко превышает 10% от длины всей работы.По своей природе описательные исследования не используются и не могут быть использованы для объяснения причинно-следственной связи В этом исследовании используется описательный качественный метод. В описательной исследовательской работе вы просите расслабиться и расслабиться, поскольку это не обязательно требует от вас следовать структуре эссе, аналогичной традиционной исследовательской работе. . (2003) обнаружили: «Наши собственные и чужие исследования убедили нас в том, что для достижения и сохранения значительных успехов в обучении практика лидерства должна развиваться в направлении модели распределенного лидерства» (стр.МАТЕМАТИЧЕСКАЯ САМОЭФФЕКТИВНОСТЬ КОЛЛЕДЖА FRESHMEN _____ DISSERTATION _____ Диссертация, представленная с частичным выполнением. Качественное описание (QD) — это метка, используемая в качественных исследованиях для исследований, которые носят описательный характер, в частности, для изучения здравоохранения и явлений, связанных с уходом за больными ( Polit & Beck, 2009, 2014). Описательные дизайны обычно используются в качестве пилотных или предварительных исследований и, как правило, содержат довольно простые статистические процедуры. Вот почему точно и полностью поймите свои намерения.Важной вехой, независимо от вашего академического предмета и академического уровня, магистранты и аспиранты должны представить диссертацию на описательную исследовательскую диссертацию, сдать свою описательную исследовательскую диссертацию Программа на получение степени Описательная диссертация для вдохновляющих сочинений для студентов.