Семантическое ядро пример excel: Скачать готовые примеры семантических ядер в новом Excel формате

Содержание

Кластеризация семантического ядра + excel + автоматизация

Последние:

Здравствуйте, уважаемые читатели сайта Uspei.com. В этом уроке мы рассмотрим такие вещи как группировка запросов в рамках семантического ядра или кластеризация. Начнем мы с группировки поисковых запросов и чистки ядра. В прошлой статье мы посмотрели, как собирать статистику, какие инструменты для этого можно использовать, и все это почистили, удалив дубликаты. А также мы рассмотрели виды запросов.

У нас есть большой список запросов, из которого мы должны удалить оставшийся мусор и провести группировку. То есть у нас есть здоровенный список запросов. В некоторых тематиках он может доходить до 10 000. Наша задача сейчас разбить его на группы, каждая из которых будет содержать в себе только синонимы. То есть в рамках каждой группы должны быть только синонимы, так как каждая выделенная группа, это будущая отдельная страница и эти запросы в группе мы будем на ней продвигать.

К примеру, если у нас есть запрос “купить ноутбук”, то мы должны сделать группу, в которой будут только синонимы к запросу “купить ноутбук”.

Под синонимом в SEO имеется в виду то, что в запросы, по которым люди ищут, вкладывается один и тот же смысл. К примеру, запросы “купить ноутбук” и “купить ноутбук apple” это НЕ синонимы и они будут входить в разные группы, потому что у них разное понятие. В первом случае человек ищет просто ноутбук и это может быть даже samsung, а совсем не apple. Во втором же случае человек ищет конкретно apple. Ну, еще один пример. Человек ищет “такси” и “междугороднее такси” – тут думаю тоже очевидно и понятно.

Таких групп в рамках большого семантического ядра может быть огромное количество, их может быть более нескольких сотен в редких случаях более тысячи. Вот этот процесс еще называют кластеризацией. Мы рассмотрим, как его сделать вручную, я покажу основы и попытаюсь вывести хотя бы один законченный кластер, потому что в рамках одной статьи мы не сможем классифицировать ядро, но хотя бы вывести какой-то базовый кластер.

И потом я вам дам ссылки на набор инструментов, который может существенно автоматизировать или ускорить эту группировку или кластеризацию, как это сейчас модно называть.

Кластеризация и чистка семантического ядра в Excel

Возвращаемся к нашему списку запросов и у нас достаточно простой алгоритм. У нас уже отсортированы все запросы по убыванию частотности, то есть от самых популярных до наименее популярных. Дубликаты мы удалили.

Мы берем каждый запрос и смотрим подходит он нам или нет. Например, у нас есть запрос “интернет-магазин”, но если мы занимаемся только ноутбуками, то этот запрос без слова ноутбук нам не подходит. Значит запрос “интернет-магазин” мы удаляем – это не тематический запрос.

Дальше запрос “ноутбук”. Да, в принципе это информационный запрос, но не совсем понятно, что человек вкладывает в этот запрос, когда вбивает его в поисковую строку. Ищет ли он информацию, картинку или он ищет товары или возможно что-то еще.

Если мы сомневаемся в смысле поискового запроса, логично его проверить. Как это делается? Мы копируем запрос и вбиваем его в новой вкладке в ту поисковую систему, с которой мы работаем. Например, Google.

Мы видим, что Google показывает нам набор интернет-магазинов. Мы видим точно, что это запрос коммерческий и если у нас интернет-магазин, мы его оставляем.

И мы добрались до первого подходящего нам запроса. Давайте выделим нашу первую группу запросов, в которую будут входить все слова с упоминанием слова “ноутбук”. Для этого нужно включить фильтр и отфильтровать по текстовому условию “содержит”. Но там могут быть словоформы запроса “ноутбук” поэтому мы просто напишем “ноут” и получаем список строк только с поисковыми запросами, в которых упоминается “ноут”. Я предлагаю вам скопировать и перенести их в новую вкладку.

Каждую вкладку мы будем называть соответственно по тому слову, по которому мы произвели фильтрацию. В первой же вкладке мы вручную (!) выделяем все отфильтрованные ключи и удаляем. После чего очищаем фильтр.

Итак, в первой вкладке у нас остались все ключи, которые НЕ содержат “ноутбук”, а мы переходим во вторую (“ноутбук”) и продолжаем работать теперь уже там.

Итак, следующее слово “ноутбук”. Мы уже разобрались, что это коммерческий запрос и по нему также как и по запросу “купить ноутбук” показываются интернет-магазины, то есть это синонимы и мы оставляем их в одной группе.

“DNS ноутбуки” – как раз это тот самый навигационный запрос и можно предположить, что приставка “DNS” как популярный интернет-магазин будет часто встречаться в списке запросов про ноутбуки. Поэтому давайте сразу удалим все чужие навигационные запросы “DNS”. Фильтр – выделяем вручную и удалить.

“Ноутбуки бу” – аналогично как с “dns” – удаляем, если только мы не продаем б/у ноубуки.

“Купить ноутбук Москва” – тут уже добавляется регион, а мы далеко не в Москве. По сути, запрос повторяет смысловую нагрузку запроса “купить ноутбук” или просто “ноутбук”. Но поскольку добавляется регион, стоит проверить считает ли google эти поисковые запросы синонимами.

Мы берем запрос “купить ноутбук” вбиваем его в google и в другой вкладке вбиваем запрос “купить ноутбук Москва”. И сравниваем результаты поиска на предмет повторения результатов, то есть именно конкретных страничек. Если хотя бы 4-5 страничек одинаковых, то мы можем считать, что это запросы синонимы и Google показывает по ним одинаковый смысл. Если же по этим запросам выдача разная, то “купить ноутбук Москва” навигационный запрос и он нам не нужен.

Идем дальше и таким образом проделываем ту же процедуру – удаляем мусор и создаем новые группы отличные по смыслу.

Очень рекомендую чистить семантику, используя фильтры, если чистить ручками, то есть большой шанс что-то пропустить.

Но когда мы фильтруем, надо быть аккуратным, чтобы не удалить какие-то важные слова случайно отфильтровав их. Например, если в фильтр вбить просто “бу” то он отфильтрует ВООБЩЕ ВСЕ слова, содержащие “бу” – например, сам запрос “ноутБУк” – а это уже крах))). Поэтому лучше вбить по очереди два варианта с пробелом вначале и вконце ” бу” и “бу “, а также через слэш “б/у”. Помните это и будьте внимательны))))).

И вот у нас запрос “ноутбук hp”. Это уже не просто “ноутбук” – это уже более узкая тема, значит мы должны выделить ноутбуки hp в отдельную группу.

Производим фильтрацию “текст содержит” получаем набор запросов и переносим их в новую вкладку “ноутбуки hp”. Из второй вкладки “ноутбук” перенесенные в 3 вкладку результаты удаляем.

Так мы будем повторять эту процедуру, пока в каждой вкладке не останутся только синонимы. То есть дальше мы должны перейти в 3 вкладку “ноутбуки hp” и здесь их разделить еще на более подробные группы. Мы видим, что здесь есть “ноутбук hp pavilion”, ” ноутбук hp compaq” и “ноутбук hp игровой”. Таким образом, эта группа будет разбита еще на 3 группы.

Во вторую вкладку мы вернёмся, когда во всех следующих группах все слова будут синонимами и продолжим этот разбор. Продолжим до тех моментов, пока самая первая наша вкладка не будет разложена на группы, а в ней самой не останутся только нецелевые запросы или запросы, которые тоже будут синонимами.

В итоге наша задача создать файл, в котором у нас будет огромное количество вкладок. В разных темах по-разному – возможно в некоторых темах будет всего 5-6 вкладок, если тема очень маленькая, но основная задача, чтобы в рамках одной вкладки были только запросы синонимы.

Причем не просто слова синонимы в классическом понимании, а синонимы с точки зрения поисковой системы. Вот как из примера “купить ноутбук” и “ноутбук” это синонимы с точки зрения поисковой системы, поэтому они у нас остались в одной группе.

Если во вкладке 20 синонимов и один НЕ СИНОНИМ – выносим его одного в отельную вкладку. Это очень важный момент, так как каждая группа это отдельная страница, на которой эти запросы будут продвигаться, и чем больше будет ошибок и недоработок, тем менее чистой по смыслу станет страница, что скажется результатах поиска. О других ошибках, допускаемых при сборе и группировке семантики ознакомьтесь в этой статье.

Повторю еще раз основную мысль – в каждой вкладке должны быть запросы подходящие по смыслу. Пример,  если в текущей вкладке 5 запросов:

  • “заработать в интернете”
  • “как можно заработать в интернете”
  • “где заработать через интернет”
  • “как заработать деньги в интернете”
  • “как заработать в интернете без обмана”

Первые три запроса останутся в текущей вкладке, так смысл у них один, а последние два уйдут каждый в свою группу-вкладку, так как они не совпадают по смыслу ни с первыми тремя, ни между собой – они более детализированы.

В одном случае речь идет о деньгах ( а заработать в наши дни можно все что угодно – биткоины, баллы в играх и т.д.), а во-втором, речь идет о заработке без обмана.

Для понимания я в течение часа сварганил (правда не до конца) семантику по запросам, “заработок в интернете” “заработок в сети” “заработок онлайн”. Первая вкладка – вся семантика, а далее по группам. Красные вкладки это основные, из которых идет разбор. Повторюсь, это полусырая заготовка, которую еще нужно дорабатывать.

Скачать пример семантического ядра в excele.

Зачем все это нужно и почему все так сложно?

Вы уже, наверное, поняли, как много времени вам придется уделить на сбор и кластеризацию семантического ядра, и часто люди спрашивают – зачем это все нужно? Какую практическую пользу это несет?

На самом деле, сейчас это не очевидно, но буквально через два-три этапа вы увидите, что вся поисковая оптимизация, абсолютно все seo, построено на основе правильно собранного семантического ядра. SEO – это не просто любительский способ сделать свой сайт лучше. Это, можно сказать наука, в которой все начинается с “атомов” и именно это приводит к результату.

SEO можно сравнить с большим спортом – боксом или сноубордом или любым другим. Если вы не освоите технику ПРОФЕССИОНАЛЬНЫХ ударов или элементов езды, то это скажется на скорости и выносливости и вы проиграете сопернику, кто этим не пренебрег. Если вы не хотите делать этого, тогда это уже не SEO, а что-то другое – не такое эффективное. И в SEO, как и в спорте, нет 15 или 20 места – есть только первая страница и все.

Мы не можем начинать оптимизацию сайта, если мы не сделали семантику, не разбили ее на группы, не обработали и не почистили. И все что мы будем делать дальше, будет основано на семантике.

Приведу конкретный пример. Мы же понимаем, что по каждому запросу поисковик дает свой результат выдачи. Возьмем какую-то небольшую тематику по которой в семантике всего 100 запросов. И вот у одного владельца 100 страниц на сайте, в которых содержимое часто пересекается, структура сайта от этого расплывчатая, поисковик не понимает до конца, какие страницы релевантны запросу больше, а какие меньше. В итоге, кроме путаницы, эти 100 страниц содержат в своем “винегрете” ответы только на 30-40 запросов.

А у второго владельца сайта, благодаря полному собранному  кластеризованному семантическому ядру, на каждый запрос есть соответствующая страница, строго релевантная только этому запросу. Поисковик и пользователи четко понимают структуру сайта, а также не страдают “дежавю”, что уже где-то несколько раз читали об этом на сайте. Внутренняя перелинковка четко структурирована, так как у владельца сайта не возникает вопросов на какую из 10 страниц поставить внутреннюю ссылку. Этот сайт поисковик покажет по ВСЕМ 100 запросам и соберет весь трафик.

Автоматизация кластеризации семантического ядра

Такая работа по группировке запросов по обработке всей этой статистики вручную занимает достаточно много времени. Особенно если человек делает это первый раз. Но я вам рекомендую, если вы хотите научиться работать запросами, работать с семантикой, хотя бы один раз проведите все это вручную в электронных таблицах. Тогда вы сможете прочувствовать и понять, как это работает.

Если же вы работаете в очень больших объемах, крайне рекомендую использовать профессиональные инструменты. Чаще всего они платные.

Один из самых популярных инструментов по работе с семантикой это инструмент “Key Collector”, которая позволяет автоматизировать большинство процессов по сбору и обработке семантики. Как минимум, она умеет автоматически собирать ключевые слова из yandex wordstat, а также данные о частотности по запросам и другие рекомендации.

Если же у вас есть уже готовое отфильтрованное от мусора семантическое ядро, то вы можете прибегнуть к помощи дополнительных сервисов, которые производят автоматическую кластеризацию. Лидером сейчас на рынке является онлайн-сервис, который называется Rush analytics.

Расценки не очень высокие и в принципе, если у вас один сайт, вы владелец или вебмастер, то вы можете собрать семантику, почистить ее, после чего просто отдать на кластеризацию такому сервису.

Свидетельство о регистрации СМИ в РКН: ЭЛ № ФС77-83818 от 29.08.2022

— РЕКЛАМА —

— РЕКЛАМА —

Сейчас:

— РЕКЛАМА —

— РЕКЛАМА —

Как проработать семантическое ядро с помощью Key Collector. Часть 2. Читайте на Cossa.ru

Минусовка

Работать с группой — значит отминусовать её (избавиться от ненужных и нерелевантных стоп-слов) и сгруппировать. Рассмотрим вопрос минусовки. В Key Collector есть «окно стоп-слов», которое позволяет:

  • редактировать слова, например, фиксировать их словоформу;
  • создавать списки и отправлять каждое минус-слово в свой список;
  • отмечать фразы, содержащие стоп-слова.

Сперва отмечаем галочкой слово «купить» (в Key Collector автоматический выделяются все фразы, содержащие «купить»), а затем их удаляем:

Слова можно закинуть в окно стоп-слов разными способами.

Первый. Отправляем фразы по одной. Это точечный подход, и используется он редко. Кликните по значку щита слева от нужной фразы, чтобы отправить её в окно стоп-слов:

Второй способ. Выделяем группу запросов и жмём «Отправить в окно стоп-слов». Подход уже более массовый, но всё ещё не очень удобный.

Третий способ. Самый удобный и в то же время массовый — минусовка через анализ групп. Для этого выбираем нужную группу и во вкладке «Данные» заходим в «Анализ групп»:

Запускай таргетированную рекламу с МегаФон Таргетом и получай 100% кешбэк за три месяца

Самостоятельно настраивай рекламу и продавай тем, кто:

  • Уже интересуется похожими товарами и услугами;
  • Регулярно бывает рядом с вами;
  • Заходит на сайты конкурентов, получают звонки и SMS.

Размещай рекламу там, где ее заметят: SMS и MMS-рассылки, мобильные баннеры, реклама в мессенджерах, обзвон и e-mail-рассылка!

Попробовать →

Реклама. ПАО «МегаФон». ИНН 7812014560.

Анализ групп — очень крутой инструмент. Советую потратить 10 минут, чтобы изучить все его возможности: поиграть с различными типами группировки (не забывайте про кнопку «Вычислить группировку»), посмотреть, как работает экспорт (он пригодится, например, для составления отчёта о чистоте трафика).

Для минусовки выбираем тип группировки «по отдельным словам»:

В этой группировке Key Collector разбивает всё семантическое ядро и группирует его по словам, имеющим одинаковую исходную словоформу.

В колонке «Количество фраз» показано, в скольких фразах ядра встречается то или иное слово. В «Сумме» — сумма значений для сгруппированных слов из выбранной вами колонки. Колонки «Количество фраз» и «Сумма по частотности» помогают оценить «опасность» каждого минус-слова. Понятно, что опаснее те, которые встречаются в большом количестве фраз с большой частотностью.

Чтобы начать минусовать, сортируем список по убыванию количества фраз (так удобнее, через пару строк покажу, почему) и начинаем закидывать в окно стоп-слов нерелевантные:

Если вы выберете указанные ниже настройки, то при отправке слова в минус-список в вашей группе галочками отметятся все фразы, содержащие этот минус:

Это удобно, если вам нужно немного ускорить процесс минусации, причём вы можете заминусовать сразу несколько слов, которые содержатся в большом количестве фраз. Именно поэтому мы сортируем список по количеству фраз. В данном примере я добавил в минуса три первых нерелевантных слова — а в таблице выделились сразу 1257 нерелевантных фраз:

Теперь мы можем удалить эти фразы и заново запустить анализ групп.

Таким образом, за 20 секунд мы на 15% уменьшили количество фраз, с которыми нам предстоит работать. Это ускоряет процесс, но сказывается на качестве минусовки. Ведь внутри тех 1200 фраз, которые мы выделили и удалили, могли сидеть другие минуса (их мы теперь не увидим).

Пример: мы не уверены, стоит ли минусовать слово «ручка»:

Мы можем расхлопнуть группу и посмотреть, в каких фразах используется это слово:

Ага, велосипеды с ручкой — это детские велосипеды, у которых есть ручка, видимо, чтобы родители могли катать своих детей. Однако на сайте у нас в принципе нет раздела с детскими велосипедами. Закидываем «ручки» в минуса.

Бывает и так, что одна форма слова является минусом, а другая — нет. Благо, при клике по щиту в окно стоп-слов отправляются все словоформы, причём мы их можем редактировать. В данном случае — приписать восклицательный знак и отправить в минуса только одну словоформу:

То есть мы проходимся по всему списку слов в «Анализе групп» и выбираем минуса. Если у нас мало времени, можем ограничиться какими-то порогом. Например, минусовать до частотности 10.

Кстати, если мы не удаляли фразы по ходу, под конец анализа в списке будут выделены все фразы, содержащие минус-слова. Мы можем удалить их, а можем перенести в отдельную группу для мусорных слов:

Это удобно, если вы собираетесь добирать дополнительную семантику в тот же проект, пользуясь настройкой «Не добавлять фразу, если она уже есть в какой-то другой группе». Тогда вам не придётся повторно анализировать фразы, которые вы уже обработали.

Сам же полученный список минус-слов можно экспортировать как и куда угодно:

Итак, мы отминусовали группу «Велосипед», переходим к группе «Велик». Эта группа масок оказалась супермусорной! Оказывается, велик — это не только сленговый синоним велосипеда, но и словоформа «большого». Поэтому вместе с масками типа «купить велик» и «заказать велик» подобрались и фразы «купить большой», «заказать большой».

Из-за этого у нас почти 15 тысяч слов всякой фигни. Прикиньте, если бы мы изначально собирали все маски в одну группу, а не разбивали на подгруппы! Пришлось бы вычищать эти 15 тысяч среди всех собранных фраз. Но, к счастью, мы придерживались правила «если ядро незнакомое, и ты не знаешь, как поведут себя маски, раскидай их на парсинге по разным группам». Поэтому сейчас просто удалим группу «велик» и заново соберем её, зафиксировав словоформу «!велик».

«И настроение улучшилось» ©

Минусация через анализ групп — это очень удобный способ, который здорово ускоряет процесс. Вам не надо копаться в списке из всех фраз на 7000 строк — достаточно просмотреть группу на 1500 строк.

P. S.

И ещё пара мыслей в тему минусации. В начале статьи мы говорили о том, что иногда удобно отправлять на парсинг маски, уже уточненные минус-словами.

В KC есть возможность сформировать список минусов на уровне инструмента «Стоп-слова» и использовать его при составлении запроса к Wordstat.

Если активировать эту функцию, то в списке для парсинга будет отображаться, например, «купить велосипед», а в Wordstat отправится расширенный запрос вида «купить велосипед -бу -детский».

Итого, если вы уже на входе знаете нежелательные для себя слова — применяйте их при составлении запроса. Составить список минусов до начала парсинга можно руководствуясь личным опытом, интуицией, здравым смыслом или готовыми списками.

Группировка

После того, как у нас готово чистое отминусованное ядро, его нужно группировать.

Группировка — это распределение слов по группам (по-умному называется «кластеризация»). Далее можно написать под каждую группу слов свой вариант объявления. Или — вы решите написать одно объявление для всего ядра, но сгруппированные фразы всё равно раскидать по разным группам объявлений. Или — каждой группе слов прописать объявление, а потом всё это дело раскидать по принципу «один ключевик — одно объявление». Впрочем, это самый долгий способ.

Чаще всего мы раскидываем слова по разным группам и прописываем каждой своё объявление. Однако решение, как именно дробить ядро, зависит только от вас. Два основных ограничения, которые можно использовать — это максимальное/минимальное число слов в группе плюс максимальная/минимальная частотность слов.

Мы уже познакомились с инструментом Key Collector «Анализ групп». Он помогает не только при минусовке, но и при группировке. Ниже я опишу алгоритм, по которому мы группируем слова через анализ групп. Возможно, он кажется слишком замороченным, но жизнь вообще штука тяжёлая.

Сперва нужно понять, стоит ли «сливать» в одну собранные группы. То есть является ли нынешняя разбивка по группам для парсинга равносильной первому этапу семантической группировки. Ведь группы для парсинга мы разбивали, чтобы не нарваться на ситуацию, как со словом «велик». На данном этапе логика разбивки по семантическим группам может измениться.

Что мы имеем:

Три группы: велосипед, велик, велек.

Чего я хочу добиться группировкой: разбить слова на группы, которым затем пропишу индивидуальные объявления с максимальным вхождением ключевых слов в заголовок. Получается, что названия семантических групп должны содержать слова, которые я затем использую в заголовке.

Буду ли я использовать в заголовках слова «велек» и «велик»? Нет, здесь я поступлюсь вхождением, но сделаю объявления более естественным. Для фраз «купить велек» напишу заголовки «Купить велосипед». В данном случае «велек» и «велик» — группы не семантические, потому я не буду использовать в объявлениях слова из названий этих групп.

Итого: в этом случае нужно «слить» все группы в одну, а затем переразбить на группы по другой логике.

Сделаем это:

Теперь необходимо узнать реальные частотности полученного списка слов — эта информация нам пригодится позже.

По идее, при парсинге масок мы уже получили частотности слов:

С ними можно работать, но здесь частотности по многим словам завышенные, ведь список не откроссминусован. Давайте пойдём по хардкору: скопируем этот список, откроссминусуем, зальём заново и соберём реальные частотности.

Копируем ключевики:

Проводим кроссминусовку:

Удаляем старый список слов, добавляем откроссминусованный (не забудьте убрать символ «-» в настройках парсинга):

Кстати, это очень полезная настройка, так как вы можете парсить сразу уточнённые ВЧ-минусами фразы — и тем самым экономить время. То есть вместо списка

«велосипед москва»
«велосипед купить»

отправлять на парсинг

«велосипед москва -б -у -бу -авито -прокат»
«велосипед купить -трехколесный -б -у -бу»

Таким образом, получаем список для парсинга частотности:

Частотность парсится с помощью инструмента «Сбор с Yandex. Direct»:

После получения частотностей приступаем к группировке. Для этого нужно определиться с глубиной группировки и порогом высокочастотности (ВЧ).

Порог ВЧ — частота, начиная с которой мы считаем слово высокочастотным. Это нужно для того, чтобы выделить ВЧ-слова в отдельные группы. В конкретном примере подразумеваем под ВЧ ключевик с 300+ показами в месяц (хотя это может быть и 1000, и 5000 — зависит от ситуации).

Глубина группировки определяет, насколько подробно мы разбиваем группы на подгруппы. Также это порог, после которого слова уже не нужно выделять в отдельную группу. В нашем примере возьмём глубину от двух слов и от 30 показов в месяц (в сумме по группе).

Начнём. Выбираем исходную группу, заходим в анализ групп, сортируем по убыванию количества фраз:

Обратите внимание: сейчас в анализ групп попали минус-слова — с ними на данном этапе не работаем.

Начинаем двигаться сверху вниз по первому кругу, выделяя в отдельные группы фразы с общим «продуктовым» признаком (белые велосипеды, трёхколесные велосипеды, велосипеды в москве, велосипеды недорогие). На втором круге мы будем выделять в группы фразы с «непродуктовыми» добавками (велосипеды купить, магазин велосипедов).

У «продуктовых» добавок больший приоритет, так как они определяют посадочную страницу и вероятнее включаются в заголовок объявления (из ключевика «купить детский трёхколесный велосипед» на 37 символов мы возьмём в заголовок «Детские трёхколесные велосипеды»).

Выделяем группу слов и переносим её в новую группу:

Вуаля, в исходной группе создана подгруппа, в которую перенеслись все фразы, содержащие слово «Москва» и его словоформы:

Так мы проходимся сверху вниз, выделяя группы, содержащие от двух слов и 30 показов. Например, выделим группу «велосипеды мужчины»:

Но при этом не станем выделять «велосипеды склад» (не хватает частотности):

Также не будем выделять «велосипеды кама» (не хватает количества фраз в группе). Возможно, пример с «камой» не самый удачный, так как этой фразе можно написать объявление с суперрелевантной посадочной. Но на то он и пример.

После того как мы выделили все «продуктовые» группы, переходим на второй «непродуктовый» круг. После его завершения получим иерархию с первым уровнем вложенности. Это исходная группа и подгруппы — «велосипеды москва», «велосипеды недорого» и т. д.

После этого необходимо выделить группу ВЧ-слов. Дело в том, что после первых двух кругов в исходной группе «велосипеды» остались слова, которые не попали ни в одну из подгрупп. Но среди них есть ВЧ, под которые нужно написать индивидуальные объявления. Выделим их в отдельную подгруппу и назовем её «велосипеды_ВЧ». Как и условились ранее, под ВЧ мы подразумеваем фразы от 300 показов:

Окончательный список подгрупп на первой ступени иерархии выглядит так:

Далее повторяем те же шаги, с теми же ограничениями, но уже на уровне подгрупп. И так несколько раз. То есть после полной группировки у нас получается иерархическая структура семантического ядра с большим уровнем вложенности.

  • Исходная группа «велосипеды» разбивается на «велосипеды москва», «велосипеды купить», «велосипеды ВЧ».
  • «Велосипеды москва» разбивается на «велосипеды москва магазин», «велосипеды москва стелс», «велосипеды москва ВЧ».
  • «Велосипеды москва магазин» — на «велосипеды москва магазин интернет».

Окончательная иерархия выглядит как-то так:

Для удобства можно цветом отмечать группы и подгруппы, которые вы уже полностью проработали:

Перенос сгруппированного ядра в Excel-файл

После того как мы проработали всю иерархию — когда она «полностью зелёная», — нужно перенести её в Excel для создания заливочного файла.

К сожалению, в Key Collector нет опции, позволяющей разом выгрузить все ключевики с сохранением структуры в том виде, в котором нам это нужно (ну, или я плохо искал). Придётся работать в «ручном» режиме.

Здесь всё просто: берём по очереди каждую группу из нашей иерархии, копируем ключевики и вставляем в Excel. Группы в Excel называем в соответствии со структурой ядра:

При переносе ВЧ-групп мы обычно дублируем фразы в точном соответствии:

Для массового добавления операторов точного соответствия можно использовать интернет-сервисы или формулы в Еxcel. Для массового удаления минус-слов — инструментом Еxcel «Найти и заменить» (найти «-*» и заменить на » «).

ВЧ-группы удобно выделять цветом (например, синим отмечать группы с несколькими ВЧ-фразами, а красным — с одной). Это поможет на этапе написания объявлений.

Группы с несколькими ВЧ-словами также стоит разбить. Это легко сделать через формулу сцепки в Excel:

Вообще, отмечать группы цветом удобно на каждом этапе работы. Например, отминусовали группу — отметили жёлтым. Сгруппировали — отметили зелёным. Перенесли в Excel — отметили синим. Это поможет при групповой работе над проектом.

После того, как мы полностью скопировали наше сгруппированное семантическое ядро из Кey Collector в Excel, можно приступать к объявлениям.

Добавим вторые варианты объявлений. Для этого копипастим строки, содержащие название группы и само объявление:

После добавления доп. объявлений заполняем копипастами все недозаполненные строки — и наши группы объявлений под заливку почти готовы. Останется доработать файлы в соответствии с форматами «Яндекса» или Google. Победа!

Спасибо всем, кто дочитал до конца. Если статья оказалась для вас полезной, смело делитесь материалом со своими коллегами. Если бесполезной — тоже не держите в себе, пишите. Остались вопросы? Спрашивайте в комментариях.

Авторы статьи:

Анастасия Якунина, production-менеджер в Adventum,
Артур Семикин, performance-менеджер в Adventum.

Первую часть руководства — Как проработать семантическое ядро с помощью Key Collector (подбор масок, добавление и парсинг в Key Collector) — читайте тут.

Мнение редакции может не совпадать с мнением автора. Если у вас есть, что дополнить — будем рады вашим комментариям. Если вы хотите написать статью с вашей точкой зрения — прочитайте правила публикации на Cossa.

Семантические ссылки — Документация

Введение

При определении значения данных может быть полезно указать на другие определения, которые уже известны или понятны. Например, мы могли бы хотелось бы учитывать, что поле «Дата рождения» в одном наборе данных может означать то же самое, что и «Дата рождения» в другом. Однако на практике мы редко обнаружить, что два элемента данных имеют точно такой же контекст. Измерения могут проводиться с использованием другого оборудования; ответы на вопрос в форме могут различаются в зависимости от того, как сформулирован или представлен вопрос; время или порядок сбора данных могут изменить возможные значения.

Чтобы обеспечить более практичный подход, в Mauro Data Mapper мы можем связать два определения, чтобы указать, что одно уточняет другое: оно говорит все, что другое определение говорит, и, возможно, больше. В общем случае это позволяет нам определять абстрактные определения данных с минимальным контекстом (например, как словарь или спецификация данных) и связывать более конкретные определения (например, дизайн формы для сбора данных или описание актив данных).

Мы можем пойти дальше и для любых определений A и B указать, что оба A уточняют B и B уточняют A. Две ссылки вместе подразумевают, что два поля действительно идентичны и имеют один и тот же контекст. На практике мы обнаружили, что это слишком сильное утверждение, и используем его очень редко.


Пример

В качестве примера рассмотрим три определения, данные на диаграмме ниже:

Здесь мы предполагаем, что имя Элемент данных , который может быть «Число слов» , и тип данных, который может быть «Положительное целое число» , одинаковы в каждом случае, и мы сосредоточившись только на пояснительном тексте. Стрелки уточнения представляют утверждения о том, что определения слева и справа являются уточнениями определение в центре. В этом примере описание «количество слов в документе» определяет более абстрактное понятие; описания ‘количество слов в документе по данным Microsoft’ и «количество слов в документе по данным Apple» обеспечивают дополнительный контекст о средствах расчет.

Такие утверждения не могут быть автоматически получены из пояснительного текста. Эти объяснения могут быть субъективными и дадут лишь частичный отчет. контекста. Возможно, потребуется консультация с несколькими людьми, обладающими опытом в области сбора, записи и анализа данных. предоставить точное утверждение о связи между двумя описаниями.

Обратите внимание, что не может быть никакой связи между двумя более конкретными определениями. В этом примере нет прямой связи между Интерпретации ценности Microsoft и Apple — только то, что они оба имеют некоторую общую абстрактную интерпретацию. Конечно, может быть какое-то отображение значений, или алгоритм преобразования, который позволяет преобразовать данные, собранные в соответствии с одним определением, в форму, соответствующую другому определению. В этом случае возможно открытие документа на другом компьютере и повторный запуск подсчета слов. Простые сопоставления, например, при преобразовании единиц измерения, могут быть бесспорными, но в целом они также будут субъективными или пригодными только для определенной цели.


Интерпретация

Есть два непосредственных практических применения связывания информации. Рассматривая приведенный выше пример, сначала предположим, что некоторые активы данных существуют для каждого из двух приведенных выше конкретных определений — некоторые документы, количество слов в которых было рассчитано программным обеспечением Microsoft или Apple. Если для анализа требуется только значение «количество слов в документе» , тогда оба типа данных будут одинаково применимы и могут быть включены в Анализ. Если, однако, требуется подсчет в соответствии с Microsoft, то те документы, количество слов в которых было рассчитано Apple может не подойти.

Другим приложением может быть предоставление данных в соответствии с некоторой спецификацией. Если спецификация данных требует значений в соответствии с нашими абстрактное описание: «количество слов в документе» , и если у нас уже есть значения для этих документов, рассчитанные Microsoft программное обеспечение, то эти значения подходят для предоставления. Если, однако, спецификация более конкретна и требует, чтобы количество слов было определяется программным обеспечением Microsoft, то количество слов, рассчитанное другим программным обеспечением, или, что более важно, любое количество слов в документе, происхождение которого неизвестно , не подойдёт.


В Mauro Data Mapper семантические связи могут быть записаны для любых компонентов модели, но обычно используются между двумя элементами данных в разных моделях данных. Или между значением перечисления в модели и термином в терминологии. Другие сопоставления, например, для указания уточнения между двумя Классы данных могут быть гораздо сложнее интерпретировать и могут использоваться только в определенных обстоятельствах.

Как описано выше, утверждение семантических ссылок может потребовать знания предметной области и не может быть автоматически выведено из текста описания. В Mauro Data Mapper ссылки не создаются автоматически во время загрузки моделей, но могут устанавливаться вручную между отдельными элементами. Однако, Mauro включает в себя инструмент, который будет делать предложения на основе текста описания полей, а также имени поля, имени данных . Тип и содержащий класс данных и любые значения перечисления. Пользовательский интерфейс позволяет пользователям выбирать наилучшее совпадение или выбирать из других альтернативы ранжированы по «самому близкому совпадению» . Хотя это не устраняет необходимость принятия человеком окончательного решения, это может сэкономить время на поиск правильный элемент в целевой модели данных .


Не очищает

Поскольку наши модели могут представлять неполную информацию об артефактах, которые они представляют, и семантических отношениях между ними, мы не можем сделать вывод что никакой утонченности не существует просто потому, что нет уточняет наличие связи. Чтобы записать утверждение, что уточнения не существует, мы можем использовать ** делает не уточнить **ссылка.

В качестве еще одного примера рассмотрим три определения атрибутов, приведенные на диаграмме ниже. Здесь мы имеем более конкретное определение в центре диаграмма: ‘количество слов в документе без учета дефисов’ . У нас также есть утверждение, что это уточняет определение с пояснительным текстом ‘количество слов в документе’ . Если мы примем это утверждение, то любые данные, собранные в соответствии с новым определением, можно будет использовать в любой ситуации, в которой исходное определение было принято.

У нас также есть утверждение, что определение «количество слов в документе по версии Microsoft» не является уточнением этого нового, более конкретного определение. Функция «количество слов» в приложении Microsoft Word обрабатывает фразы, написанные через дефис, как отдельные слова: она не игнорирует дефисы. В Напротив, та же функция в приложении Apple Pages игнорирует дефисы, рассматривая их как пробелы. Например, Word будет считать фраза «сильно связанный» как одно слово, тогда как Pages будет считать его как два слова.

В целом, указание «не уточняет» как универсальное утверждение, предполагая, что нет обстоятельств, при которых элемент А может использоваться в соответствии с к определению B — это сильное утверждение, использование которого будет ограничено. Тем не менее, может быть полезно устранить неоднозначность или установить различие. между двумя одинаково определенными элементами, описания которых могут в противном случае вызвать путаницу.

Чтобы узнать, как добавить семантическую связь между двумя описаниями данных, см. наше руководство пользователя по семантическим ссылкам

.

Семантическая кластеризация ключевых слов для более чем 10 000 ключевых слов [со сценарием]

Семантическая кластеризация ключевых слов может помочь вывести исследование ключевых слов на новый уровень.

В этой статье вы узнаете, как использовать лист Google Colaboratory, доступный исключительно для читателей журнала Search Engine.

Эта статья расскажет вам об использовании листа Google Colab, подробном обзоре того, как он работает внутри, и о том, как внести коррективы в соответствии с вашими потребностями.

Но, во-первых, зачем вообще группировать ключевые слова?

Общие варианты использования кластеризации ключевых слов

Вот несколько вариантов использования кластеризации ключевых слов.

Faster Keyword Research:

  • Отфильтруйте фирменные ключевые слова или ключевые слова, не имеющие коммерческой ценности.
  • Сгруппируйте связанные ключевые слова вместе, чтобы создать более подробные статьи.
  • Сгруппируйте связанные вопросы и ответы для создания часто задаваемых вопросов.

Платные поисковые кампании:

  • Создавайте списки минус-слов для рекламы быстрее, используя большие наборы данных — хватит тратить деньги на ненужные ключевые слова!
  • Сгруппируйте похожие ключевые слова в варианты кампаний для рекламы.

Вот пример скрипта, объединяющего похожие вопросы, идеально подходит для подробной статьи!

Скриншот из Microsoft Excel, февраль 2022 г.

Проблемы с более ранними версиями этого инструмента

Если вы следите за моей работой в Твиттере, то знаете, что я уже некоторое время экспериментирую с кластеризацией ключевых слов.

Ранние версии этого скрипта были основаны на превосходной библиотеке PolyFuzz, использующей сопоставление TF-IDF.

Несмотря на то, что он выполнял свою работу, всегда были некоторые головокружительные кластеры, которые, как мне казалось, можно было бы улучшить.

Слова с одинаковым набором букв будут сгруппированы, даже если они не связаны семантически.

Например, не удалось сгруппировать такие слова, как «Велосипед» с «Велосипед».

Более ранние версии скрипта также имели другие проблемы:

  • Это не работало на других языках, кроме английского.
  • Было создано большое количество групп, которые невозможно было сгруппировать.
  • Не было большого контроля над тем, как создавались кластеры.
  • Сценарий был ограничен примерно 10 000 строк, прежде чем истекло время ожидания из-за нехватки ресурсов.

Семантическая кластеризация ключевых слов с использованием глубокого обучения обработки естественного языка (NLP)

Перенесемся на четыре месяца вперед к последней версии, которая была полностью переписана для использования самых современных встроенных предложений глубокого обучения.

Взгляните на некоторые из этих удивительных семантических кластеров!

Заметили, что «горячие», «теплые» и «теплые» содержатся в одном и том же кластере ключевых слов?

Скриншот из Microsoft Excel, февраль 2022 г.

Или как насчет оптом и оптом?

Скриншот из Microsoft Excel, февраль 2022 г.

Собака и такса, Рождество и Рождество?

Скриншот из Microsoft Excel, февраль 2022 г.

Он даже может объединять ключевые слова на более чем ста разных языках!

Скриншот из Microsoft Excel, февраль 2022 г.

Особенности нового скрипта по сравнению с более ранними версиями

В дополнение к семантической группировке ключевых слов в последнюю версию этого скрипта были добавлены следующие улучшения.

  • Поддержка кластеризации более 10 000 ключевых слов одновременно.
  • Уменьшено число кластерных групп.
  • Возможность выбора разных предварительно обученных моделей (хотя модель по умолчанию работает нормально!).
  • Возможность выбирать, насколько тесно должны быть связаны кластеры.
  • Выбор минимального количества ключевых слов для использования в кластере.
  • Автоматическое определение кодировки символов и разделителей CSV.
  • Многоязычная кластеризация.
  • Готово работает со многими стандартными экспортами ключевых слов. (Данные Search Console, AdWords или сторонние инструменты подсказки ключевых слов, такие как Ahrefs и Semrush).
  • Работает с любым файлом CSV со столбцом «Ключевое слово».
  • Простой в использовании (сценарий работает путем вставки нового столбца с именем «Имя кластера» в любой список загруженных ключевых слов).

Как использовать скрипт за пять шагов (быстрый старт)

Чтобы начать работу, вам нужно будет щелкнуть эту ссылку, а затем выбрать параметр «Открыть в Colab», как показано ниже.

Скриншот из Google Colaboratory, февраль 2022 г.

Измените тип среды выполнения на GPU, выбрав Runtime > Change Runtime Type .

Скриншот из Google Colaboratory, февраль 2022 г.

Выберите Среда выполнения > Запустите all из верхней навигации Google Colaboratory (или просто нажмите Ctrl+F9).

Скриншот Google Colaboratory, февраль 2022 г.

При появлении запроса загрузите CSV-файл, содержащий столбец «Ключевое слово».

Скриншот из Google Colaboratory, февраль 2022 г.

Кластеризация должна быть довольно быстрой, но в конечном итоге она зависит от количества ключевых слов и используемой модели.

Вообще говоря, вы должны быть хороши для 50 000 ключевых слов.

Если вы видите ошибку Cuda Out of Memory Error, вы пытаетесь объединить слишком много ключевых слов одновременно!

(Стоит отметить, что этот скрипт можно легко адаптировать для запуска на локальном компьютере без ограничений Google Colaboratory.)

Выходные данные скрипта

Скрипт запустится и добавит кластеры к исходному файлу в новый столбец с именем Имя кластера.

Имена кластеров назначаются с использованием самого короткого ключевого слова в кластере.

Например, имя кластера для следующей группы ключевых слов было задано как «alpaca socks», поскольку это самое короткое ключевое слово в кластере.

Скриншот из Microsoft Excel, февраль 2022 г.

После завершения кластеризации автоматически сохраняется новый файл с добавлением кластеризованного в новый столбец к исходному файлу.

Как работает ключевой инструмент кластеризации

Этот сценарий основан на алгоритме быстрой кластеризации и использует модели, которые были предварительно обучены в больших объемах данных.

Это позволяет легко вычислять семантические отношения между ключевыми словами, используя готовые модели.

(Вам не нужно быть специалистом по данным, чтобы использовать его!)

На самом деле, хотя я сделал его настраиваемым для тех, кто любит возиться и экспериментировать, я выбрал несколько сбалансированных значений по умолчанию, которые должны быть разумными. для большинства случаев использования людей.

Различные модели могут быть заменены в скрипте и из него в зависимости от требований (более быстрая кластеризация, лучшая многоязычная поддержка, лучшая семантическая производительность и т. д.).

После долгих испытаний я нашел идеальный баланс скорости и точности, используя трансформатор all-MiniLM-L6-v2, который обеспечил отличный баланс между скоростью и точностью.

Если вы предпочитаете использовать свою собственную, вы можете просто поэкспериментировать, вы можете заменить существующую предварительно обученную модель любой из моделей, перечисленных здесь или в разделе Hugging Face Model Hub.

Обмен в предварительно обученных моделях

Обмен в моделях так же прост, как замена переменной именем предпочитаемого преобразователя.

Например, вы можете изменить модель по умолчанию all-miniLM-L6-v2 на all-mpnet-base-v2, отредактировав:

transform = ‘all-miniLM-L6-v2’ 9От 0009

до

трансформатор = ‘ all-mpnet-base-v2

Здесь вы должны отредактировать его на листе Google Colaboratory.

Скриншот из Google Colaboratory, февраль 2022 г.

Компромисс между точностью кластеризации и отсутствием кластерных групп

Распространенная жалоба на предыдущие версии этого скрипта заключается в том, что он приводил к большому количеству некластеризованных результатов.

К сожалению, всегда будет баланс между точностью кластера и количеством кластеров.

Более высокая точность кластеризации приведет к большему количеству некластеризованных результатов.

Существуют две переменные, которые могут напрямую влиять на размер и точность всех кластеров:

min_cluster_size

и

точность кластера

Я установил по умолчанию 85 (/100) для точности кластера и a минимальный размер кластера 2.

При тестировании я обнаружил, что это лучший вариант, но не стесняйтесь экспериментировать!

Здесь можно установить эти переменные в скрипте.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *