друзья или враги — ppc.world
6391 https://ppc.world/uploads/images/63/ee/5d5aa172d3f24-stop.jpg 2019-08-20 2019-08-20 Яндекс Директ Google Ads ppc.world https://ppc.world/ https://ppc.world/build/resources/img/logo-v2.png 160 31- Яндекс Директ 1
- Google Ads 1
- 20. 08.2019
- 7637
- Для специалистов
Избранное
В октябре в Москве пройдет ключевое событие по контексту — конференция SEMconf. Если вы еще раздумываете над участием, читайте доклад эксперта по контекстной рекламе Дмитрия Тумайкина. Его выступление участники признали одним из лучших в прошлом году. В конце материала — видеозапись доклада.
Дмитрий Тумайкин OZON travel
Статья из серии материалов «Конференция SEMconf 2019» К спецпроектуМногие, уверен, знают, что такое стоп-слова и чем они отличаются от минус-слов.
«Стоп-слова — служебные части речи и местоимения, а также любые слова, не несущие дополнительного смысла, которые автоматически исключаются из запроса пользователя при отборе объявлений для показа». Справка Директа
Главное отличие стоп-слов заключается в том, что они детерминированы, а минус-словом может быть любое слово. Основное в определении стоп-слов — то, что это слова, не несущие смысла. Однако это понятие относительное. Есть «неоднозначные» стоп-слова, например, «то» (техобслуживание), «тех» (тех характеристики = технические характеристики), «тем» (много интересных тем). И зачастую стоп-слова кардинально меняют смысл фраз. Именно это и есть главная мысль этого материала.
Точный список стоп-слов Директа неизвестен и постоянно меняется. По моим наблюдениям, недавно из него удалили все украинские стоп-слова.
Как определить стоп-слова?
Я знаю четыре способа:
- Через заведение группы в интерфейсе: слова без стоп-слова и со стоп-словом «схлопываются», остается только слово без стоп-слова.
- Через кросс-минусовку и удаление дублей в Коммандере.
- Через Прогноз бюджета в интерфейсе: если при запросе частотности система ругается «Ключевая фраза не может состоять только из стоп-слов: союзов, предлогов, частиц». Причем, в отличие от Вордстата, не дает это сделать даже с применением операторов.
- Через Wordstat Яндекса: если отдает 0 показов по слову:
Удивительное в том, что эти варианты отдают разные данные, есть небольшой рассинхрон. Я взял за истину Прогноз бюджета в интерфейсе, так как считаю, что это самый приоритетный продукт. На текущий момент мной найдены 295 имеющих смысл слов:
a about all an and any are as at be but by can do for from have i if in is it my no not of on one or so that the there they this to was we what which will with would you а будем будет будете будешь буду будут будь будьте бы был была были было быть в вам вами вас весь во вот все всё всего всей всем всём всеми всему всех всею всю вся вы да для до его ёго ее её ёё ей ёй ему ёму если ест есть еще ещё ею же за и из или им ими их к как кем ко когда кого ком кому которая которого которое которой котором которому которою которую которые который которым которыми которых кто меня мне мной мог моги могите могла могли могло могу могут мое моё моего моей моем моём моему моею можем может можете можешь мои моим моими моих мой мочь мою моя мы на нам нами нас наш наша наше нашего нашей нашем нашему нашею наши нашим нашими наших нашою нашу не нё него нее неё ней нем нём нему нет нею ним ними них но о об один одна одни одним одними одних одно одного одной одном одному одну он она они оно от по при с сам сама самим самими самих само саму свое своё своего своей своем своём своему своею свои своим своими своих свой свою своя себе себя собой собою та так такая такие таким такими таких такого такое такой таком такому такою такую те тё тебе тебя тем тём теми тех то тобой тобою того той только том тому тот тою ту ты у уже чего чем чему что чтобы эта эти этим этими этих это этого этой этом этому этот эту я
Для Google Ads список стоп-слов может быть шире: каких-то ограничений на это в Ads нет необходимости устанавливать. Фактически Ads может посчитать стоп-словом любое слово, перед которым вы не поставите модификатор широкого соответствия — выбор стоп-слов за вами.
Работа с операторами
Работа со стоп-словами подразумевает проставление либо удаление модификаторов перед ними.
Удалять модификаторы может быть нужно в нескольких случаях:
- Запрос в Директе состоит из семи слов без стоп-слов, с модификаторами — система не пропустит.
- Есть риск потерять охват из-за того, что пользователи могут не употреблять стоп-слова в запросе, а эквивалентных фраз без стоп-слов нет.
- Стоп-слова добавлены умышленно, для приукрашивания шаблонных заголовков.
Проставлять модификаторы нужно во всех обратных случаях.
Поскольку подход к стоп-словам в Директе и Ads различный, я сделал в своей надстройке два списка стоп-слов: общий и только для Директа. Каждый из списков можно использовать в макросах: удалить стоп слова, удалить операторы перед ними, проставить операторы «!» или «+». Выбор операторов обусловлен тем, что некоторые стоп-слова склоняются, например, весь, все, всех, всем и т. д.
Стоп-слова как маркер интента
Стоп-слова можно классифицировать по интенту. Этот лайфхак я обнаружил довольно давно и пользовался им при проработке минус-слов. Он заключается в том, что стоп-слова в сочетании с продвигаемой сущностью (услуга или товар) могут характеризовать запрос пользователя как релевантный или нерелевантный. На пути пользователя (customer journey map) основополагающий параметр, влияющий на взаимодействие с продуктом/услугой — временной промежуток. Утрируя, это до и после. Также пользователь может сомневаться и искать альтернативы — это происходит во время основного поиска.
Исходя из этого, я промаркировал стоп-слова по интенту, чтобы на их основе вычислять нерелевантные запросы.
До
Сюда входит много запросов, связанных с людскими страхами, сомнениями и стремлением их развеять путем обращения к поиску. Это — «теплая» аудитория, как правило, она не отличается высокой конверсией, но при умелой работе может приносить прибыль, так как зачастую с ней предпочитают не возиться и оставляют на потом ваши конкуренты.
Слова-маркеры:
- перед
- какой/какая/какие… + сущность
- вред
- последствия
- если
- о/об + услуга/товар
- при + услуга в сфере услуг
- ли (больно ли, вредно ли, стоит ли, нужно ли, можно ли, возможно ли, хорошо ли, правда ли…)
- и, разумеется, до + услуга — в сфере услуг
После
Сюда относятся поисковые запросы, обозначающие возникающие у пользователя проблемы уже после покупки товара или услуги. Это могут быть какие-либо дефекты товара или последствия некачественно оказанной услуги, необходимость замены, возврата, ремонта товара или поиск консультационного материала (что делать и как действовать в новых реалиях).
Основные маркеры:
- для + сущность
- под/подо + сущность
- на + сущность (кроме маркеров покупки: цена на товар, скидки на товар)
- в/во + сущность
- к/ко + сущность
- от + сущность
- сущность + не
- сущность + глагол (кроме глаголов-маркеров покупки)
- как (в товарной семантике, кроме фраз с маркерами покупки)
- после + сущность — в сфере услуг
Вместо
Здесь все просто: пользователь или вовсе не наш потенциальный клиент, или вероятность этого около 100%. Он ищет альтернативу нашему продукту, причем необязательно платную. Видов подобных интересов и деятельности много, портреты пользователя могут быть совершенно разные:
- Студент или специалист. Ищет статьи, рефераты, курсовые, курсы, образовательные заведения и т. д.
- DIY-энтузиаст. Ищет руководства и инструкции, пытается все сделать своими руками.
- Любитель порно.
- Искатель смысла. Интересуется сонниками, гороскопами, приметами, молитвами, гаданиями, приворотами и т. д.
- Геймер.
- Заядлый онлайнер. Его поведение перекликается с некоторыми вышеупомянутыми. Ищет анекдоты, приколы, видяхи, дровишки, софт, обои для рабочего стола и прочие похожие сущности. Эти слова не относятся к стоп-словам, но без их использования проработка нецелевой семантики была бы менее эффективной.
Из стоп-слов, характерных для подобного портрета:
- без + сущность
- вместо + сущность
- зачем + сущность или сущность + зачем
- почему + сущность или сущность + почему
- или + сущность или сущность + ли
- ли + сущность или сущность + ли
И этот список далеко не полный и будет существенно пополняться.
Минус-слова через стоп-слова — подробный алгоритм подбора
Как делается:
-
Выбираем нерелевантный интент.
-
Выбираем стоп-слова, характеризующие его.
-
Анализируем порядок следования стоп-слов и продвигаемой сущности.
-
Выбираем из семантического ядра все фразы с зафиксированными последовательностями. На этом этапе есть два варианта:
-
более точный, когда мы берем строго одно слово перед/после стоп-слов;
-
менее точный, но на выходе больше слов: составляем частотный словарь полученной семантики.
-
-
Удаляем очевидно полезные слова: маркеры покупки, эпитеты, геомаркеры, стоп-слова.
-
Profit! На самом деле все равно нужно пройтись по списку глазками.
Неочевидные сложности и их решение
- Непросто определить часть речи (глагол).
- Иногда между стоп-словом и продвигаемой сущностью может быть другое слово (например, эпитет). Если его предварительно не удалить, фраза не будет отфильтрована.
- Услуга может использоваться в запросе в любом склонении, поэтому нужна либо морфология, либо использование услуги во всех склонениях. Немного пожертвовав юзабилити и упростив разработку, я выбрал второй вариант.
Есть алгоритм — есть скрипт! Подбор слов от интента возможен в один клик в SEMTools. Публикация надстройки с реализованным в ней скриптом, делающим все это в один клик, совпадает с моим выступлением на SEMConf 14 сентября 2018 года.
Подпишитесь, чтобы получать полезные материалы о платном трафике
Нажимая кнопку, вы даете согласие на обработку персональных данных
Читайте также
Ко всем статьямСтоп-слова в контекстной рекламе Яндекс.
Директа и Google AdsВ этой статье расскажу очень коротко и только самое главное о том, что нужно знать о стоп-словах в контекстной рекламе, какие они бывают в Google Ads и Яндекс.Директ и как их влияние меняет полностью смысл ключевых фраз и режет охват по показам объявлений.
Стоп-слова (шумовые слова) в контекстной рекламе — это знаки, символы, служебные части речи, местоимения, союзы, междометия, и любые слова не несущие самостоятельно никакой смысловой нагрузки, они игнорируются рекламными системами.
В официальной справке Google Ads нет информации о стоп-словах и их применении в ключевых фразах или минус-словах. До замены модификатора широкого соответствия на фразовое соответствие, считалось, что стоп-словом может быть любое слово в ключевой фразе перед которым не стоит модификатор широкого соответствия, а именно знак «+». Например, «+квартира +Москва купить» вместо слова «купить» подставлялись слова «цена» или даже «ремонт», т. е. рекламная система могла игнорировать слово «купить» и подставляла вместо него другие слова и это не всегда были синонимы.
Список стоп-слов Директа периодически меняется, можно посмотреть его в официальной справке, в конце страницы есть раскрывающийся список «стоп-слова».
Скриншот из справки Директа
Стоп-слова делятся на две роли «общие» и «зависимые».
Роль «общих» стоп-слов в ключевой фразе не меняет изначального смысла и должна удаляться из ключевой фразы чтобы не резать охват.
Роль «зависимых» стоп-слов в ключевой фразе, напротив, имеет такое значение, что без стоп-слова ключевая фраза теряет полностью или частично изначальный смысл.
Самый простой и быстрый способ через Яндекс Wordstat:
- если отдает ноль в ответ на введенный запрос
- если в списке запросов слово зафиксировано оператором «+»
Скриншот из Яндекс Wordstat
Скриншот из Яндекс Wordstat
Применение операторов в стоп-словах поможет не только выявить стоп-слова, но и заставить Директ учитывать их в ключевых фразах и минус-словах:
- намерено заставить Директ учитывать стоп-слова в ключевых фразах можно применив к ним оператор «+» (например: квартира +в Москве)
- намерено заставить Директ учитывать стоп-слова в минус-словах можно применив к ним оператор «!» (например: -!в, -!что, -!и, -!из, -!как, и тп. ) или оператор «+» (например: -+в, -+что, -+и, -+из, -+как, и тп.)
Рассмотрим примеры применения «общих» стоп-слов и как «зависимые» стоп-слова могут менять полностью или частично смысл в ключевых фразах.
«пройти МРТ в Москве» и «пройти МРТ Москва» — не зафиксированный предлог «в» (стоп-слово) в ключевой фразе оператором «+» будет проигнорирован. Для Директа эти ключевые фразы будут одинаковы, и если предлог «в» просто удалить смысл ключевой фразы не изменится.
«билет +в Москву» и «билет +из Москвы» — использование разных предлогов «в» и «из» (стоп-слов) в ключевой фразе показывает принципиально разное намерение пользователя в запросах купить билет в Москву или из Москвы.
«бочка +для солений» и «соленья +в бочке» — использование разных предлогов «для» и «в» (стоп-слов) в ключевой фразе показывает разный продукт для пользователя в запросах где он может искать бочку для солений или соления в бочке.
Яндекс. Директ может объединять повторяющиеся стоп-слова (дубли) или заменить любым другим словом. Например, если добавить в рекламную кампанию ключевую фразу «купить авто +в кредит +в Москве», предлоги «в» засчитываются как одно слово. В результате объявление может быть показано по запросу «купить авто кредит в Москве» или «купить бу авто кредит в Москве», что может быть совершено не релевантно изначальным целям.
Если не почистить ключевые фразы от «общих» стоп-слов, рекламная кампания неизбежно потеряет часть показов рекламных объявлений по целевым запросам, а значит потеряет и клики и конверсии. Например, добавив в кампанию ключ «квартира +в Москве», показ объявления будет только по запросам где есть все эти 3 слова. По целевым запросам «квартира Москва» или «купить квартиру Москва» показа объявления уже не будет, такие ключ без предлога «в» нужно добавлять дополнительно в кампанию. Но если в кампании будет один ключ «квартира Москва», показ объявлений будет по запросу и «квартира Москва» и «квартира в Москве».
С удалением «общих» стоп-слов в минус-словах нужно быть более внимательным, не удалять абсолютно все стоп-слова. Некоторые «информационные» стоп-слова можно добавить сразу на этапе сбора семантики, чтобы не показываться по не релевантным запросам. Информационные запросы выглядят примерно так: +что выбрать, +как сделать, +своими руками, и тп. И не добавлять все подряд без разбору, чтобы не порезать охваты так же, как в ключевых фразах. Бывает, что стоп-слово есть в целевом и не целевом запросе одновременно, например, «+как выбрать врача» и «+как записаться +к врачу» в таком случае нужно добавлять в список минус-слов фразу применив к ней операторы -[!как выбрать].
ВКонтакте @kirillgalchenko
Telegram @g_kirill
рубинов на рельсах. Есть ли функция для работы со стоп-словами, такими как «the» в Sphinx?
спросил
Изменено 11 лет, 5 месяцев назад
Просмотрено 2к раз
В данный момент я использую Thinking Sphinx для поиска отелей. У меня есть один пункт под названием «Манхэттенский клуб». Когда я ищу «Манхэттенский клуб», я не получаю результатов. Это связано с тем, что параметр по умолчанию :all означает, что должны совпадать все слова.
Затем я использую опцию :any (любое совпадение слов будет считаться совпадением). Однако это приводит к большому количеству результатов: в описании лучшего отеля много «ТО».
Я думаю, что единственный способ повысить релевантность — удалить все стоп-слова в строке поиска. Мне интересно, есть ли в Sphinx (или Ruby) функция удаления стоп-слов?
- ruby-on-rails
- ruby
- полнотекстовый поиск
- sphinx
- think-sphinx
Я понятия не имею, как именно вы могли бы это сделать, думая о сфинксе, но да, у Sphinx есть стоп-слова
http://sphinxsearch.com/docs/current.html#conf-stopwords
Это входит в ваш индекс определение в файле sphinx.conf. indexer имеет инструменты, которые помогут вам создать список общих слов, чтобы помочь создать начальный файл стоп-слов.
http://sphinxsearch.com/docs/current.html#ref-indexer
Вы можете установить путь к файлу стоп-слов в config/sphinx.yml, который организован как config/database.yml (по среде):
разработка: стоп-слова: "/path/to/stopwords.txt"
Что именно содержится в файле стоп-слов, в ответе Барри есть соответствующие ссылки.
Чтобы удалить высокочастотные слова из индекса Sphinx, вам необходимо использовать директиву стоп-слов в определении вашего индекса:
источник my_source { ... } индекс мой_индекс { источник = мой_источник путь = /путь/к/моему/индексу ... стоп-слова = /путь/к/стоп-словам/файлу }
Где файл стоп-слов — это просто построчный список слов, которые вы хотите удалить из индекса Sphinx. Индексатор проигнорирует эти слова и не добавит их в index.
Еще один способ улучшить проверку релевантности, если в конфигурации индекса включена опция морфологии. Вы также можете поиграть с Ranker для каждого запроса.
Ссылки:
Предварительно созданные файлы стоп-слов: http://astellar.com/2011/12/stopwords-for-sphinx-search/ Морфология: http://sphinxsearch.com/docs/current.html#conf-morphology
.Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google Зарегистрироваться через Facebook Зарегистрируйтесь, используя адрес электронной почты и парольОпубликовать как гость
Электронная почтаТребуется, но никогда не отображается
Опубликовать как гость
Электронная почтаТребуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания и подтверждаете, что прочитали и поняли нашу политику конфиденциальности и кодекс поведения.
База данных— Как сбросить стоп-слова в MYSQL?
спросил
Изменено 6 лет, 3 месяца назад
Просмотрено 9к раз
Я хочу сбросить список стоп-слов в mysql для полнотекстового поиска. Я установил сервер WAMP в своей системе, в которой есть phpmyadmin для доступа к mysql. Но я не знаю, как сбросить стоп-слово в phpmyadmin. Может кто-нибудь, пожалуйста, скажите мне, как это сделать.
Я также http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_ft_stopword_file прочитал эту ссылку, но не знаю, как ее использовать ???
- mysql
- база данных
- поиск
- полнотекстовый поиск
- стоп-слова
Я предполагаю, что вы используете WampServer.
Щелкните значок на панели задач, выберите MySQL
, затем щелкните my.ini
. Файл конфигурации откроется в блокноте. Перейдите в конец файла и добавьте эту строку (после строки порта):
ft_stopword_file=''
для отключения стоп-слов. Если вы хотите использовать пользовательский файл стоп-слов, замените эту строку на:
ft_stopword_file='путь/к/stopword_file.txt'
(конечно, указать путь к файлу стоп-слова).
После установки этой строки сохраните файл конфигурации (Файл -> Сохранить). Затем щелкните значок в трее, выберите MySQL
, затем Служба
, затем щелкните Перезапустить службу
.
Чтобы убедиться, что ваша конфигурация выполнена правильно, откройте phpMyAdmin
в браузере, щелкните вкладку Переменные
вверху, затем найдите ft стоп-слово файл
и посмотреть значения, которые установлены для него.
У меня та же проблема, я не думаю, что вам нужно что-то перекомпилировать, я читал, что вы можете использовать консоль mysql SET ft_stopword_file=’path/to/stopword_file. txt’, которая не требует перезапуска вашего сервер. но я не думаю, что это продлится до следующего перезапуска, поэтому я попробую файл конфигурации и посмотрю, работает ли он
Список стоп-слов, с которыми поставляется MySQL (по крайней мере, для MyISAM), можно найти в Исходник MySQL, в myisam/ft_static.c
.
Также обратите внимание, что это только английские стоп-слова. Предположительно, стоп-слова для других языков определены в другом месте…
Вы можете переопределить или отключить список стоп-слов по умолчанию, используя директиву ft_stopword_file
, как указано в комментариях. Полная документация здесь.
у меня была такая же проблема. файл стоп-слов должен быть включен в раздел [mysqld] файла my.ini.
[mysqld] ft_stopword_file = ‘D:/stop.txt’, тогда
ремонтная таблица tablename сработала для меня.
Список стоп-слов для использования можно найти здесь: https://dev.mysql. com/doc/refman/5.6/en/fulltext-stopwords.html. Я сохранил этот список в файл и сослался на него из конфигурационного файла MySQL (например, ft_stopword_file='path/to/stopword_file.txt'
).
Я удалил «это» и «нас» из списка стоп-слов, потому что они означают «Информационные технологии» и «Соединенные Штаты» в моей предметной области.
К сожалению, каждый раз, когда вы меняете список стоп-слов, вам приходится перезапускать MYSQL и перестраивать полнотекстовый индекс.
1Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google Зарегистрироваться через Facebook Зарегистрируйтесь, используя адрес электронной почты и парольОпубликовать как гость
Электронная почтаТребуется, но никогда не отображается
Опубликовать как гость
Электронная почтаТребуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания и подтверждаете, что прочитали и поняли нашу политику конфиденциальности и кодекс поведения.