Bm25 seo: BM25 алгоритм SEO-оценки текста — MegaIndex.

Содержание

Как рассчитать слова для seo оптимизации — SEO на vc.ru

Расчет документа по BM 25

2328 просмотров

BM25 – данная функция анализирует слова запроса в каждом документе, в беспорядочном количестве терминов и количестве документов не учитывая связь между ними. Это род функций с разными параметрами и компонентами. Okapi BM25 которую разработали в университете Лондона в 1980-х и 1990-х годах и опирается на допустимости модели разработанной Стивеном Робертсоном, Карен Спарк Джоунсом в 1970-х и в 1980-х годах.

Версия BM25 – BM25F является более современные TF-IDF — определяет важность слова применяемое в тексте. Чем длиннее текст, тем больше может быть вхождений в него термина. Однако это не значит, что текст отвечает желаниям посетителей. Для этого используется формула, которая рассчитывает количество применений одного слова к общей сумме слов в документе.TF- частотность вхождений термина к общему числу слов в тексте. IDF – обратная частота документа анализирующие то как регулярно слово встречается в коллекции документов.

Так же надо вспомнить о BM25F – учет релевантности по фактору частотности, где учитывается различность важности зон документа. К примеру предложение в середине текста имеет меньшее значение, чем заголовок.

Особенности ранжирования НЧ запросов

· ВМ25 без учета расстояний между словами. Это значит, что все слова из запроса должны быть в тексте, не важно на каком расстоянии они идут.

· Минимум 1 вхождение в title, текст ссылки

· В рамках шингла (6 слов) должно быть вхождение.

Шингл- это текст, разбитый на определенные отрезки.

Можно использовать блок 2-3 предложения через весь сайт для привлечения шлейфа НЧ.

Текстовое ранжирование

· TF*idf

· Bm25

Текст нужно считать и рассчитывать.

Score = Wsin gle + Wpair + k1 *WAllWords +

k2 *WPhrase + k3 *WHalfPhrase + WPRF

Вхождение 1 слова, вхождение пар слов, есть ли все слова в тексте (фразовое соответствия, пол фразы, часть фразы), где они встречаются и т.

д..

Пример формулы текстового ранжирования

Hdr-сумма весов слова за форматирование. CF-число вхождений леммы в коллекцию. D-число документов в коллекции.

Учет пар слов

Слова запроса встречаются в тексте-1, через слово или в обратном порядке 0.5 Слова из трехсловных запросов через слово идут подряд-0.1.

Учет фраз

Помимо перечисленного является присутствие всех слов запроса, за каждое отсутствующие слово умножается на коэффициент 0.03. Полная формула:

Nmiss-кол-во отсутствующих слов в документе.

Бонус за наличие всех слов в документе.

Концентрация всех слов в тексте (в той зоне), где надо рассматривать если отсутствуют какие-то слова будет штраф, потому что это указанно в формуле.

ВМ25 – модификация ВМ25F в которой документ представляется как совместимость нескольких полей таких как, например, заголовки, основной текст, ссылочный текст, протяженность которых самостоятельно упорядочивается и каждой из которой может быть назначен свой уровень ценности и итоговой функции ранжирования.

ВМ25 – это формула текстового ранжирования которая используется в ПС, для того что бы понять какой текст релевантный по определенному слову, фразе. Соответственно используется в ПС модификация F (что значит field- поле). Считается ВМ25 не для всего документа, а по каждому отдельному полю. Поле может быть, как title, так h2, текст, большой сео текст, так и фрагменты теста, входящих внешних ссылок, внутренних анкоров, исходящих ссылок из документа, то есть посчитать можно по абсолютно разные поля в документе.

Связанные с ВМ25

· Предложения, в которых есть вхождения

· Заголовки

· Различные теги выделений (<b> strong и др.)

· Учет позиции в док-те

· С учётом синонимов в документе

· Различные участки текста

Не относящиеся к ВМ25

· Наличие всех слов в документе

· Точное вхождение

· Позиция в документе

· Вхождение фраз в анкоры исходящих ссылок

· Вхождение лемм

· Релевантные пассажи

· Все выше перечисленное с учетом синонимов.

Тематическая близость-ISI

Ни где не отмечено в факторах ПС слова, которые чаще всего используют сайты из ТОПа.

Тематическая близость, не каким индексом в тематике, условно, что в Топе есть сайты по запросам, которых есть схожий набор слов в тематике который может оказывать влияние на ранжирование. Учитывая, что нельзя найти нормальные синонимы. Очень часто могут оказываться синонимы, слова имеющие отношения к тематике и из-за этого можно понять контент. Можно использовать слова, которые используют конкуренты.

Расчет ВМ25 для 2-х зон документа. Title

Bady (без разбиения на фрагменты). Bady- весь основной контент.

Есть зависимость от контента, но это не значит, что чем больше текста, тем лучше, но вероятность есть.

Важен расчет, может быть дан в видеTF (частота использования слова или фразы), или в виде рекомендаций по количеству вхождений и объему зоны документа. ВМ25 сильно зависит как раз от объема самого документа и от количества вхождений в него.

Выводы

1. Существует зависимость между позицией документа и формулой текстовой релевантности ВМ25.

2. По зоне документа (bady) большой ВМ25 не значит лучше

3. Нужно рассчитывать по разным полям документа

4. ВАЖНО. Расчет возможен по TF

5. Для ВЧ запросов данные отличаются (потому что факторы текстового влияния меньше больше учитывается коммерческие и поведенческие факторы)

Если не известно какое слово использовать по составной фразе, нужно отдать предпочтение более редко встречающемуся слову.

Особенности ранжирования СЧ запросов

СЧ

Title аналогично с НЧ

Необходимость текста

Статистический вес. Перелить вес с не нужных страниц

Работа с сниппетами

Слова имеют разные веса IDF

Анкор лист считается по ВМ25

Вхождение дополнительных слов улучшают релевантность

Все тоже самое, что НЧ

Сам текст, нужно определить нужна ли большая текстовая область, для продвижения СЧ. Определить можно по поисковые выдачи у какого количества конкурентов есть текст, сколько текста, если у 3 конкурентов текст есть значит писать. Так же принимается решение писать текст не большой на страницу СЧ запросов, если туда ведет несколько ключевых фраз, если дополнительных слов нет нужно проверять по конкурентам.

Особенности ранжирования ВЧ запросов

Первое место ПФ занимает кликстрим

Важна связка вопрос + документ

Работа со сниппетами

Корректная работа со всеми остальными факторами

Корректно нужно проработать все факторы для НЧ и СЧ + очень важно соблюдать связку запрос + документ по типу сайта, по типу страницы, с которой идти в ТОП. Количество запросов, которые надо двигать на одной странице. И очень важно поведенческий фактор. Проработать сниппеты. Для более успешного продвижения сайтов seo необходимо учитывать все факторы.

Построение вектора релевантности согласно формуле BM25

Оксана Мамчуева

1016

Автор: команда агентства интеллектуального web-маркетинга Darwin Global

На сегодняшний день в интернете существует множество материалов, касающихся эффективного продвижения, информации о факторах ранжирования от представителей поисковых систем. Несмотря на все эти полезные материалы, не стоит забывать о старенькой формуле BM25. Большинство специалистов области SEO проводили исследования и семинары касательно данной темы. Впервые об этом методе расчета Яндекс заявил девять лет назад. После этого доклада последовала массовая активность в познании расчетов формулы BM25.

Углубляться в историю и дублировать популярные источники типа Wikipedia не будем. Важно, что поисковик, к сожалению или счастью, очень ограничен в возможностях. Он может учитывать только то, что будет объективно, универсально и применимо для математического анализа.

И фактически мы получаем «таблицу или список в базе данных», где на основании каждой заполненной ячейки-признака строится вектор релевантности для каждой страницы.

Напомним, что в докладах специалистов все просчеты формулы BM25 на примерах отображали в таблицах Excel.

Наверное, данный материал полезен к прочтению. Но вот как он может помочь на практике? Особенно seo-компаниям, у которых сотни клиентов. Анализ релевантности, согласно существующей формуле, на выходе становится дорогостоящим и трудозатратным.

В рамках выхода функционала сравнения страницы с конкурентами, специалисты Seo Shield внедрили автоматический просчет релевантности по формуле BM25 и вот, что получилось:

1. Отображение информации о ТОП-10 конкурентов из выдачи Яндекс, Google нужной продвигаемой страницы

2. Отображение сравнительной таблицы со страницей конкурента (все контентные составляющие, основанные на формуле BМ25)

3. Расчет оптимального рекомендуемого кол-ва вхождений слов из запросов на странице (в разных зонах)

Помните, конкурируют не сайты, конкурируют страницы! Обращайте внимание на конкурентов и выполняйте только полезные действия, которые отразятся на результатах ваших интернет проектов.

  • Статьи
  • SEO

Рандомная выдача Яндекса — как с этим жить дальше

Ваш сайт внезапно и беспричинно теряет позиции в выдаче Яндекса? Что делать, и кто виноват? Вероятнее всего, дело в рандомизации поисковой выдачи

Как разбить SEO-задачи по приоритетности и добиться максимальной эффективности в работе

Автор: Рэнд Фишкин (Rand Fishkin) – генеральный директор Moz.

Компания занимается разработкой ПО для оптимизаторов

SEO 2016: Ловкость рук и никакого рандома

Анализируя ситуацию, сложившуюся сегодня на рынке продвижения, хочется начать с фильтров, которыми в прошлом году нас осчастливил Яндекс — АГС— и Минусинск

Максим Матиков: SEO 2.0 – оптимизацию можно и нужно делать эффективной

Разговоры о SEO 2.0 в сети ведутся достаточно давно, первые упоминания в рунете появились еще в 2008 году

Алексей Штарев: Хороним SEO?

Последние три года наблюдается не самая позитивная тенденция встречать новогодние праздники с достаточно грустным, отчасти пессимистичным настроением

Дмитрий Шахов: Хоронить SEO рано, но с трона его уже подвинули

2015 год прошел под знаком борьбы со спамным ссылочным

Молниеносная семантическая поисковая система с использованием BM25 и Neural Re-Ranking

  • Автор сообщения: