Googleoff all noindex: fkn+antitotal | студентам & программистам

12.12.202209.12.2022 alexxlab

Как отдавать роботам 404 — Вопросы новичков

Mukis

Постоялец

12 Июл 2017

Автор темы

Определяете робота(что на 100% сделать нереально) и отдаете ему header 404
Если это не робот, то отдаете сайт.
Основной вопрос в том как определить робота, ту твариантов несколько, либо по юзерагенту, либо искать списки ip адресов роботов. Но оба эти варианта не дадут 100% результата.

Определяете робота(что на 100% сделать нереально) и отдаете ему header 404
Если это не робот, то отдаете сайт.
Основной вопрос в том как определить робота, ту твариантов несколько, либо по юзерагенту, либо искать списки ip адресов роботов. Но оба эти варианта не дадут 100% результата.

Неплохо бы уточнить задачу: вообще всех роботов надо отсеивать? А на сайт откуда тогда будут заходить? Вбивая адрес напрямую? Тогда в принципе по пустому рефереру можно отсекать. Плюс на всякий случай погуглить основные роботы поисковых систем и их отдельно блокировать. Еще можно к примеру на javascript ставить куку по истечению 5 секунд и по отсутствию этой куки блочить (хотя можно и посетителей, быстро переходящих по ссылкам, таким образом заблокировать).

primehostnet
Мастер
12 Июл 2017

Вы не определите робота на 100% ну никак. Рано или поздно будут санкции от ПС за клоакинг (когда контент для робота и для пользователя разные), даже если вы закроете для робота, эти страницы регулярно будут попадать в очередь на индексацию от разного рода плагинов браузера или самого браузера
Вы не определите робота на 100% ну никак. Рано или поздно будут санкции от ПС за клоакинг (когда контент для робота и для пользователя разные), даже если вы закроете для робота, эти страницы регулярно будут попадать в очередь на индексацию от разного рода плагинов браузера или самого браузера

Скоро открываем сервис клоакинга. Сейчас он пока в стадии тестирования (кстати, приглашаем всех желающих потестить).
У нас, в том числе, есть база UA и подсеток всех ботов (около 35К записей).
Есть возможность показывать юзверям нормальный контент, а ботам выдавать другой (в том числе и 404).
Конечно, 100% гарантии определения ботов не может дать никто, но, наш сервис определяет, я думаю, где-то 99.99% всех ботов.
Если будет желание и сайт не очень сильно посещаемый, велком в скайп: live:4e48e4a4f51365c4
Сделаю бесплатно.

m3ow.com
Постоялец
4 Авг 2017

Публикуем наш внутренний тест с уникальными вопросами по SEO. Основная фишка данного теста заключается в том, что на большую часть вопросов невозможно найти ответ просто «погуглив», необходимо обладать практическими знаниями в области продвижения и оптимизации сайтов.
На всех страницах пагинации интернет-магазина указан канонический адрес на главную страницу категории. К примеру, на странице «https://site.ru/smartphone/?page=2» указан каноническим адрес «https://site.ru/smartphone/». Как на практике поведет себя Google и Яндекс по отношению к таким страницам пагинации (при условии отсутствия других запретов и разрешений)?
..и так далее. Все эти директивы работают по-разному, но все они служат одной и той же основной цели: управлять тем, как Google сканирует различные страницы вашего сайта. Например, вы можете использовать meta noindex, чтобы запретить Google индексировать вашу карту сайта, RSS-канал или любую другую страницу, которую вы пожелаете. Этот уровень контроля над тем, какие страницы сканируются и индексируются, полезен, но что, если вам нужно контролировать, как Google сканирует содержимое конкретной страницы? Легкий. Google позволяет нам сделать это с набором из googleon / googleoff тегов.

Это обычный (X)HTML-контент, который будет проиндексирован Google.

Этот (X)HTML-контент НЕ будет индексироваться Google.
<дел>
Ник Мейсон – 2 августа 2009 г.

От Ее Величества королевы. Его ботинки были очень чистыми.

Рик Райт — 3 августа 2009 г.

Каждый год становится короче, кажется, никогда не находить времени.

Дэвид Гилмор – 4 августа 2009 г.

У реки, взявшись за руки, прокатите меня и уложите.

Роджер Уотерс – 5 августа 2009 г.

И через некоторое время вы сможете поработать над очками для стиля.

Этот (X)HTML-контент НЕ будет индексироваться Google.

В этом примере Google не проиндексирует второй абзац. Обратите внимание на параметр « index », который может иметь любое из следующих значений:
index — содержимое, окруженное « googleoff: index », не будет проиндексировано. по гуглу
anchor — текст анкора для любых ссылок в области « googleoff: anchor » не будет связан с целевой страницей
сниппет — содержимое окружено «9»0015 googleoff: фрагмент «не будет использоваться» для создания сниппетов для результатов поиска
все — содержимое, окруженное « googleoff: все », обрабатывается всеми
источник
3
Google игнорирует теги HTML, содержащие data-nosnippet :

Этот текст можно включить в сниппет и эта часть не будет отображаться.

Источник: Специальные теги, понятные Google — встроенные директивы
2
Я работаю над сайтом, который входит в топ-3 рейтинга Google для тысяч названий школ в США, и мы делаем много работы для защиты нашего SEO. Есть 3 основные вещи, которые вы могли бы сделать (которые, вероятно, являются пустой тратой времени, продолжайте читать):
Переместите материал, который вы хотите преуменьшить, в конец вашего HTML и используйте CSS и / или поместите его там, где вы хотите. читатели, чтобы увидеть его. Это не скроет его от поисковых роботов, но они снизят его ценность.
Замените эти ссылки изображениями (вы говорите, что не хотите этого делать, но не объясняете почему)
Предоставьте поисковым роботам другую страницу с удаленными ссылками. В этом нет ничего плохого, пока содержимое в основном такое же, как видит браузер. Поисковые системы будут звонить вам, если вы предоставите страницу, которая значительно отличается от того, что видят пользователи, но если вы уберете RSS-ссылки из версии индекса поисковых роботов, у вас не будет проблем.
Тем не менее, поисковые роботы умны, и вы не единственный сайт, заполненный постоянными и RSS-ссылками. Они заботятся о контексте и ищут термины и фразы в заголовках и основном тексте. Они знают, как определить, что ваш блог посвящен технологиям, а не RSS. Я очень сомневаюсь, что эти ссылки имеют какое-либо негативное влияние на ваше SEO. Какую проблему вы на самом деле пытаетесь решить?
Если вы хотите построить SEO, выясните, какую ценность вы предоставляете читателям, и напишите об этом. Расскажите интересные вещи, которые побудят других ссылаться на ваш блог, и поисковые роботы поймут, что вы являетесь источником информации, который люди ценят. Больше думайте о том, что видят и понимают ваши читатели, и меньше о том, что вы думаю краулер видит.
1
Сначала подумайте о проблеме. Если Google считает, что «RSS» является основным ключевым словом, это может указывать на то, что остальная часть вашего контента немного поверхностна и нуждается в расширении. Возможно, это должно быть в центре вашего внимания. Если остальная часть вашего контента богата, я бы не стал беспокоиться об этой проблеме, поскольку поисковая система должна знать, о чем страница, из заголовка и заголовков. Просто убедитесь, что RSS и т. д. не находятся в заголовке, жирном или строгом теге.
Во-вторых, как вы правильно заметили, вы, вероятно, не хотите использовать изображения, поскольку они не доступны для чтения с экрана без замещающего текста, и если у них есть замещающий текст или вспомогательный текст, вы снова добавляете ключевое слово. Однако aria live может вам помочь. обойти эту проблему, но я не эксперт по доступности.
Параметры :
Используйте JavaScript для записи этого фрагмента контента (возможно, ajax после загрузки). Поисковые системы, такие как Google, могут выполнять JavaScript, но я предполагаю, что они не будут очень высоко ценить любой написанный на JS контент.
Переформулируйте содержимое или удалите его дубликаты. Одна заметная ссылка на RSS-канал может быть лучше, чем несколько более мелких, разбросанных по странице.
Используйте атрибут содержимого css с псевдо: до или: после, чтобы добавить свой контент. Я не уверен, будут ли боты индексировать слова в атрибутах содержимого в CSS и знать, что содержимое имеет значение по отношению к каждой странице, но это кажется маловероятным. Включение таких слов, как RSS в CSS, в основном говорит о том, что это стиль, а не HTML, поэтому, даже если движки будут его индексировать, они не добавят к нему много/какой-либо ценности. Например, HTML и CSS могут быть:
.add-text:after { content:'Просмотреть мой RSS-канал'; }
Обратите внимание, что приведенное выше не будет работать в более старых версиях IE, поэтому вам могут понадобиться некоторые комментарии к версии IE, если вам это нужно.
2
«googleon» и «googleoff» поддерживаются только Google Search Appliance (когда вы размещаете собственные результаты поиска, обычно для своего внутреннего веб-сайта).
Они вообще не поддерживаются веб-поиском Google. Поэтому, пожалуйста, воздержитесь от этого, и я думаю, что это не следует помечать как правильный ответ, поскольку это может создать двусмысленность.
Теперь, чтобы заставить Google исключить часть страницы, вам нужно поместить этот контент в отдельный файл, например, exclude.html, и использовать iframe для отображения этого контента на главной странице.
Тег iframe извлекает содержимое из другого файла и вставляет его на главную страницу. Я думаю, что другого доступного метода пока нет.
Единственным средством управления индексирующими роботами является файл robots.txt. См. эту документацию, связанную Google на их странице, объясняющую использование файла.
Вы можете запретить определенные ссылки и URL-адреса, но не обязательно ключевые слова.
1
Кроме черных методов на стороне сервера, вы ничего не можете сделать. Вы можете посмотреть, почему у вас так часто встречаются эти слова, и удалить некоторые из них с сайта.
Раньше вы могли использовать JS, чтобы «скрыть» что-то от googlebot, но теперь вы не можете этого сделать, поскольку он анализирует JS. ( http://www.webmasterworld.com/google/4159807.htm )
2
Поисковые роботы Google умны, но тот, кто их программирует, умнее всех. Человек всегда видит на странице то, что разумно, он будет проводить время в блоге, который имеет хороший контент и является самым редким и уникальным. Все дело в здравом смысле, в том, как люди посещают ваш блог и сколько времени они тратят на него. Google измеряет результаты поиска таким же образом. Рейтинг вашей страницы также увеличивается по мере увеличения ежедневных посещений, а содержание сайта улучшается и обновляется каждый день. На этой странице несколько раз повторяются слова «Ответ». Это не значит, что он не будет проиндексирован. Это насколько полезно для каждого. Я надеюсь, что это даст вам некоторое представление
1
вы должны вручную обнаружить «Google Bot» из пользовательского агента запроса и передать им контент, немного отличающийся от того, который вы обычно предоставляете своему пользователю.