Что такое user agents, зачем они нужны, где их брать и как использовать
JavaScript отключён. Для полноценно использования нашего сайта, пожалуйста, включите JavaScript в своём браузере.
- Автор темы StalkerOK
- Дата начала
- Ответы 0
- Просмотры 402
PIRATECPA
Добро пожаловать на борт судна! Юзер-агенты (user-agents) выполняют важную роль в мире интернета и маркетинга. Они представляют собой строку текста, которая идентифицирует браузер, операционную систему и другие характеристики устройства пользователя. По сути, юзерагент это строка, в которой содержатся данные об: идентификаторе браузера, операционной системе, устройстве и многом другом.
Пример user-agents
Для наглядности приведем несколько примеров юзерагентов:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 YaBrowser/20.9.3.136 Yowser/2.5 Safari/537.36
Mozilla/5.0 (iPhone; CPU iPhone OS 13_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.4 Mobile/15E148 Safari/604.1
Mozilla/5.0 (Linux; Android 10; Redmi Note 7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.91 Mobile Safari/537.36
Как видим, юзерагенты это действительно набор данных об устройстве. Даже неопытный интернет пользователь может заметить некоторые знакомые слова среди этих переменных. Например, в первом случае мы видим юзер агент ПК устройства, остальные агенты принадлежат мобильным девайсам.
Где применяются user-agents
Применение юзер агентов включает в себя:- Адаптивный дизайн: cерверы могут использовать информацию о юзер агенте для определения типа устройства (например, мобильное или настольное) и предоставления соответствующей версии сайта, оптимизированной для данного устройства.
- Совместимость с браузерами: разные браузеры могут по-разному интерпретировать и отображать веб-страницы. Юзер агенты позволяют веб-серверам определить, какой браузер использует клиент, и предоставить версию сайта, которая будет корректно работать с этим браузером.
- Статистика и аналитика: юзер агенты используются для сбора статистических данных о посетителях сайта, таких как используемые браузеры, операционные системы и устройства. Эта информация может быть полезна для анализа трафика и определения требований к поддержке различных платформ.
- Безопасность и аутентификация: юзер агенты могут использоваться для определения подозрительных запросов и блокировки потенциально вредоносных активностей. Например, веб-серверы могут блокировать запросы от известных ботов или сканеров уязвимостей.
- Web-scraping и автоматизация: в некоторых случаях разработчики могут использовать специальные юзер агенты для автоматического сбора данных с веб-сайтов или выполнения других задач. В этом контексте юзер агенты могут быть использованы для маскировки ботов под обычных пользователей, чтобы обойти ограничения, установленные веб-серверами.
Где брать user-agents
Самое банальное, что можно порекомендовать в данном случае – просто вбить в поисковую строку запрос: “Списки user agents”. Вам выдаст сотни сайтов, где вы сможете добыть желанные юзеры и даже спокойно использовать их.Однако, нам важно получить не просто рандомные значение, а актуальные данные. Используя старые юзер агенты можно столкнуться с рядом ошибок, а также не решить свою задачу по маскировки себя в сети.
Для того, чтобы брать актуальные данные об юзерагентах необходимо знать авторитетные ресурсы их поставки. Разберем парочку из них:
- Сайт WhatIsMyBrowser (User Agents — Parser and API — Easily decode any user agent): ресурс с огромной базой юзер агентов, сортированной по: операционным системам, браузерам, девайсам и другим критерием. Содержит в себе более 160k строк начиная от первых версий хрома, заканчивая юзерами умных часов.
- Сайт SeoLik (Список актуальных User Agent): содержит в себе 1000 разных User Agent, которые обновляются несколько раз в день. Данные разделены на мобайл и десктоп устройства.
Как использовать user-agents
Предположим, что вы взяли свой желанный юзер агент и теперь думайте как его применить. Для этого есть множество способов, но мы расскажем о самых удобных и быстрых:- Google Chrome:
- Воспользуйтесь инструментами разработчика:
- Откройте инструменты разработчика, нажав F12 или выбрав “Инструменты разработчика” в меню “Дополнительные инструменты”.
- Нажмите на иконку шестеренки в правом верхнем углу, чтобы открыть настройки.
- В разделе “Network” найдите “User agent” и выберите желаемый User-Agent из списка или введите свой.
- Mozilla Firefox:
- Используйте расширение, такое как User-Agent Switcher (User-Agent Switcher – Get this Extension for Firefox (en-US)) для быстрой подмены User-Agent.
- Измените настройки браузера:
- В адресной строке введите “about:config” и нажмите Enter.
- Нажмите “Принять риск и продолжить”.
- В поисковой строке введите “general. useragent.override”.
- Если параметр существует, дважды кликните по нему и введите новый User-Agent. Если параметра нет, щелкните правой кнопкой мыши и выберите “Новый” -> “Строка”. Введите “general.useragent.override” в качестве имени и установите значение для нового User-Agent.
- Safari:
- В Safari нет встроенной опции для изменения User-Agent, но вы можете использовать расширение, такое как User-Agent Switcher (https://apps.apple.com/us/app/user-agent-switcher/id1436643111?mt=12) для этой цели.
Хотим донести до вас мысль, что подмена User-Agent влияет на работу некоторых сайтов, так как они определяют ваш браузер на основе предоставленной информации об юзер агентах.
Итог
Юзер агенты играют важную роль как среди обычных людей, так и среди работников сети. Они дают возможность маскировки и анонимности, понимание пользовательского опыта, контроль качества вебсайтов. Используйте подмену юзерагентов с умом и не забывайте об актуальности используемых данных.
Нажмите, чтобы раскрыть…
Автор
StalkerOK
Moderator
- Сообщения
- 4.322
- Реакции
- 2.563
Назад
Верх
Настройки профиля браузера | Octo Browser Docs
Настройки браузерного профиля — это набор параметров, которые настраиваются при создании профиля и на основе которых сайты и сервисы будут получать информацию о Вашей системе, формируя fingerprint.
Настройки, генерируемые по умолчанию, подходят для подавляющего большинства пользователей. Все генерируемые параметры отпечатков подобраны для максимальной совместимости, при изменении некоторых параметров (user-agent) может нарушаться целостность. Перед изменением параметров профиля браузера вручную внимательно ознакомьтесь с документацией и выполняйте настройку осознанно.
Каждая сборка Chromium имеет свои особенности. В Octo Browser выдаются отпечатки с максимальной совместимостью. Если вы хотите перенести аккаунт с другой системы, то:
- При выборе отпечатка, генерируйте с такой же ОС, с которой переносите аккаунт (например для Win отпечаток Win)
- Устанавливайте аппаратные настройки максимально близкие к системе, с которой переносите (cpu / ram / video)
- В настройках user-agent можете сменить версию ОС, но версию Chrome не рекомендуем менять (например можно заменить Windows 10 на Windows 6.1, для этого Вы должны обладать соответствующими знаниями)
- Можно устанавливать разрешение экрана и другие особенности системы так же, как в той, с которой переносите аккаунт
- User-agent должен быть валидным и без лишних знаков или знаков переноса строки (вначале или конце), то есть быть в 1 строку
Версию Chrome крайне желательно использовать по умолчанию. Используемая версия Octium основана на последней версии Chromium.
Основные настройки
Шаблон — можно выбрать шаблон или указать “Без шаблона”. Если шаблон выбран, настройки профиля будут сформированы исходя из настроек указанного шаблона. Если какой-то из шаблонов “активен”, по умолчанию при создании нового профиля он будет применяться и отображаться в данном поле, где применение шаблона можно отключить или изменить шаблон.
Имя профиля – обязательное поле для заполнения. Вы можете задать имя для профиля, которое будет отображаться в списке.
Описание профиля – дополнительное поле, в котором для удобства пользования можно хранить нужную информацию о профиле.
Иконка профиля – опция, благодаря которой можно выбрать иконку из предустановленных или же загрузить новые иконки, которые будут отображаться в таблице слева от названия профиля для удобства навигации и поиска в таблице.
Количество доступных иконок для загрузки зависит от подписки. Для подписки Starter – 3, для Base – 5, для Team – 10, для Advanced и Custom – 20 иконок.
Операционная система – выбор операционной системы профиля. При создании профиля по умолчанию используется операционная система, установленная в устройстве пользователя. При этом в момент создания профиля можно изменить операционную систему профиля (в данный момент можно выбрать между Windows и MacOS). На основе выбранной версии ОС будет сгенерирован fingerprint. Версии операционных систем в генерируемых отпечатках Windows 10, MacOS 10.14 и последующие. После того, как профиль создан и сохранен, операционную систему профиля изменить нельзя.
Теги – метки для фильтрации, аналогично папкам, позволяющие удобно фильтровать нужные профили в таблице. В каждом профиле может быть как несколько тегов, так и не быть их вовсе. Ограничение на количество тегов соответствует условиям выбранной подписки.
Стартовая страница – поле, в котором при необходимости можно задать стартовую страницу. Каждый раз при запуске будет открываться стартовая страница на первой вкладке вместе с ранее открытыми вкладками в профиле. Добавить можно не более 20 стартовых страниц.
Предусмотрено два способа добавления стартовых страниц:
- Единичное добавление стартовых страниц в список с указанием URL адреса. По нажатию на кнопку «Добавить стартовую страницу» можно расширить список.
- Добавление нескольких стартовых страниц одним действием. Нажмите кнопку «Добавить сразу несколько» скопируйте и вставьте список URL адресов с разделителями в виде разрыва строки, либо пробела. Список стартовых страниц расширится. Добавить можно не более 20 стартовых страниц.
Закладки — поле для добавления и сохранения избранных ссылок на web-ресурсы в меню «Закладки» в профиле, с возможностью присвоения названия для каждой ссылки. Предусмотрено два способа добавления закладок:
- Единичное добавление закладок в список с указанием названия и URL адреса, на который ведет клик по закладке. По нажатию на кнопку «Добавить закладку» можно расширить список.
- Добавление нескольких закладок одним действием. Нажмите кнопку «Добавить сразу несколько» скопируйте и вставьте список URL адресов с разделителями в виде разрыва строки, либо пробела. Список закладок расширится и названия для закладок будут использоваться из имени домена ссылки (google.com, ebay.com и тд). Названия можно изменить после массового добавления. Единовременно можно добавить до 100 ссылок.
Общие настройки
Юзерагент – идентификатор клиентского приложения, сформированный на основе выбранной системы в предыдущем окне (основные настройки профиля). Юзерагент содержит информацию о подменяемом устройстве, операционной системе и версии браузера. Для наилучшей совместимости рекомендуется воспользоваться генерацией. Изменять юзерагент можно вручную, но это может повлиять на целостность формируемого отпечатка. Мы не рекомендуем это делать.
В данный момент на MacOS реализовано большее количество юзерагентов, чем на Windows. При генерации во время создании профиля юзерагенты иногда могут совпадать. Это наилучший вариант, если ваша задача – слиться с общим количеством пользователей.
С июля 2022 года в user-agent Chrome отображается только мажорная версия, вида *.0.0.0.
Все изменения в юзерагент пользователи вносят на свой страх и риск. Если юзерагент был изменен пользователем вручную, в настройках профиля будет отображаться соответствующее уведомление. При необходимости можно сгенерировать актуальный юзерагент, используемый в Octo Browser, нажав на кнопку обновления рядом.
Разрешение экрана – здесь можно выбрать одно из часто используемых реальными пользователями разрешение экрана. Разрешение экрана фиксирует область при открытии профиля с соответствующими значениями, максимальное разрешение ограничено вашим разрешением системы. Разрешение можно изменить после настройки. В большинстве случаев изменения разрешения не влияют на целостность отпечатка. Изменения сервисами могут восприниматься как подключение и использование дисплея с другим разрешением.
Шрифты – подмена набора шрифтов, установленных в системе. Набор шрифтов формируется исходя из выбора ОС в общих настройках. Некоторые сайты могут проверять наличие тех или иных шрифтов, установленных в системе. Рекомендуется не менять настройки без необходимой на то причины.
Языки – подмена используемых языков браузерного профиля. Язык интерфейса браузера никак не влияет на подменяемые языки и устанавливается в соответствии с языком системы. В режиме по умолчанию при старте профиля происходит проверка внешнего IP адреса и выставляются языки, соответствующие вашему IP (конечный IP зависит от типа соединения: прямое подключение, прокси или же впн с прямым соединением), и в большинстве случаев работает корректно. Несоответствие языков и гео вашего прокси может быть лишь в различии гео IP баз. На данный момент используется гео база Google. Убедиться можно, зайдя в поисковую систему и введя запрос, проскролив страницу в самый низ, увидеть данные на основе вашего IP в Google. При необходимости параметр можно менять вручную. Не рекомендуется его отключать (выставлять реальный).
Часовой пояс – подмена используемого часового пояса в профиле браузера. Аналогично языкам настройки по умолчанию соответствуют гео IP адреса и часовой пояс устанавливается автоматически каждый раз. При необходимости параметр можно менять вручную. Не рекомендуется его отключать (выставлять реальный).
Геолокация – подмена используемого местоположения в профиле браузера. Аналогично языкам и часовому поясу, настройки по умолчанию соответствуют гео IP адреса. Широта и долгота берется случайным образом в радиусе определенного автоматически гео. При посещении сайтов, которые попытаются узнать ваше местоположение, вы увидите уведомление с просьбой предоставить доступ. До тех пор, пока Вы его не предоставите, сайты не получат данные о местоположении. При желании параметр можно выставить вручную. Рекомендуется выбирать местоположение, соответствующее реальным объектам, однако с введением функции «приблизительное местоположение» в MacOS эти данные не оцениваются критично многими сервисами. Не рекомендуется его отключать (выставлять реальный).
При выставлении Геолокации вручную, нужно вписать параметры Широта, Долгота, Точность. Точность – погрешность определения координат широты и долготы в метрах. По умолчанию можно выставить значение из диапозона 1-999, а дальше подбирать под конкретную задачу или поведение сервиса.
Аппаратные настройки
Ядра процессора – количества эмулируемых ядер процессора для выбранного профиля.
Оперативная память – объем эмулируемой оперативной памяти для выбранного профиля.
Видеокарта – модель эмулируемой видеокарты и соответствующие ей параметры на основе реальных отпечатков пользователей.
Аппаратный шум – автоматически задаваемые программные отклонения от системных значений для создания уникального отпечатка определенных возможностей профиля браузера.
- WebGL – включение аппаратного шума для WebGL
- Canvas – включение аппаратного шума для Canvas
- Audio – включение аппаратного шума для Audio
- Client Rects – подмена размеров элементов страницы (на разных устройствах элементы страницы отличаются, и по этому показателю можно идентифицировать устройства). Эта подмена может некорректно отображать элементы страницы на некоторых сайтах. Если вы столкнулись с подобными сложностями – можете попробовать отключить подмену.
Если ваша задача скрыть некоторые параметры своего браузерного отпечатка и заменить его значение на уникальное, можете включить аппаратный шум. Если хотите слиться с толпой – не включайте шумы. Рекомендуем не менять настройки аппаратных шумов без особой необходимости, так как некоторые сервисы могут чувствительно реагировать на включенные шумы.
Медиа устройства – эмуляция подключенных мультимедиа устройств, которые будут видеть сайты или сервисы при работе с данным профилем. В режиме эмуляции работа с данными устройствами невозможна. Это значит, что доступ к вашей камере или микрофону не будет предоставлен физически, однако заявленный набор характеристик будет предоставлен. Например, Facebook сможет определить, что при работе с профилем заявлена поддержка камеры, однако взаимодействовать с ней не сможет. Для селфи или отправки документов, необходимо будет выбрать количество камер 0.
Соединение
Прокси – выбор прокси для используемого профиля браузера. Значение по умолчанию “Установить прокси” указывает на то, что профиль будет без прокси — будет использоваться ваш реальный IP адрес или IP адрес VPN, если VPN клиент включен на вашей операционной системе. Можно добавить прокси как из списка прокси-менеджера, так и временный прокси. Поддерживаются типы прокси http / https / socks5 / ssh. Следует учесть, что при выборе цепочки VPN + Прокси отклик и скорость могут уменьшиться, также это может сказаться на удобстве использования.
Для быстрого заполнения данных прокси используйте шаблон ip:port:login:password (или с указанием протокола вначале protocol://login:password:ip:port).
Необходимо привести к такому формату. После при помощи горячих клавиш, например «ctrl»+»v», выполнить вставку в поле Хост. Доступные протоколы socks5, https, http, ssh. Так же поддерживаются разделители ; @ и пробел в любом порядке.
URL для изменения IP – при необходимости можно добавить ссылку для смены IP.
WebRTC – выбор подменяемого значения webrtc на основе внешнего IP прокси или реальный. По умолчанию опция «Зависит от IP» подменяет автоматически значение IP адреса на внешний IP адрес прокси.
DNS – значение IP адреса dns сервера. Значение по умолчанию (пустое) будет использовать dns сервер прокси / vpn.
Хранилище
Раздел настроек хранилища для выбранного профиля.
Cookies – включение сохранения Cookies и Session Storage.
Passwords – включение сохранения паролей.
Extensions – включение сохранения расширений в профиле.
Local Storage – включение сохранение данных Local Storage и IndexedDB. Все сервисы, которые используют для сохранения данных Local Storage, будут разлогиниваться при повторном открытии профиля, если Local Storage выключен.
History – включение сохранения истории браузера.
Bookmarks – включение сохранения закладок браузера.
Service Workers – некоторые сайты хранят кэш страниц для оффлайн-работы или другую информацию (например, Telegram хранит часть данных по авторизации в Service Workers). Если вам не нужна эта функция, рекомендуем ее не включать, так как вес профиля значительно увеличивается.
Расширения
Раздел выбора расширений из списка уже установленных ранее в профилях. Для того чтобы расширения отобразились в этом разделе, необходимо включить сохранение расширений в профиле, запустить профиль и установить нужные расширения в профиль.
После установки расширений в профиле они отобразятся в списке у всех членов команды и на всех устройствах. Их также можно выбирать из списка ниже (без повторной установки) и назначать в настройках других профилей, при условии выбранной опции в разделе Хранилище Extensions.
Куки
Поддерживаются валидные cookie таких форматов как JSON и Netscape. Для загрузки можно перетянуть файл с соответствующим содержимым в поле или кликнуть в это поле и вставить скопированные cookies.
Генерация – изменение отпечатка редактируемого профиля. Изменяются общие и аппаратные данные. Основные данные и данные соединения не изменяются.
Понимание пользовательских агентов — Skyhigh Security
Введение
Вы можете спросить себя: «Хорошо, зачем мне пользовательский агент?». Ну, пользовательский агент может быть важен и может помочь вам во многих ситуациях. Допустим, iTunes продолжает предлагать пользователям ввести свои учетные данные, или поток проигрывателя Windows Media просто не будет воспроизводиться. Возможно, вам придется обойти эти программы по определенным правилам, чтобы заставить их работать так, как они должны быть. Вы можете легко сделать это с 1 заголовком, и это заголовок пользовательского агента.
Что такое агент пользователя?
Пользовательский агент — это заголовок в HTTP-запросе, который идентифицирует клиентское программное обеспечение, инициирующее запрос.
Почему этот заголовок важен?
Это важно, потому что оно определяет, какая часть программного обеспечения может делать запрос, чтобы вы могли правильно определить, откуда он исходит. Это может быть что угодно, от браузера до проигрывателя Windows Media. Все они имеют пользовательский агент для определения того, что это за программное обеспечение.
Зачем мне создавать правило для сопоставления с пользовательским агентом?
Бывают случаи, когда вам нужно соответствовать критериям пользовательского агента для правила. Обычно это включает обход определенного набора правил в Secure Web Gateway, который может вызывать проблемы с пользовательским агентом. Прелесть Secure Web Gateway 7 в том, что вам не нужно обходить все правила. Допустим, у вас возникла проблема, когда определенный пользовательский агент не работает с аутентификацией (что является одним из наиболее распространенных случаев), поэтому вы хотите только обойти аутентификацию. Вы можете легко сделать это. В конце будет несколько примеров этого и других распространенных сценариев.
Как узнать, что такое пользовательский агент для запроса?
Есть несколько способов узнать такого рода информацию. Ниже я перечислю и объясню некоторые распространенные способы узнать это:
Журналы доступа
Можно зарегистрировать пользовательский агент в ваших журналах доступа. По умолчанию Secure Web Gateway регистрирует пользовательский агент в журналах доступа.
Пример записи:
Интернет-ресурсы
Существует множество онлайн-ресурсов, позволяющих узнать пользовательский агент. Многие из них находятся в открытом доступе. Можно выполнить поиск в Google, а также есть очень полезный веб-сайт со списком многих распространенных пользовательских агентов. Этот URL-адрес http://www.useragentstring.com. Кроме того, если вы хотите узнать, какой у вас текущий пользовательский агент браузера, вы можете перейти на этот веб-сайт: http://whatsmyuseragent.com.
TCP-Dump
Можно найти заголовок пользовательского агента для запроса GET в TCP Dump, следуя потоку TCP запроса. Вы можете сделать это с помощью программного обеспечения для отслеживания пакетов, такого как «Wireshark». Вы можете сделать это, найдя нужный запрос, щелкнув его правой кнопкой мыши и выбрав «Follow TCP Stream». Затем появится окно, в котором отображается запрос и его заголовки. Вы также можете использовать фильтр в Wireshark для поиска определенного пользовательского агента. Например, вы можете использовать такой фильтр, как:
http.user_agent соответствует «Mozilla»
Безопасный веб-шлюз имеет возможность собирать дамп TCP, чтобы вы могли открыть его с помощью Wireshark для анализа. Справку о сборе дампа TCP см. в разделе Выполнение трассировки пакетов в защищенном веб-шлюзе (SWG).
Примеры
Вот несколько общих пользовательских агентов, которые мы сталкиваемся довольно часто:
Windows Media Player 10
Windows-Media-Player/10. 0.0.xxxx
NSPlayer/10.0.0.xxxx WMFSDK/10.0
.0005
**Windows Media Player всегда будет использовать обе эти строки агента пользователя**
iTunes 9.1.1
iTunes/9.1.1
ПРИМЕЧАНИЕ. Большинство пользовательских агентов браузера имеют в начале «Mozilla/», но не путайте это с Mozilla Firefox. Это не означает, что пользовательский агент предназначен для Firefox, это просто то, с чего начинаются все пользовательские агенты браузера.
Создание правила на основе заголовка агента пользователя в Secure Web Gateway
Существует несколько причин, по которым вам может потребоваться создать правило, соответствующее агенту пользователя. Возможно, вы захотите добавить в белый список или заблокировать определенный пользовательский агент. Например, если вы не хотите, чтобы пользователи использовали браузер Internet Explorer 6, вы можете заблокировать пользовательский агент. Другая причина заключается в том, что некоторые пользовательские агенты не знают, как реагировать на прокси-аутентификацию.
Безопасный веб-шлюз не имеет специального свойства для пользовательского агента, поэтому его необходимо ввести вручную.
- Сначала вы должны выбрать свойство header.request.get из списка
- Затем вы должны нажать кнопку «Параметры»
- Теперь вам нужно ввести вручную: User Agent
- Далее у вас есть выбор: либо совпадать с одним агентом пользователя, либо сопоставляться со списком агентов пользователя. Выбор за вами, что вы хотите сделать, но списки всегда рекомендуются, потому что тогда, если у вас есть новые записи, которые вы хотите добавить позже, все, что вам нужно сделать, это добавить их в уже существующий список. Вот пример списка пользовательских агентов, которым он может соответствовать.
- Действие, которое вы хотите выбрать, полностью зависит от вас. Вы можете заблокировать его, остановить набор правил или остановить цикл. Все зависит от того, чего вы пытаетесь достичь с помощью правила.
Заключение
Надеюсь, это помогло вам лучше понять, что такое заголовок пользовательского агента и для чего он предназначен. Кроме того, мы надеемся, что это направит вас на правильный путь к созданию правила, основанного на свойстве пользовательского агента, для использования в вашем устройстве Secure Web Gateway. 9Примеры набора правил
Создать глобальный черный список агентов пользователя
TCP Примеры устранения неполадок дампа
Вот пример того, что вы можете увидеть в дампе TCP, который показывает, когда пользовательский агент не отвечает на прокси-запросы аутентификации NTLM, а также как найти пользовательский агент в запросе GET.
Программа не отвечает на аутентификацию NTLM
Здесь вы можете видеть, что iTunes продолжает пытаться зайти в магазин iTunes, а мы продолжаем запрашивать аутентификацию. Однако каждый раз iTunes продолжает делать один и тот же запрос и никогда не отвечает никакими учетными данными. В обычной ситуации он завершит рукопожатие NTLM, сначала отправив обратно тот же запрос с согласованием NTLM, на который Secure Web Gateway затем ответит вызовом NTLM, а затем iTunes ответит аутентификацией NTLM и предоставит Учетные данные NTLM для безопасного веб-шлюза.
Как найти пользовательский агент в запросе GET
Здесь вы можете увидеть, что я выбрал запрос GET в дампе TCP, и в разделе «Протокол передачи гипертекста» ниже вы можете увидеть заголовок пользовательского агента. Я сделал это с помощью программы под названием «Wireshark».
- Наверх
- Была ли эта статья полезной?
- Тип изделия
- Тема
- Метки
Агент пользователя для парсинга веб-страниц
Из этого поста вы узнаете:
- Что такое агент пользователя?
- Зачем вам использовать пользовательский агент?
- Советы, как избежать блокировки пользовательского агента при парсинге
Что такое пользовательский агент?
Термин относится к любому программному обеспечению, которое облегчает взаимодействие конечного пользователя с веб-контентом. Строка пользовательского агента (UA) — это текст, который программное обеспечение клиентского компьютера отправляет через запрос.
Строка пользовательского агента помогает целевому серверу определить, какой браузер, тип устройства и операционная система используются. Например, строка сообщает серверу, что вы используете браузер Chrome и Windows 10 на своем компьютере. Затем сервер может использовать эту информацию для настройки ответа в зависимости от типа устройства, ОС и браузера.
Большинство браузеров отправляют заголовок пользовательского агента в следующем формате, хотя в выборе пользовательских агентов нет особой последовательности:
User-Agent: Mozilla/5.0 () ()Каждый браузер добавляет свои собственные компоненты комментариев, такие как платформа или RV (релизная версия ). Mozilla предлагает примеры строк, которые можно использовать для поисковых роботов:
.Mozilla/5.0 (совместимо; Googlebot/2.1; +http://www.google.com/bot.html)
. Вы можете узнать больше о различных строках, которые вы можете использовать для браузера Mozilla, на их «> сайте для разработчиков.
Ниже вы можете найти примеры с сайта разработчика Chrome того, как формат строки UA выглядит для разных устройств и браузеров:
Chrome для Android
Телефон UA:
Mozilla/5.0 (Linux; ; )AppleWebKit/ (KHTML, например Gecko) Chrome/Mobile Safari/
Tablet UA:
Mozilla/5.0 (Linux; ; )AppleWebKit/(KHTML, например, Gecko) Chrome/Safari/
Включите автопилот прямо сейчас!
Зачем вам использовать пользовательский агент?
При просмотре веб-страниц иногда вы обнаружите, что веб-сервер блокирует определенные пользовательские агенты. В основном это связано с тем, что он идентифицирует источник как бот, а некоторые веб-сайты не разрешают поисковые роботы или парсеры. Более сложные веб-сайты делают это наоборот, т. е. они разрешают выполнять сканирование только тем пользовательским агентам, которые, по их мнению, являются допустимыми. Самые сложные из них проверяют, действительно ли поведение браузера соответствует пользовательскому агенту, о котором вы заявляете.
Вы можете подумать, что правильным решением будет не включать пользовательский агент в ваши запросы. Однако это приводит к тому, что инструменты используют UA по умолчанию. Во многих случаях целевой веб-сервер заносит его в черный список и блокирует.
Так как же гарантировать, что ваш пользовательский агент не будет забанен?
Советы, как избежать блокировки вашего UA при парсинге:
#1: Используйте настоящий пользовательский агент
Если ваш пользовательский агент не принадлежит основному браузеру, некоторые веб-сайты будут блокировать его запросы. Многие веб-скраперы на основе ботов пропускают этап определения UA, в результате чего их обнаруживают и блокируют за отсутствие неправильного/по умолчанию UA.
Вы можете избежать этой проблемы, настроив широко используемый UA для вашего поискового робота. Вы можете найти большой список популярных пользовательских агентов здесь. Вы можете составить список популярных строк и чередовать их, выполнив запрос cURL для веб-сайта. Тем не менее, мы рекомендуем использовать пользовательский агент вашего браузера, потому что поведение вашего браузера, скорее всего, будет соответствовать тому, что ожидается от пользовательского агента, если вы не измените его слишком сильно.
#2: Ротация пользовательских агентов
Когда вы делаете многочисленные запросы во время просмотра веб-страниц, вы должны рандомизировать их. Это сведет к минимуму вероятность того, что веб-сервер идентифицирует и заблокирует ваши UA.
Как рандомизировать запросы?
Одним из решений может быть изменение IP-адреса запроса с использованием чередующихся прокси. Таким образом, вы каждый раз отправляете разные наборы заголовков. Со стороны веб-сервера это будет выглядеть так, как будто запрос поступает с разных компьютеров и из разных браузеров.
Совет для профессионалов: Пользовательский агент — это заголовок, но заголовки включают в себя гораздо больше, чем просто пользовательские агенты. Вы не можете просто отправлять случайные заголовки, вам нужно убедиться, что отправляемый вами пользовательский агент соответствует заголовкам, которые вы отправляете.
Вы можете использовать botcheck.luminatio.io, чтобы проверить, соответствуют ли отправляемые вами заголовки тому, что ожидается для пользовательского агента.
Как чередовать пользовательские агенты
Во-первых, вам нужно собрать список строк пользовательских агентов. Мы рекомендуем использовать строк из реальных браузеров , , которые можно найти здесь . Следующий шаг — добавление строк в список Python. И, наконец, определение того, что каждый запрос выбирает случайную строку из списка.
Пример ротации пользовательских агентов с использованием Python 3 и Selenium 4 можно увидеть в этом обсуждении переполнения стека. Пример кода выглядит следующим образом:
Какую бы программу или метод вы ни выбрали для чередования заголовков UA, вы должны следовать одним и тем же методам, чтобы избежать обнаружения и блокировки:
- #1: Ротация полного набора заголовков, связанных с каждым UA
- #2: Отправлять заголовки в том порядке, в котором обычно работает настоящий браузер
- #3: Используйте предыдущую страницу, которую вы посетили, в качестве «заголовка реферера»
Совет для профессионалов: Вы должны убедиться, что IP-адрес и файлы cookie не изменяются при использовании заголовка реферера. В идеале вы действительно должны посетить предыдущую страницу, чтобы на вашем целевом сервере была запись о ней.
#3: Ротация агентов с использованием прокси-сервера
Вы можете избежать головной боли и хлопот, связанных с ручным определением списков и ротацией IP-адресов, используя ротационную сеть прокси. Прокси имеют возможность настроить автоматическую ротацию IP и ротацию строк UA. Это означает, что ваши запросы выглядят так, как будто они исходят из различных веб-браузеров. Это значительно уменьшает количество блокировок и увеличивает вероятность успеха, поскольку запросы исходят от реальных пользователей сети. Имейте в виду, что только очень определенные прокси-серверы, использующие технологию разблокировки данных, могут правильно управлять вашими пользовательскими агентами и менять их.
Получить доступ к технологии разблокировки данных
Список пользовательских агентов для парсингаэмулировать различные браузеры, используя такие инструменты, как wget и cURL. К ним относятся:
- Lynx: Lynx/2.8.8pre.4 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/2.12.23
- Результат: Wget/1.15 (линукс-гну)
- Изгиб: Изгиб/7.35.0
- HTC: Mozilla/5. 0 (Linux; Android 7.0; HTC 10 Build/NRD90M) AppleWebKit/537.36 (KHTML, как Gecko) Chrome/58.0.3029.83 Mobile Safari/537.36
- Google Nexus: Mozilla/5.0 (Linux; U; Android-4.0.3; en-us; Galaxy Nexus Build/IML74K) AppleWebKit/535.7 (KHTML, как Gecko) CrMo/16.0.912.75 Mobile Safari/535.7
- Samsung Galaxy Note 4: Mozilla/5.0 (Linux; Android 6.0.1; SAMSUNG SM-N910F Build/MMB29M) AppleWebKit/537.36 (KHTML, как Gecko) SamsungBrowser/4.0 Chrome/44.0.2403.133 Mobile Safari/537.3 6
- Samsung Galaxy Note 3: Mozilla/5.0 (Linux; Android 5.0; SAMSUNG SM-N900 Build/LRX21V) AppleWebKit/537.36 (KHTML, как Gecko) SamsungBrowser/2.1 Chrome/34.0.1847.76 Мобильное сафари/537,36
- Телефон Samsung: Mozilla/5.0 (Linux; Android 6.0.1; SAMSUNG SM-G570Y Build/MMB29K) AppleWebKit/537.36 (KHTML, как Gecko) SamsungBrowser/4. 0 Chrome/44.0.2403.13 3 Мобильное сафари/537,36
- Поисковый робот Bing: Mozilla/5.0 (совместимый; bingbot/2.0; +http://www.bing.com/bingbot.htm)
- Поисковый робот Google: Mozilla/5.0 (совместимый; Googlebot/2.1; +http://www.google.com/bot.html)
- Apple iPhone: Mozilla/5.0 (iPhone; процессор iPhone OS 10_3_1, например Mac OS X) AppleWebKit/603.1.30 (KHTML, например Gecko) Version/10.0 Mobile/14E304 Safari/602.1
- Apple iPad: Mozilla/5.0 (iPad; CPU OS 8_4_1, как Mac OS X) AppleWebKit/600.1.4 (KHTML, как Gecko) Версия/8.0 Mobile/12h421 Safari/600.1.4
- Microsoft Internet Explorer 11 / IE 11: Mozilla/5.0 (совместимый, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) как Gecko
- Microsoft Internet Explorer 10 / IE 10: Mozilla/5. 0 (совместимый; MSIE 10.0; Windows NT 6.2; Trident/6.0; MDDCJS)
- Microsoft Internet Explorer 9 / IE 9: Mozilla/5.0 (совместимый; MSIE 9.0; Windows NT 6.0; Trident/5.0; Trident/5.0)
- Microsoft Internet Explorer 8 / IE 8: Mozilla/4,0 (совместимо; MSIE 8.0; Windows NT 5.1; Trident/4,0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729) 22
- Microsoft Internet Explorer 7 / IE 7: Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)
- Microsoft Internet Explorer 6 / IE 6: Mozilla/4.0 (совместимый; MSIE 6.0; Windows NT 5.1; SV1)
- Microsoft Edge: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, например Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14. 14393
- Mozilla Firefox: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:53.0) Gecko/20100101 Firefox/53.0
- Google Chrome: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, например Gecko) Chrome/58.0.3029.110 Safari/537.36
Практический результат
Поскольку большинство веб-сайтов блокируют запросы без действительного или узнаваемого пользовательского агента браузера, важно научиться правильно чередовать UA, чтобы избежать блокировки сайта. Использование правильного пользовательского агента сообщит вашему целевому веб-сайту, что ваш запрос поступил из действительного источника, что позволит вам свободно собирать данные с желаемых целевых сайтов.
Bright Data разработала полностью автоматизированное решение для разблокировки данных, которое экономит время и ресурсы команд, используя алгоритмы машинного обучения для создания пользовательских агентов браузера для конкретных сайтов, а также для обхода систем обнаружения ботов.