Recaptcha что это: Как работает reCAPTCHA? / Хабр | Дропшиппинг

Содержание

Как работает reCAPTCHA? / Хабр

В обсуждении моего недавнего перевода замечательнейшей статьи про CAPTCHA несколько раз появлялись вопросы насчет reCAPTCHA, а именно как же эта система работает. Под катом я в общих чертах объясню суть reCAPTCHA, наглядно покажу как она работает и каким же образом она цифрует книжки.

Расскажу я все достаточно кратко, но зато понятно. Приведенные иллюстрации были взяты с официального сайта reCAPTCHA

Stop spam

По своей сущности, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, вводим предложенный текст и тем самым доказываем, что мы не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию.

Read books

Как вы наверняка заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он человек, но еще и помогает распознавать старые книги и газеты.

Принцип работы прост:
Допустим, есть энная книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, цифровать (и дело тут не только в сохранении наследия, но об этом позже). Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате. Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка сейчас некоторые усмехнутся, да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.

От скучного текста перейдем к иллюстрациям:

Вот так выглядит отсканированный текст. Качество, можно сказать, на высоте, но давайте же взглянем на результат работы OCR: Красным выделены ошибки. Не правда ли их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.

Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но наверняка многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги \ газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:

Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…… а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным.

Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA. По-моему, это прекрасно.

Я ничего не понял!

Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:

Скрипты для распознавания

Бытует ошибочное мнение, что reCAPTCHA невозможно взломать (речь идет об автоматическом распознавании приведенного текста, без участия человека). Однако, судя по тенденциям, это не так. С течением времени reCAPTCHA понаделала различных подводных камней для систем распознавания. Среди них искривление текста, пересечение его полосами, так же недавно была введена фича, благодаря которой проверочное (известное системе) слово выглядит сдвоенным. Все это указывает на то, что reCAPTCHA все таки испытывает некоторые трудности с защитой.

Никто и не подозревал

Есть люди, которые критикуют reCAPTCHA, и с этической точки зрения, критикуют они не зря. Дело в том, что за распознанный текст Google так или иначе получает деньги. А сами тексты добываются вполне себе бесплатно, силами пользователей. То есть, тут имеет место бесплатный труд. Лично меня это не волнует, к тому же, никто не заставляет пользователей вводить reCAPTCHA, и более того, никто не заставляет веб-мастеров устанавливать ее на свои сайты 🙂

Ирония

Наверняка некоторые из вас, прочитав предыдущий абзац, поняли, что тут что-то не так. Все знают о сервисах по ручному распознаванию капчи, где миллионы азиатов вводят капчу за гроши. Итак, если принять во внимание предыдущий абзац, то получается, что эти азиаты работают не только на сервис по распознаванию, они работают и на Google. Бесплатно.

Переход с reCAPTCHA на hCaptcha в Cloudflare / Блог компании RUVDS.com / Хабр

Компания Cloudflare сообщила о том, что она недавно перешла с использования сервиса reCAPTCHA, предоставляемого Google, на сервис hCaptcha, который поддерживает компания Intuition Machines. В Cloudflare очень рады тому, что им удалось совершить этот переход, так как он способствует решению проблем со сбором конфиденциальной информации, актуальных в то время, когда компания полагалась на сервисы Google. Это, кроме того, способствует более гибкой настройке CAPTCHA-задач, предлагаемых посетителям сайтов. Данное изменение, в принципе, затрагивает всех пользователей Cloudflare. Поэтому компания решила поделиться подробностями о переходе на reCaptcha и подготовила материал, перевод которого мы сегодня публикуем.

Использование технологии CAPTCHA в Cloudflare

Одна из предоставляемых Cloudflare услуг заключается в том, что клиентам компании даётся возможность блокировки вредоносного автоматического трафика (бот-трафика). Мы используем множество механизмов, направленных на решение этой задачи. Если мы совершенно уверены в том, что некий трафик является вредоносным, мы его полностью блокируем. Если мы точно знаем о том, что некий трафик — это результат нормальной человеческой деятельности, мы его пропускаем. То же самое относится и к нормальному трафику, генерируемому ботами — вроде ботов поисковых систем. Но иногда, в случаях, когда у нас нет полной уверенности в природе трафика, мы подвергаем этот трафик «испытанию».

У нас есть разные испытания. Некоторые из них полностью автоматические, но одно из таких испытаний требует вмешательства человека. Подобные испытания известны как CAPTCHA (по-русски их называют «капча»). Эта аббревиатура расшифровывается как Completely Automated Public Turing Test to Tell Computers and Humans Apart — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей. Как видите, несколько букв T в слове CAPTCHA опущено — иначе оно выглядело бы как CAPTTTCHA. Капча-испытания обычно заключаются в том, что пользователю предлагается прочитать искажённый текст и ввести его в поле, или выбрать из набора картинок те, на которых есть светофоры или пешеходные переходы. Суть капча-задач заключается в том, чтобы их легко было решить человеку, но не компьютеру.

В Cloudflare, с самого начала существования компании, пользовались Google-сервисом reCAPTCHA. Этот сервис появился в 2007 году как исследовательский проект университета Карнеги — Меллона. Компания Google купила этот проект в 2009 году. Примерно тогда же появилась и компания Cloudflare. Google давала бесплатный доступ к reCaptcha в обмен на то, что данные из сервиса использовались для обучения систем визуальной идентификации компании. Когда мы искали CAPTCHA-решение для Cloudflare, мы выбрали reCATPCHA из-за того, что этот сервис был эффективным, масштабируемым и бесплатным. Последний пункт этого списка был важен для нас из-за того, что очень многие клиенты Cloudflare используют наши бесплатные сервисы.

О приватности и блокировках

С ранних дней применения reCAPTCHA в Cloudflare некоторые наши клиенты высказывали опасения относительно того, что мы пользуемся сервисом Google. Бизнес Google завязан на таргетированной рекламе. Cloudflare этим не занимается. Мы придерживаемся строгой политики относительно конфиденциальных данных. Нас устраивала политика конфиденциальности, связанная с reCAPTCHA, но мы понимаем причины, по которым некоторые из наших клиентов обеспокоены тем, что им приходится передавать в Google больше данных, чем им хотелось бы.

Кроме того, мы испытываем проблемы в некоторых регионах, в таких, как Китай, где сервисы Google время от времени блокируют. А ведь только один Китай — это 25% интернет-пользователей. В результате нас всегда беспокоило то, что некоторые из этих пользователей не могут работать с сайтами, защищёнными Cloudflare, в том случае, если им предлагается решить капча-задачу.

Вопросов, касающихся приватности и блокировок, накопившихся за годы работы, уже было достаточно для того, чтобы заставить нас задуматься о смене reCAPTCHA на что-то другое. Но нам, как и большинству IT-компаний, сложно сосредоточить усилия на отказе от некоей широко используемой технологии и на смене её на что-то новое.

Изменяющаяся бизнес-модель Google

Ранее в этом году Google сообщила нам о том, что они собираются начать взимать плату за использование сервиса reCaptcha. Это — их полное право. Обслуживание капча-нужд Cloudflare, учитывая наши размеры, без сомнения, стоит немалых денег, которые заметны даже в масштабах Google.

И, опять же, взимание платы за использование reCAPTCHA — это абсолютно разумный ход Google. Если выгода компании от обучения систем классификации изображений меньше, чем расходы на поддержание сервиса, совершенно понятно то, что у Google появилось желание брать плату за работу с этим сервисом. В нашем случае это означало бы ежегодные расходы в миллионы долларов, которые понадобились бы лишь для того, чтобы позволить нашим бесплатным пользователям продолжать применять reCAPTCHA. Этого, вместе с другими причинами, в итоге стало достаточно для того, чтобы мы приступили к поиску альтернативы reCAPTCHA.

Самая лучшая капча

Мы проанализировали множество поставщиков CAPTCHA-решений и подумали о разработке собственного сервиса такого рода. В результате оказалось, что наиболее удачной альтернативой reCAPTCHA является hCaptcha. Нам многое понравилось в этом сервисе:

Они не занимаются продажей персональных данных. Они собирают лишь необходимый минимум таких данных. Компания ясно описывает сведения, которые она собирает, и то, как она использует и раскрывает данные. Компания придерживается этих правил, предоставляя сервис hCaptcha Cloudflare.
Система hCaptcha отличается хорошим уровнем производительности (как в плане скорости, так и в плане показателей, касающихся решений капча-задач). Этот уровень соответствует нашим ожиданиям при проведении A/B-тестирования, или даже превышает уровень таких ожиданий.

Сервис hCaptcha обладает надёжным решением для слабовидящих пользователей и для пользователей, испытывающих при работе с веб-страницами проблемы, не связанные со зрением.
Система поддерживает Privacy Pass, что позволяет снизить частоту показа капча-задач.
Система работает в регионах, где сервисы Google могут быть заблокированы.
Команда hCaptcha отличается гибкостью, она быстро реагирует на обращения, с ней приятно работать.

Стандартная бизнес-модель hCaptcha похожа на ту, которая использовалась в начале работы сервиса reCAPTCHA. А именно, компания планировала брать плату с пользователей, которым нужны данные о классификации изображений. А тем, кто использует hCaptcha на сайте, планировалось выплачивать вознаграждение. Для нас это звучало привлекательно, но, к сожалению, хотя такой подход может хорошо работать у большинства обычных клиентов hCaptcha, для наших масштабов он не подходил.

Мы сотрудничаем с сервисом hCaptcha в двух направлениях. Во-первых, мы находимся в процессе выделения мощностей нашей платформы Workers, которая возьмёт на себя большую часть нагрузки при использовании нашими клиентами hCaptcha. Благодаря этому мы сократим расходы Intuition Machines. Во-вторых — мы предложили компании платить ей, вместо того, чтобы она платила бы нам. Это позволит обеспечить компанию ресурсами, необходимыми для масштабирования её сервиса так, чтобы он соответствовал бы нашим нуждам. Хотя это и означает для нас дополнительные расходы, эти расходы — лишь малая доля того, что могло бы пойти на оплату reCAPTCHA. Взамен мы получаем CAPTCHA-платформу, которая гораздо гибче той, которой мы пользовались раньше. Кроме того, у нас появляется возможность взаимодействия с командой разработчиков, которая очень быстро реагирует на наши обращения.

Когда наши клиенты показывают своим пользователям капчу?

Когда мы только начали работу над этим проектом, мы предполагали, что главными потребителями CAPTCHA окажутся наши решения Cloudflare Bot Management и Cloudflare Firewall Rules. Это предположение, в некоторой степени, подтвердилось. Хотя решения Firewall/Bot оказались основными потребителями CAPTCHA, их доля в общем объёме потребления этой услуги оказалась лишь немного больше 50%.

Вот сводка, касающаяся тех наших решений, в рамках которых пользователи запрашивают вывод капчи.

Решения Firewall/Bot находятся в верхней части этого списка. На них приходится основная доля капчи. Эти решения задействуют правила, написанные нашими пользователями. При выполнении условий, задаваемых этими правилами, выводится капча. В качестве примера тут можно привести ситуацию, в которой капча выводится тогда, когда оценка запроса системой Cloudflare Bot Management оказывается неоднозначной. Она, с одной стороны, ниже заданного порогового значения, что может указывать на то, что речь идёт об автоматизированном трафике. Но она, с другой стороны, выше порогового значения, указывающего на неопределённость ситуации. Ещё один распространённый сценарий использования капчи, относящийся к разделу Firewall/Bot, это показ капча-задач для всех запросов к некоему сайту или к некоей конечной точке сайта. Наши клиенты могут поступать так для того чтобы ограничить число подключений к своим серверам, или чтобы замедлить работу автоматизированных систем, перебирающих учётные данные на странице входа в систему или создающих фальшивые учётные записи. Это приводит к тому, что некоторые сайты, находящиеся под защитой Cloudflare, запрашивают показ сотен миллионов капч в день.

Вторым в этом списке идёт наше решение IP Firewall. Оно, в целом, похоже на решения Firewall/Bot, но позволяет анализировать трафик точнее, работая на уровне IP-адреса, ASN или страны. Основной объём капч, выводимых в рамках услуги IP Firewall, имеет отношение к уровням ASN и стран. Вероятно, наши клиенты защищаются так от трафика, связанного с неким ASN (например — может ли трафик от облачного провайдера генерироваться обычными пользователями?), или защищаются от атак, выполняемых из каких-нибудь стран.

Далее идёт служба Security Levels. Этой службой пользуются двумя различными способами:

Она может играть роль инструмента для приблизительной оценки репутации IP-адреса.
Она может работать в режиме I’m Under Attack.

Хотя мы рекомендуем клиентам пользоваться режимом I’m Under Attack только тогда, когда они находятся под активной DDoS-атакой, некоторые наши клиенты держат систему в этом режиме всё время, используя её в роли примитивного механизма для ограничения скорости поступления запросов к сайту и для фильтрации трафика.

Последняя основная область использования капчи относится к одной из наших автоматизированных систем. Например, недавно наши инженеры из отдела защиты от DoS-атак научили Gatebot использовать капчу для устранения небольших проблем в некоторых специфических ситуациях. Теперь Gatebot может писать временные правила, применение которых приводит к показу атакующим капчи.

И наконец, некоторые наши клиенты настраивают показ капчи, создавая наборы правил Rate Limiting и Managed WAF.

Нас, кроме того, интересовал вопрос о типах наших клиентов, использующих капчу. За неделю наши клиенты, пользующиеся услугами бесплатно, запросили показ примерно 40-60% всех капч, выводимых Cloudflare. Этот показатель получен с учётом влияния на показ капч атак на сайты. Среди двух групп наших платных клиентов — корпоративных, и тех, кто оплачивает услуги по факту их оказания, оставшийся объём использования капчи делится примерно поровну. В целом, мы выяснили, что Cloudflare ежесекундно показывает несколько миллионов капч во время атаки на одного или нескольких наших клиентов.

О проблемах перехода на новую технологию

Когда мы меняем какую-то часть системы Cloudflare, это облегчает некоторым из наших клиентов жизнь, но другие клиенты сталкиваются с проблемами. Мы и команда разработчиков hCaptcha готовы к решению любых возникающих сложностей. Если вы или ваши пользователи сталкиваетесь со сложностями при использовании hCaptcha — просим вас написать об этом на форуме или открыть тикет поддержки, приведя при этом как можно более подробное описание случившегося.

Если это возможно — пожалуйста включите в сообщение Ray ID — идентификатор, который обычно появляется в нижней части CAPTCHA-страницы. Это поможет нам разобраться с тем, что пошло не так.

Ray ID

Итоги

Опыт подсказывает нам, что визуальная (и звуковая) капча — это далеко не идеальное решение множества сложных проблем. Cloudflare продолжает работать над тем, чтобы минимизировать число показываемых пользователям капч, и, в итоге, совсем от этой технологии отказаться. Мы планируем ещё писать об этом. И, кстати, знаете, как называется наш внутренний чат, в котором общается команда, занимающаяся работами по внедрению hCaptcha? Можно подумать, что этот чат называется New CAPTCHA. Но на самом деле это не так. Он называется (No)CAPTCHA.

Уважаемые читатели! Вы уже сталкивались с hCaptcha?

CAPTCHA, капча — что это?

CAPTCHA — это загадка, которую легко решает человек, но не может решить робот. Я думаю, вы часто видели на сайтах «Докажите, что вы не робот» или «Введите код на картинке».

CAPTCHA — Completely Automated Public Turing test to tell Computers and Humans Apart — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей.

Зачем нужна капча?

Капча нужна для того, чтобы разрешить доступ к определённому разделу сайта человеку и запретить роботу. Например, можно с помощью CAPTCHA защитить сайт от регистраций спам-ботов.

Виды CAPTCHA

Капча бывает разная. Самая простая — просьба ответить на вопрос, например, сколько будет 2 + 7?

Самый распространённый вид — картинка с искажённым текстом. Человек легко (относительно) может прочитать текст), робот уже справляется с этой задачей с трудом.

Звуковой файл. Вам предлагают прослушать текст, который вы должны ввести. Люди и слепые бывают, нельзя же всё к картинкам сводить.

Видео-файл. Смотрим ролик и находим в нём кодовое слово.

CAPTCHA где предлагается выбрать правильный вариант из нескольких, повернуть изображение, решить задачку, да что угодно сделать, что не умеет делать робот.

Достоинства и недостатки

Достоинства

Защищает от определённого процента ботов.

Недостатки

Программы совершенствуются и уже могут успешно решать некоторые виды CAPTCHA с большим процентом успеха. В ответ на это разработчики усложняют задачки таким образом, что уже люди с трудом решают их.
Капчу можно ввести неправильно, приходится повторять попытку.
Вижу капчу и уже задумываюсь, а нужно ли тратить время и нужно ли мне эту капчу решать?
Со временем боты начинают проламывать даже те капчи, которые хорошо защищали сайт.
Да и вообще с какой стати я должен эту капчу решать? Идеальная капча — когда я про неё и не узнаю никогда. Кстати, уже есть такие.
Не все виды CAPTCHA способны пройти люди с ограниченными возможностями.

Примеры CAPTCHA

ReCAPTCHA

ReCAPTCHA — она из самых известных и «работающих» защит от роботов. Система разработана в университете Карнеги — Меллон. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. Есть несколько версий.

Начальная версия предлагала распознать отрывки изображений из книг. При этом множество людей, проходя капчу, помогали оцифровывать книги.

Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps и Google Street View

В самом начале 2015 года ReCAPTCHA была обновлена. Теперь пользователю предлагали просто поставить галочку в чекбоксе, после нажатия на чекбокс пользователю могут предложить выбрать все картинки, которые попадают под заранее установленные условия — например, выбрать все светофоры.

Последняя на данный момент версия ReCAPTCHA от 2018 года не требует действий от пользователя и работает в фоне. Никакой информации о внутренней работе системы Google на даёт, чтобы не помогать спамерам и владельцам ботов. Google обвиняют в слежке за пользователями, но CAPTCHA — работает.

YaCaptcha

YaCaptcha — капча от компании Яндекс. Неплохой вариант, боты с трудом распознают контуры.

На самом сайте Яндекса встречаются и другие виды капчи, например:

Или вот:

Совсем не напоминает ReCAPTCHA. Не похоже ни разу. И ни одного раза я не смог правильно её решить. Моё представление о том где есть платье и где его нет сильно различается с мнением разработчика.

NotCAPTCHA

Хороший пример интерактивной CAPTCHA. NotCAPTCHA — нужно повернуть картинки вертикально. Есть готовый плагин к CMS WordPress.

Интерактивная CAPTCHA

Ещё варианты, где нужно подвигать мышкой:

Ещё:

И ещё:

Идеальная CAPTCHA

Как показывает практика, чем проще капча для пользователя, тем она лучше.

Идеальная капча — это когда нет капчи. Но не всегда…

Сложно — это не плохо

Всё относительно, не всегда сложная капча — это плохо. Отличный пример, капча с физтеха:

В данном примере нужно найти сопротивление между A и B. Отлично отсеивает ботов и… ненужных людей.

ReCaptcha на поиске google.com (обновление рекапчи на гугле май 2020)

UPD 29 мая 2020. Рекомендуем слать прокси и куки, подробнее в следующей статье.

Главное:
Решение капчи на поиске google.com работает, но вы должны отправлять дополнительный параметр — «data-s», взятый из переменной «data-s» на странице с капчей. Более подробно ниже.

Что случилось:
Начиная с 18 мая на странице //google.com/sorry/index рекапча стала не всегда приниматься с первого раза. Изначально проблема была не очень заметна и случаи непринятия токена списывались на случайность, но постепенно процент таких случаев рос и к субботе-воскресенью достиг практически 100% запросов.
К сожалению, по началу мы списали это на ошибки в работе самого google.com, т.к. даже при ручном прохождении через браузер он иногда повторно отдавал капчу и не стали особо разбираться с ситуацией (возможно в тот момент действительно были проблемы со стороны google, сейчас такой ситуации уже не происходит)
К 25 маю мы осознали всю глубину проблемы, когда остановились практически все сервисы парсинга позиций\сбора семантики и другие взаимодействующие с поиском на google.com.

Как теперь правильно слать капчу с google.com/sorry/index:
1. Вам нужно со страницы /google.com/sorry/index взять параметр, находящийся в переменной «data-s» и прислать его нам в параметре «data-s». Значение data-s каждый раз новое.
2. Вы ни в коем случае не должны отрабатывать JS подгружающие саму капчу на странице google.com/sorry/index. Если у вас прогрузится капча на странице, а потом Вы пришлёте нам данные от этой капчи, то токен полученный нами работать не будет. С одним data-s капча может быть загружена только один раз.

Что мы ещё знаем о новой капче:
1. Google реализовал недокументированный функционал. В документации к ReCaptcha V2 никакой data-s нет.
2. Data-s всегда уникальный и ReCaptcha контролирует что бы одна один data-s открывался только один раз. Поэтому если Вы открыли страницу с капчей и у вас она прогрузилась, то мы уже не сможем никаким образом дать рабочий токен для обхода капчи на этой странице. Вы должны брать HTML код страницы, брать оттуда значение data-s и присылать нам.
3. Помимо Data-s ReCaptcha реализовала ещё несколько хитрых приёмов — они контролируют целостность данных на странице с капчей. Анализ именно этого момента у нас отнял больше всего времени (т.к. нам пришлось по новой изобретать как выводить рекапчу работнику), но вам об этом не нужно беспокоиться, это всё делается с нашей стороны.
4. Proxy, UserAgent и Coockie пользователя не влияют на прохождение. Решаться рекапча может с IP из Филиппин, с UserAgentom Mozilla FireFox и куками работника, а токен Вы используете со своего IP, со своим UserAgent и своими куками.
Однако, если Вы пришлёте нам свою прокси и свой UserAgent мы будем их использовать. Как это сделать — описано в API

Благодарности:
A-Parser. Подтолкнули нас в сторону правильного решения и помогли с тестированим. Кстати, по нашему мнению A-Parser является самым мощным парсером поисковых систем и всего остального что нужно для SEO, а в последние годы A-Parser научился парсить что угодно, вы можете даже спарсить даже Amazon, ведь у A-Parser есть серверная версия, которая действительно поддерживает неограниченное количество потоков (ограничено лишь производительностью вашего сервера), а результаты парсинга может складывать сразу в SQL-базу.
Топвизор. За то, что заставили нас поверить в наличие проблемы. Кстати, именно через Топвизор мы следим за позициями нашего сайта в поиске.

UPD
UPD: Что-то не очень хорошие результаты у нас получаются. Продолжаем исследование. Если хотите следить за последними изменениями, то заходите на эту тему: https://captchaforum.com/threads/google-search-obnovlenie-ot-18-maya-2020.683/

Блог сервиса распознавания капчи ruCaptcha

Описание проблемы

В начале июля несколько клиентов, независимо друг от друга, пожаловалась нам о том что часть токенов для прохождения ReCaptcha, которые они получают от нас, не принимается сайтами, где проходится капча. Мы провели ряд экспериментов и выявили, что при верификации ответа на ReCaptcha, Google.com может вернуть вот такую ошибку:

{«success»:false,»error-codes»:[«incorrect-captcha-sol»]}

Этой проблеме подвержен не только наш сервис решения капч RuCaptcha.com, но и обычные люди, которые проходят рекапчу на каком-либо сайте, но сайт не принимает ответ на капчу от них.

В API ReCaptcha нет описания данной ошибки. Доподлинно нам не известны её причины, но некоторые зависимости мы смогли найти.

От чего зависит получение incorrect-captcha-sol

Появление incorrect-captcha-sol, по нашим наблюдениям, происходит по двум факторам:

1) Очень плохой IP
У Google, видимо, есть рейтинг для каждого IP-адреса. Если Вы решаете ReCaptcha без ошибок и не более 50 капч в сутки, то этот IP будет считаться хорошим.
Если Вы делаете что либо из этого списка:

совершаете много ошибок при решении
открываете капчу но не прорешиваете её до конца
решаете больше двух капч в минуту

То Ваш IP либо банится вообще, либо начинает получать такие токены, которые при дальнейшей проверке получают incorrect-captcha-sol

2) Плохие cookie
Помимо рейтинга IP, у Google есть рейтинг пользователей. Каждому, кто заходил на google.com или на страницу с установленной ReCaptcha, присваиваются свои cookie. Google анализирует Ваши действия в сети и оценивает насколько Вы похожи на живого человека или на робота. Если пользователь с одним набором cookie целый день решает капчи, даже если это делается с разных IP, то это, скорее всего, робот и такой пользователь будет решать капчи до зелёной галочки, но при дальнейшей проверке его ответа Google будет возвращать
{«success»:false,»error-codes»:[«incorrect-captcha-sol»]}
Самое обидной в этом то, что при авторизации в гугловом почтовике gmail.com, Google проассоциирует Вас с Вашими прошлыми действиями и, если хоть один раз в прошлом посчитал Вас роботом, то теперь у Вас в 3 из 4 случаев не будет приниматься решение ReCaptcha.

Как RuCaptcha борется с incorrect-captcha-sol

Для снижения количества “плохих” токенов в ответах на капчи заказчиков, мы регулярно чистим куки в приложении работников, а также следим за качеством IP-адресов работников. Про это расскажем чуть подробнее.

Да, некоторая часть наших работников имеет “очень плохие” IP-адреса, решая с которых ReCaptcha они получают токены, которые при последующей верификации получают incorrect-captcha-sol. Для борьбы с этим, мы раз в час выдаём тестовую ReCaptcha для каждого уникального IP-адреса и верифицируем ответ на неё в google.com. Если мы получили incorrect-captcha-sol, то мы перестаём выдавать капчи для решения с этого IP и данный пользователь может решать капчи только через прокси (прокси, в свою очередь, также регулярно проверяются).

Таким образом мы снижаем процент “плохих” ответов до 1-3%. К сожалению, прошли те времена, когда мы с гордостью говорили, что все 100% ответов на ReCaptcha от нашего сервиса верные.

Возвраты за плохие решения

С июля мы включили приём reportbad на ReCaptcha. Поэтому для сокращения издержек на капчу, Вы можете настроить автоматическое уведомление нас о том, что полученный от нас токен не прошёл верификацию, как это сделать описано у нас в API\Reportbad.

Каждый час мы собираем статистику по жалобам на работников и возвращаем средства за те капчи, которые были разгаданы «плохим» работником.

Похоже, гугл считает мой IP\куку плохим. Я нигде не могу пройти капчу, что мне делать?

Да, множество простых людей столкнулись с проблемой, что они не могут пройти авторизацию\регистрацию на сайтах, где установлена ReCaptcha. Что с этим делать мы расскажем в следующей новости. Следите за обновлениями на нашем блоге!

ReCaptcha V2 решение капчи через капча-сервис.

Прохождения ReCaptcha v2 возможно двумя путями:

1) Лёгкий но дорогой
Когда Вы отправляете нам только адрес сайта, где вы проходите капчу и Google-токен с этого сайта. В ответ Вы получаете токен для прохождения рекапчи.
Этот метод лёгок в реализации с Вашей стороны: капча проходится без эмуляции браузера и без кликов по капче, но весьма сложен для нас. Т.к. нам приходится открывать рекапчу на своей стороне и показывать её работнику.
Стоимость: 160 руб за 1000 решений
Подробное описание и API: Прохождение ReCaptcha без эмуляции браузера

Для Владельцев Human Emulator: актуальный шаблон тут
Для Владельцев Zennoposter: актуальный шаблон тут

2) Сложный но дешёвый
Наш сервис поддерживает решение новой ReCaptcha v2, где нужно поставить галочку и выбрать изображения.
Мы поддерживаем капчи на 9/16/8 клеток.

Схема работы:

0) Вы в браузере открываете страницу с рекапчей
1) Вы ставите галочку
2) Получаете изображение + инструкцию
3) Отправляете нам изображение + инструкцию
4) Получаете от нас ID капчи
5) Через 5 секунд обращаетесь за ответом на капчу
6) Мы предоставляем номера картинок, которые нужно нажать для прохождения капчи
7) Кликаете по указанным изображениям.

Капча отправляется так же, как и обычные капчи (см. API отправки капч), но с дополнительными полями

Капча на 9\16 квадратов + текстовая инструкция Отправьте доп.параметры:
recaptcha=1
textinstructions=%TEXT%
Где %TEXT% — текст того, что нужно указать (дорожные знаки, пальмы, подарок, вывеска и т.д.)
Капча на 9\16 квадратов + инструкция в картинке Отправьте доп.параметры:
recaptcha=1
imginstructions=img
где «img» картинка инструкции. Её можно отправить multipart и base64

Требования к капче, образцу и тексту:
— Сама капча должна быть либо 300x300px, либо 600x600px, либо 632x632px
— Размер капчи должен быть как есть, на изображения 300х300 мы наложим сетку в 9 квадратов, на изображения 600х600 и 632x632px мы наложим сетку в 16 квадратов
— Капча должна быть меньше 100 Кбайт
-textinstructions должен приходить в кодировке UTF-8
-textinstructions должен содержать только то, что нужно выбрать на капче
-imginstructions должен быть не более 100x100px
-imginstructions должен быть меньше 25Кбайт

API и подробное описание алгоритма: Решение ReCaptcha с пересылкой картинок
Стоимость: 70 руб за 1000 решений

90000 html — Difference between CAPTCHA and reCAPTCHA 90001 Stack Overflow 90002 90003 Products 90004 90003 Customers 90004 90003 Use cases 90004 90009 90010 90003 Stack Overflow Public questions and answers 90004 90003 Teams Private questions and answers for your team 90004 90003 Enterprise Private self-hosted questions and answers for your enterprise 90004 90003 Jobs Programming and related technical career opportunities 90004 90003 Talent Hire technical talent 90004 90003 Advertising Reach developers worldwide 90004 90009 .90000 captcha — In reCAPTCHA, what data is being sent to Google and how often? 90001 Stack Overflow 90002 90003 Products 90004 90003 Customers 90004 90003 Use cases 90004 90009 90010 90003 Stack Overflow Public questions and answers 90004 90003 Teams Private questions and answers for your team 90004 90003 Enterprise Private self-hosted questions and answers for your enterprise 90004 90003 Jobs Programming and related technical career opportunities 90004 90003 Talent Hire technical talent 90004 90003 Advertising Reach developers worldwide 90004 90009 90024 Loading … 90025 90002 90003 90004 90003 Log in Sign up 90004 90031 90009.90000 Are reCAPTCHA CAPTCHAs getting harder or is just me 90001 Stack Overflow 90002 90003 Products 90004 90003 Customers 90004 90003 Use cases 90004 90009 90010 90003 Stack Overflow Public questions and answers 90004 90003 Teams Private questions and answers for your team 90004 90003 Enterprise Private self-hosted questions and answers for your enterprise 90004 90003 Jobs Programming and related technical career opportunities 90004 90003 Talent Hire technical talent 90004 90003 Advertising Reach developers worldwide 90004 90009 .90000 recaptcha — What is wrong with my recaptcha php? 90001 Stack Overflow 90002 90003 Products 90004 90003 Customers 90004 90003 Use cases 90004 90009 90010 90003 Stack Overflow Public questions and answers 90004 90003 Teams Private questions and answers for your team 90004 90003 Enterprise Private self-hosted questions and answers for your enterprise 90004 90003 Jobs Programming and related technical career opportunities 90004 90003 Talent Hire technical talent 90004 90003 Advertising Reach developers worldwide 90004 90009 90024 Loading … 90025 90002 90003 90004 90003 Log in Sign up 90004 90031 90032 90033 90004 90009.