reCAPTCHA — это… Что такое reCAPTCHA?
Логотип reCAPTCHA.reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов, и одновременной помощи в оцифровке текстов книг. Является продолжением проекта CAPTCHA[1]. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года, reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.
Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps с помощью сервиса ReCAPTCHA[2].
Принцип работы
В отличие от традиционных систем распознавания пользователя как человека, путём введения определённого набора символов и цифр, система reCAPTCHA предлагает пользователю ввести два слова. Одно из них уже распознано и известно системе, другое слово системе неизвестно и не может быть распознано программой распознавания текста. Проверка ввода осуществляется по тому слову, которое известно системе. Неизвестное системе слово, введённое пользователем, сохраняется и используется в качестве возможного варианта распознания. Конечное распознание слова определяется путём вычисления наиболее часто используемого слова для ввода. Система reCAPTCHA предоставляет изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов
Влияние
Система широко используется такими сайтами как Facebook, TicketMaster (англ.)русск., Twitter, bash.im, StumbleUpon, «Живой журнал» и примерно 350 000 других сайтов. В день оцифровывается примерно 100 миллионов слов, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги оценивается в 750 миллионов человек[1]. Эффективность подобного метода достаточно высока, поскольку системе предоставляется несколько распознанных вариантов.
Поскольку слова выводятся в случайном порядке, то неизбежно возникают курьёзные сочетания слов. Это породило интернет-мем «Inglip», когда люди делают снимок экрана двух слов предоставленных системой reCAPTCHA и дорисовывают курьёзные рисунки[1].
Частичный обход
Обычно пользователю предлагается два слова, одно из которых является словарным английским, а другое — нет. Для прохождения теста достаточно ввести только не словарное слово. Начиная с мая 2011 года, нужное слово выводится при помощи двойного наложения контура букв друг на друга. С недавних пор нужное слово выводится при помощи наложения на слово волнообразной линии.
Критика
reCAPTCHA используется для распознавания отсканированных текстов. Вводящие ответ пользователи вынуждены вводить примерно вдвое больше текста, чем в других системах CAPTCH’и, но не получают за это никакого вознаграждения, а весь доход от использованного распознанного текста остаётся корпорации Google, что расценивается некоторыми как принудительная эксплуатация труда.
Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.
Помимо этого reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком.
Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром или волнообразной линией. К тому же в непроверяемое слово иногда попадают знаки препинания, текст на других языках, математические формулы и т. п. Также у непроверяемого слова возможна инверсия цветов фона и букв. На имиджбордах выдвигаются предложения саботировать работу reCAPTCHA вводом ругательств: если достаточное количество пользователей укажут одно и то же ругательство, система, вероятно, внесёт его в электронный документ. На это надо больше времени, чем просто ввести вместо слова одну букву, но время пользователей имиджбоард — даровое благо. К тому же, при сколько-нибудь заметной популярности слова просто попадут в блеклист.
При слишком частых запросах капчи с одного IP адреса recaptcha становится почти нечитаемой, что сильно осложняет ее ввод при использовании Tor (т.к. частота запроса капчи с выходных узлов тора намного больше, чем с обычного пользовательского IP).
Примечания
Ссылки
Что такое recaptcha — описание защиты, примеры работы и установки
reCAPTCHA — это система, разработанная Carnegie Mellon University, которая утилизирует CAPTCHA, чтобы помочь процессу оцифровки текстов книг, который защищает веб-сайты от интернет-ботов, которые пытаются получить доступ к ограниченным для них зонам сайта. Данное решение отлично подходит для защиты от ботов, которые рассылают спам. В данный момент reCAPTCHA распознаёт и оцифровывает тексты из всемирного интернет архива archive.org (Internet Archive), и архивы журнала Нью-Йорк Таймс.
reCAPTCHA — предоставляет пользователям Ваших веб-сайтов изображения слов, которые (OCR) программное обеспечение для распознавания неспособно прочесть. Веб-сайты, которые установили на свой сайт reCAPTCHA (цели чьих вообще несвязаны с книжным проектом преобразования в цифровую форму) представляют эти изображения для людей, чтобы расшифровать как слова CAPTCHA, так и часть их нормальных процедур ратификации. Когда они возвращают результаты сервису reCAPTCHA, они таким образом помогают проекту пробразовать старые книги в цифровую (текстовую) форму. В результате университет получает приблизительно 3 000 человеко-часов в день бесплатной рабочей силы, для помощи в сохранения книг человечества.
reCAPTCHA имеет ту же самую цель что и организация распределённых корректоров, и используется такими популярными сайтами интернета как Facebook, TicketMaster, Twitter и StumbleUpon.
National Telecommunications и информационное правительство Соединённых Штатов также использует reCAPTCHA для цифрового телевизионного веб-сайта для системы конвертера купонов как часть DTV трансляции.
Использование
Большинство веб-сайтов использует reCAPTCHA, при подтверждения регистрации посетителями. Например, для того чтобы прежде, чем позволить посетителю отправлять сообщения на форуме веб-сайта, веб-сайт может потребовать, чтобы посетитель ввёл слова предоставленные reCAPTCHA.
Обычно такая регистрация на форумах сторонних веб-сайтов требует, чтобы посетитель имел действительную электронную почту и, в случае использования reCAPTCHA, вводил изображение CAPTCHA.
Как работает reCAPTCHA?
Просмотренный текст подвергается анализу двумя различными программами оптического распознавания текстов, и в случаях, где программы не соглашаются, сомнительное слово преобразовывается в CAPTCHA. Слово показывается пользователю наряду с контрольным словом, которое уже известно компьютеру.
Идентификации, выполняющиеся каждой программой OCR, дают ценность 0.5 пунктов, и при каждой верной интерпретации человеком даётся целый пункт. Как только оценка данной идентификации достигает 2.5 голоса, слово считается правильно распознанным. Прежде чем слово будет признанно распознанным, его должно будет одинаково ввести два разных человека.
Те слова, которым последовательно указывают на идентичность человеческим восприятием, далее перерабатываются и далее используются в качестве контрольных слов.
Очередным фактором в пользу надёжности reCAPTCHA как защиты от роботов, является то, что системой предоставляются именно те изображения слов, которые не были распознанны лучшими программами для анализа и распознавания текста, тем самым не давая шанса созданию такого программного обеспечения для ботов, которое будет способно правильно распознать картинку CAPTCHA, с целью несанкционированного доступа к некоторым охраняемым с помощью reCAPTCHA зонам веб-сайтов.
Интеграция
С помощью доступного пользователю интерфейса API интеграции, javascript и множеству плагинов к существующим проектам, как WordPress, reCAPTCHA можно встроить практически в любую область веб-сайта, где необходима защита от ботов. С каждым днём reCAPTCHA добавляет в свой список возможностей всё больше программных платформ, чтобы упростить пользователям интеграцию reCAPTCHA с их веб-сайтами. reCAPTCHA является бесплатным сервисом.
Капча — это… Что такое Капча?
Очень слабая CAPTCHA (на примере К верхнему изображению применяется отсечка по цвету (всё, что темнее некоторого порога, становится чёрным, остальное белое). Определяются границы символов, и каждый из них сравнивается с базой символов. Для разбора такой CAPTCHA не нужен даже OCR, поскольку в ней есть сразу несколько уязвимостей:- Лёгкое отделение символов от фона с помощью цветового ключа.
- Лёгкое отделение символов друг от друга.
- Фиксированный и неискажённый шрифт.
После отсечки на буквах образуется случайный узор, поэтому нет стопроцентной гарантии, что все символы будут опознаны (в PWNtcha рейтинг этой CAPTCH’и — 99 %). Но оставшийся один процент совершенно не важен. В новой линейке форума phpBB (3.x.x) по умолчанию используется усовершенствованная CAPTCHA с использованием библиотеки PWNtcha. Кроме того, существует возможность подключать модули из программ распознавания текста общего назначения (например, FineReader, OmniPage) в программы сторонних разработчиков для распознавания картинок CAPTCHA.
По отношению к автоматизированному распознаванию существуют понятия «слабая CAPTCHA» и «прочная CAPTCHA». В числе «слабостей» — фиксированный шрифт, фиксированное положение символов, отсутствие искажений, отделение символов от фона с использованием цветового ключа или размытия по Гауссу, лёгкое отделение символов друг от друга и т. д. Впрочем, иногда бывает, что прочная CAPTCHA оказывается труднораспознаваемой и для человека. Изредка встречается CAPTCHA, легко прочитываемая компьютером и с большими трудностями — человеком (например, с неконтрастной картинкой).
Даже если бот проходит CAPTCHA один раз из 100, этого хватает, чтобы посылать 430 сообщений в сутки (предполагается, что производительность бота — 1 запрос в 2 секунды, что приблизительно соответствует неоптимизированному алгоритму, запущенному в фоновом режиме на ПК средней мощности. Но чаще такие боты устанавливаются на серверах, у которых производительность в сотни раз выше, нежели у ПК рядовых пользователей).
Ручное распознавание
Есть способ «распознавания», использующий человеческий ресурс и ресурс высокопосещаемых сайтов, например, сайтов порно-тематики. Робот скачивает CAPTCHA с интернет-сервиса и показывает его пользователю порносайта, с просьбой ввести код, который он видит на картинке. Взамен пользователь получает доступ к ресурсу, а робот узнаёт код, изображённый на картинке («метод леммингов»). Пользователь может и не подозревать, что каждый просмотренный порноролик оборачивается регистрацией нового почтового ящика для рассылки спама.
Вариантом этого метода является сервис Captcha Exchange Server, запущенный в марте 2007 года и направленный на обход картинок CAPTCHA, используемых файлообменниками. Принцип работы сервиса основан на системе баллов, которые пользователь может заработать, распознав картинки для других пользователей, и позже потратить, запустив программу автоматического скачивания с файлообменников, при этом картинки будут распознаны другими пользователями сервиса. Таким образом, пользователь может оптимизировать затраты своего времени и денег, набирая баллы, когда он всё равно находится у компьютера, и тратя их, когда ему более удобно скачивать (например, в случае, если ночью доступ в интернет обходится дешевле).
Несмотря на уязвимости, это не означает, что любая CAPTCHA-защита априори бессмысленна. Тут наблюдается извесный принцип соревнования оружия и защиты (снаряда и брони). Гораздо хуже, если данная защита не используется.
reCAPTCHA
OCR слово, являющееся одним из множества искажённых фрагментов сканированных книг в дополнение к слову, сгенерированному компьютером. Этот сервис учитывает приёмы использования и возможности программ оцифровки текста книг. Для надёжности одно и то же слово предлагается нескольким пользователям различных сайтов. Когда разные пользователи одинаково ответили на CAPTCHA-запрос, предполагается, что они ввели правильное слово.
Ссылки
Wikimedia Foundation. 2010.
Капча — это… Что такое Капча?
Очень слабая CAPTCHA (на примере К верхнему изображению применяется отсечка по цвету (всё, что темнее некоторого порога, становится чёрным, остальное белое). Определяются границы символов, и каждый из них сравнивается с базой символов. Для разбора такой CAPTCHA не нужен даже OCR, поскольку в ней есть сразу несколько уязвимостей:- Лёгкое отделение символов от фона с помощью цветового ключа.
- Лёгкое отделение символов друг от друга.
- Фиксированный и неискажённый шрифт.
После отсечки на буквах образуется случайный узор, поэтому нет стопроцентной гарантии, что все символы будут опознаны (в PWNtcha рейтинг этой CAPTCH’и — 99 %). Но оставшийся один процент совершенно не важен. В новой линейке форума phpBB (3.x.x) по умолчанию используется усовершенствованная CAPTCHA с использованием библиотеки PWNtcha. Кроме того, существует возможность подключать модули из программ распознавания текста общего назначения (например, FineReader, OmniPage) в программы сторонних разработчиков для распознавания картинок CAPTCHA.
По отношению к автоматизированному распознаванию существуют понятия «слабая CAPTCHA» и «прочная CAPTCHA». В числе «слабостей» — фиксированный шрифт, фиксированное положение символов, отсутствие искажений, отделение символов от фона с использованием цветового ключа или размытия по Гауссу, лёгкое отделение символов друг от друга и т. д. Впрочем, иногда бывает, что прочная CAPTCHA оказывается труднораспознаваемой и для человека. Изредка встречается CAPTCHA, легко прочитываемая компьютером и с большими трудностями — человеком (например, с неконтрастной картинкой).
Даже если бот проходит CAPTCHA один раз из 100, этого хватает, чтобы посылать 430 сообщений в сутки (предполагается, что производительность бота — 1 запрос в 2 секунды, что приблизительно соответствует неоптимизированному алгоритму, запущенному в фоновом режиме на ПК средней мощности. Но чаще такие боты устанавливаются на серверах, у которых производительность в сотни раз выше, нежели у ПК рядовых пользователей).
Ручное распознавание
Есть способ «распознавания», использующий человеческий ресурс и ресурс высокопосещаемых сайтов, например, сайтов порно-тематики. Робот скачивает CAPTCHA с интернет-сервиса и показывает его пользователю порносайта, с просьбой ввести код, который он видит на картинке. Взамен пользователь получает доступ к ресурсу, а робот узнаёт код, изображённый на картинке («метод леммингов»). Пользователь может и не подозревать, что каждый просмотренный порноролик оборачивается регистрацией нового почтового ящика для рассылки спама.
Вариантом этого метода является сервис Captcha Exchange Server, запущенный в марте 2007 года и направленный на обход картинок CAPTCHA, используемых файлообменниками. Принцип работы сервиса основан на системе баллов, которые пользователь может заработать, распознав картинки для других пользователей, и позже потратить, запустив программу автоматического скачивания с файлообменников, при этом картинки будут распознаны другими пользователями сервиса. Таким образом, пользователь может оптимизировать затраты своего времени и денег, набирая баллы, когда он всё равно находится у компьютера, и тратя их, когда ему более удобно скачивать (например, в случае, если ночью доступ в интернет обходится дешевле).
Несмотря на уязвимости, это не означает, что любая CAPTCHA-защита априори бессмысленна. Тут наблюдается извесный принцип соревнования оружия и защиты (снаряда и брони). Гораздо хуже, если данная защита не используется.
reCAPTCHA
OCR слово, являющееся одним из множества искажённых фрагментов сканированных книг в дополнение к слову, сгенерированному компьютером. Этот сервис учитывает приёмы использования и возможности программ оцифровки текста книг. Для надёжности одно и то же слово предлагается нескольким пользователям различных сайтов. Когда разные пользователи одинаково ответили на CAPTCHA-запрос, предполагается, что они ввели правильное слово.
Ссылки
Wikimedia Foundation. 2010.
Капча — это… Что такое Капча?
Очень слабая CAPTCHA (на примере К верхнему изображению применяется отсечка по цвету (всё, что темнее некоторого порога, становится чёрным, остальное белое). Определяются границы символов, и каждый из них сравнивается с базой символов. Для разбора такой CAPTCHA не нужен даже OCR, поскольку в ней есть сразу несколько уязвимостей:- Лёгкое отделение символов от фона с помощью цветового ключа.
- Лёгкое отделение символов друг от друга.
- Фиксированный и неискажённый шрифт.
После отсечки на буквах образуется случайный узор, поэтому нет стопроцентной гарантии, что все символы будут опознаны (в PWNtcha рейтинг этой CAPTCH’и — 99 %). Но оставшийся один процент совершенно не важен. В новой линейке форума phpBB (3.x.x) по умолчанию используется усовершенствованная CAPTCHA с использованием библиотеки PWNtcha. Кроме того, существует возможность подключать модули из программ распознавания текста общего назначения (например, FineReader, OmniPage) в программы сторонних разработчиков для распознавания картинок CAPTCHA.
По отношению к автоматизированному распознаванию существуют понятия «слабая CAPTCHA» и «прочная CAPTCHA». В числе «слабостей» — фиксированный шрифт, фиксированное положение символов, отсутствие искажений, отделение символов от фона с использованием цветового ключа или размытия по Гауссу, лёгкое отделение символов друг от друга и т. д. Впрочем, иногда бывает, что прочная CAPTCHA оказывается труднораспознаваемой и для человека. Изредка встречается CAPTCHA, легко прочитываемая компьютером и с большими трудностями — человеком (например, с неконтрастной картинкой).
Даже если бот проходит CAPTCHA один раз из 100, этого хватает, чтобы посылать 430 сообщений в сутки (предполагается, что производительность бота — 1 запрос в 2 секунды, что приблизительно соответствует неоптимизированному алгоритму, запущенному в фоновом режиме на ПК средней мощности. Но чаще такие боты устанавливаются на серверах, у которых производительность в сотни раз выше, нежели у ПК рядовых пользователей).
Ручное распознавание
Есть способ «распознавания», использующий человеческий ресурс и ресурс высокопосещаемых сайтов, например, сайтов порно-тематики. Робот скачивает CAPTCHA с интернет-сервиса и показывает его пользователю порносайта, с просьбой ввести код, который он видит на картинке. Взамен пользователь получает доступ к ресурсу, а робот узнаёт код, изображённый на картинке («метод леммингов»). Пользователь может и не подозревать, что каждый просмотренный порноролик оборачивается регистрацией нового почтового ящика для рассылки спама.
Вариантом этого метода является сервис Captcha Exchange Server, запущенный в марте 2007 года и направленный на обход картинок CAPTCHA, используемых файлообменниками. Принцип работы сервиса основан на системе баллов, которые пользователь может заработать, распознав картинки для других пользователей, и позже потратить, запустив программу автоматического скачивания с файлообменников, при этом картинки будут распознаны другими пользователями сервиса. Таким образом, пользователь может оптимизировать затраты своего времени и денег, набирая баллы, когда он всё равно находится у компьютера, и тратя их, когда ему более удобно скачивать (например, в случае, если ночью доступ в интернет обходится дешевле).
Несмотря на уязвимости, это не означает, что любая CAPTCHA-защита априори бессмысленна. Тут наблюдается извесный принцип соревнования оружия и защиты (снаряда и брони). Гораздо хуже, если данная защита не используется.
reCAPTCHA
OCR слово, являющееся одним из множества искажённых фрагментов сканированных книг в дополнение к слову, сгенерированному компьютером. Этот сервис учитывает приёмы использования и возможности программ оцифровки текста книг. Для надёжности одно и то же слово предлагается нескольким пользователям различных сайтов. Когда разные пользователи одинаково ответили на CAPTCHA-запрос, предполагается, что они ввели правильное слово.
Ссылки
Wikimedia Foundation. 2010.
Капча — это… Что такое Капча?
Очень слабая CAPTCHA (на примере К верхнему изображению применяется отсечка по цвету (всё, что темнее некоторого порога, становится чёрным, остальное белое). Определяются границы символов, и каждый из них сравнивается с базой символов. Для разбора такой CAPTCHA не нужен даже OCR, поскольку в ней есть сразу несколько уязвимостей:- Лёгкое отделение символов от фона с помощью цветового ключа.
- Лёгкое отделение символов друг от друга.
- Фиксированный и неискажённый шрифт.
После отсечки на буквах образуется случайный узор, поэтому нет стопроцентной гарантии, что все символы будут опознаны (в PWNtcha рейтинг этой CAPTCH’и — 99 %). Но оставшийся один процент совершенно не важен. В новой линейке форума phpBB (3.x.x) по умолчанию используется усовершенствованная CAPTCHA с использованием библиотеки PWNtcha. Кроме того, существует возможность подключать модули из программ распознавания текста общего назначения (например, FineReader, OmniPage) в программы сторонних разработчиков для распознавания картинок CAPTCHA.
По отношению к автоматизированному распознаванию существуют понятия «слабая CAPTCHA» и «прочная CAPTCHA». В числе «слабостей» — фиксированный шрифт, фиксированное положение символов, отсутствие искажений, отделение символов от фона с использованием цветового ключа или размытия по Гауссу, лёгкое отделение символов друг от друга и т. д. Впрочем, иногда бывает, что прочная CAPTCHA оказывается труднораспознаваемой и для человека. Изредка встречается CAPTCHA, легко прочитываемая компьютером и с большими трудностями — человеком (например, с неконтрастной картинкой).
Даже если бот проходит CAPTCHA один раз из 100, этого хватает, чтобы посылать 430 сообщений в сутки (предполагается, что производительность бота — 1 запрос в 2 секунды, что приблизительно соответствует неоптимизированному алгоритму, запущенному в фоновом режиме на ПК средней мощности. Но чаще такие боты устанавливаются на серверах, у которых производительность в сотни раз выше, нежели у ПК рядовых пользователей).
Ручное распознавание
Есть способ «распознавания», использующий человеческий ресурс и ресурс высокопосещаемых сайтов, например, сайтов порно-тематики. Робот скачивает CAPTCHA с интернет-сервиса и показывает его пользователю порносайта, с просьбой ввести код, который он видит на картинке. Взамен пользователь получает доступ к ресурсу, а робот узнаёт код, изображённый на картинке («метод леммингов»). Пользователь может и не подозревать, что каждый просмотренный порноролик оборачивается регистрацией нового почтового ящика для рассылки спама.
Вариантом этого метода является сервис Captcha Exchange Server, запущенный в марте 2007 года и направленный на обход картинок CAPTCHA, используемых файлообменниками. Принцип работы сервиса основан на системе баллов, которые пользователь может заработать, распознав картинки для других пользователей, и позже потратить, запустив программу автоматического скачивания с файлообменников, при этом картинки будут распознаны другими пользователями сервиса. Таким образом, пользователь может оптимизировать затраты своего времени и денег, набирая баллы, когда он всё равно находится у компьютера, и тратя их, когда ему более удобно скачивать (например, в случае, если ночью доступ в интернет обходится дешевле).
Несмотря на уязвимости, это не означает, что любая CAPTCHA-защита априори бессмысленна. Тут наблюдается извесный принцип соревнования оружия и защиты (снаряда и брони). Гораздо хуже, если данная защита не используется.
reCAPTCHA
OCR слово, являющееся одним из множества искажённых фрагментов сканированных книг в дополнение к слову, сгенерированному компьютером. Этот сервис учитывает приёмы использования и возможности программ оцифровки текста книг. Для надёжности одно и то же слово предлагается нескольким пользователям различных сайтов. Когда разные пользователи одинаково ответили на CAPTCHA-запрос, предполагается, что они ввели правильное слово.
Ссылки
Wikimedia Foundation. 2010.