Machine learning что это такое: Введение в машинное обучение / Habr – «Что такое машинное обучение?» – Яндекс.Кью

Содержание

От веб-разработчика до специалиста по машинному обучению / Mail.ru Group corporate blog / Habr

Не у каждого хватает смелости поменять освоенную профессию, в которой уже достиг каких-то вершин. Ведь это требует больших усилий, а положительный результат не гарантирован. Полтора года назад мы рассказывали, как один из наших тимлидов серверной разработки переквалифицировался в iOS-программиста. И сегодня мы хотим рассказать о ещё более «крутом повороте»: Алан Chetter2 Басишвили, занимавшийся frontend-разработкой, настолько увлёкся машинным обучением, что вскоре превратился в серьёзного специалиста, стал одним из ключевых разработчиков популярного проекта Artisto, а теперь занимается распознаванием лиц в Облаке Mail.Ru. Интервью с ним читайте под катом.

Почему ты захотел быть программистом?

Понимание того, что я хочу быть программистом, пришло классе в шестом-седьмом благодаря проблеме с запуском одной игры. Консультироваться было не с кем, и я безвылазно просидел за компьютером несколько дней, но решил проблему. И остался очень доволен. Захотелось создать свою игру. Потому стал посещать местные курсы по программированию.

В каких проектах ты работал над фронтендом, что нравилось больше всего, что нового использовал?

Начинал, как и многие, с CMS. Эта работа сама меня нашла. Думаю, многих программистов, даже если они никак не связаны с вебом, хоть однажды, но просили сделать онлайн-магазин. Дальше была целая сеть магазинов, там я писал админки. Делалось это без фреймворков, изобретали велосипеды, но было очень увлекательно. Там же полюбил проектирование архитектуры ПО. А затем перешёл к работе над фронтендом. Писал чаты, p2p-видеозвонки и многое другое.

Что общего между вороном и письменным столом? В смысле, между фронтендом и нейросетями? Почему так быстро удалось изучить их?

Ничего общего, за исключением необходимости писать код. А помогло математическое образование. Кроме того, программисту проще изучать deep learning, как мне кажется.


С чем связан тогда интерес к переходу из фронтенда в нейросети?

Меня всегда это интересовало, и дипломный проект был связан с машинным обучением, хотя я не очень тогда понимал, что я делаю. На Coursera я прошёл курс «Введение в машинное обучение». Постепенно зарождалось понимание, как работают вещи, которыми я пользуюсь каждый день, такие как персональные рекомендации, поиск и многое другое, и понимание приводило меня в восторг. Это, наверное, один из основных мотиваторов — жажда понять, как работает современное машинное обучение. И когда я познакомился с deep learning, то потерял интерес ко всему остальному. Фронтенд стал просто рутиной. Я приходил на работу, и, хотя у меня были довольно интересные и сложные задачи, они отошли на второй план по сравнению с тем, чем я занимался по ночам.

А какой график занятий у тебя был?

Поначалу, когда было только введение в машинное обучение, я тратил на это только выходные. Затем я начал участвовать в соревновании. На него уходили и выходные, и ночи. До трёх часов ночи я обычно сидел и занимался. И после этого ещё довольно долгое время оставался запал, так что я продолжал изучать нейросети каждый день по ночам. Так я прожил полгода.

Что ты рекомендуешь почитать про нейросети из вышедшего за последние полгода на уровне, после чего можно вносить реальный вклад в разработку?

Сейчас есть множество курсов, где всё разложено по полочкам. Они могут дать очень быстрый старт. По нейросетям есть замечательный стенфордский курс cs231n, его ведёт Андрей Карпатый. Далее можно читать и конспектировать «Deep Learning» от Яна Гудфеллоу. Ещё неплохой ресурс Neural Networks and Deep Learning. Но начинать, конечно, лучше с основ ML.

Как считаешь, какой формат обучения сейчас лучше: книги, курсы, видео на YouTube, ещё что-то, может быть?

Мне показалось разумным сначала окончить курсы, а затем прочесть книги, потому что на курсах всё довольно упрощённо, там разжёвывают информацию, а книги дают уже полное понимание. Сегодня по машинному обучению существует очень много курсов. Тот, что я окончил на Coursera, называется «Введение в машинное обучение», им занималась команда из «Яндекса», включая Воронцова.

То есть сначала нужно понимание базовых концепций. А если сразу начать читать книгу, то может оказаться слишком трудно, и ты закопаешься в подробностях. Надо идти от простого к сложному, постепенно углубляясь.

Также очень помогает писать код. Только тогда начинаешь замечать важные детали и получать настоящий опыт. Можно прочитать 50 статей, и на выходе у тебя что-то останется в голове, но на уровне концепции. А чтобы действительно что-то понять и научиться это применять, нужно сесть и начать программировать. Самое эффективное — поучаствовать в каком-нибудь соревновании типа Kaggle. Или просто брать и делать свой проект на основе прочитанного.

Какие блоги по нейросетям ты читаешь и почему?

У Карпатого есть отличный блог, но новые посты давно не появлялись. Ещё OpenAI Blog, inFERENCe. Читаю в Twitter и Facebook свежие новости ведущих разработчиков. Мне нравится поисковик Карпатого по научным публикациям. Там есть ещё рекомендации и очень интересная рубрика «Топ Хайп» — это самые часто упоминаемые в твитах статьи.

Если бы у тебя была возможность освоить новую технологию в этом году, что бы это было?

Хочу поплотнее поработать с GAN-архитектурами. Это подход к обучению генеративных сетей. Допустим мы хотим генерировать правдоподобные изображения спален. Для этого мы обучаем генератор (сеть принимающую случайный вектор и выдающую изображения) обманывать дискриминатор (сеть обучаемую отличать настоящие спальни от сгенерированных). То есть сети противостоят друг другу и совершенствуются во время обучения. В конце концов генератор может выдавать изображения, которые иногда могут обмануть и человека. На практике GAN хорошо себя показали в задаче повышения разрешения изображений (SRGAN), а также позволили генерировать правдоподобных котиков по наброскам как в pix2pix.

Можно ли использовать технологии нейросетей для фронтенда. И если да, то где?

Не так давно наткнулся на новость о генерировании HTML и CSS по картинке при помощи рекуррентных сетей. Не очень люблю верстать, так что эта идея кажется интересной.

А какие сейчас ещё есть интересные применения нейросетей? Все мы знаем про обработку фоток, видео, сейчас ещё генерация всяких лиц. А какие ещё в принципе возможны применения?

Из прочих современных применений нейросетей можно отметить генерирование речи, например проект WaveNet. Уже получается очень похоже на настоящую речь. Также активно ведутся работы по автоматической подгонке видеоряда под конкретную речь, например можно будет «снять», как какой-нибудь политик говорит те или иные слова. Скоро нас ждёт мир, в котором будет уже непонятно, что фальшивка, а что нет.


Как ты оптимизируешь свой код?

Как и остальные: профилирую и устраняю узкие места. Если речь об оптимизации inference-сети, то тут всё, как правило, сделано за нас, за исключением случаев с самописными слоями. С ними приходится повозиться.

Есть ли у тебя какой-нибудь личный проект или, быть может, хобби, позволяющее здорово перезагружать мозг?

Сейчас нет. Работа достаточно интересна, чтобы заниматься ей как хобби. Чтобы отвлечься, читаю книги и смотрю сериалы.

Какие задачи для решения с помощью нейросетей ты считаешь самыми сложными/интересными?

Беспилотные автомобили — очень сложная и интересная проблема. Такая система должна работать очень точно. Распознавать машины, дорогу, деревья, тротуар, пешеходов, самое сложное — соединять всё это вместе и давать автомобилю команду, куда ему повернуть, ехать побыстрее или помедленнее. Ко всему прочему ответственность очень велика. Заменить все автомобили беспилотными будет трудно, но это полностью решаемая задача. Уже сейчас есть автомобили с некоторыми навыками беспилотных. Ошибки, безусловно, ещё случаются. Google идёт по пути накопления огромнейших выборок (машины проехали 3 миллиона миль). Большое количество их машин каждый день ездят, собирают информацию, выявляют краевые случаи ошибок ИИ, и специалисты всё время их дообучают. В итоге сейчас они готовы выходить в коммерческую эксплуатацию, запустили бета-программу. Думаю, у них наверняка будет самый лучший беспилотник. К тому же на первых порах человек может сидеть за рулем и контролировать. А уж если посмотреть, как люди водят в России, то беспилотники гораздо безопаснее и их надо внедрять как можно скорее.

Медицина — также одно из важнейших направлений для машинного обучения. Представьте, что вас обследует не один врач-человек, а объединённое экспертное мнение всей мировой — западной, азиатской, аюрведической, какой хотите — медицины, которая объединяет экспертизу и статистику со всего мира. Или посмотрите на то, с какой точностью удалось находить рак на снимках биопсии. А главное, эти методики легко масштабировать.

А у искусственного интеллекта есть понятие обновления в софте? Первая версия, потом накатили вторую версию? Один раз запрограммировали — и он сам обучается?

Надо подчеркнуть, что мы говорим о слабом искусственном интеллекте. Конечно, у него есть понятие обновления: мы можем заменить старую нейросеть, которая работала менее качественно. Ведь нейросеть — это условный набор весов и операций, которые необходимо проделать с ними. Эти веса можно обновлять хоть каждый день. Почти все эти алгоритмы не обучаются онлайн, они специально обучаются однократно. Да, есть reinforcement learning — методы, которые заточены на то, чтобы обучаться на обратной связи от среды. Технология активно развивается, хотя примеров внедрения пока мало.

То есть в таком виде софта не может быть серьёзных ошибок?

Конечно, может. Классический пример: американская армия захотела использовать нейросети для автоматического распознавания вражеских танков в камуфляже среди деревьев. Исследователи получили небольшой датасет размеченных картинок и обучили модель классификации на фотографиях закамуфлированных танков среди деревьев и фотографиях деревьев без танков. Используя стандартные методы контролируемого обучения, исследователи обучили нейронную сеть присваивать снимкам нужные классы и убедились в ее корректной работе на тестовом отложенном датасете. Но хорошие результаты на выборках не гарантируют, что не произошло переобучения, и в продакшене все будет работать корректно. В общем, исследователи отдали результат, а через неделю заказчик заявил, что результат распознавания оказался совершенно случайным. Оказалось, что в выборке были танки с камуфляжем в пасмурную погоду, а леса — в солнечную, и сеть научилась различать погодные условия.

И таких примеров множество. Можно переобучиться под что угодно. Например, мы недавно распознавали паспорта. Сеть выучила круглые узорчики в документе. Потом она увидела фотографию нарезанного лука, у которого очень похожие паттерны, и сказала, что это паспорт. И такие краевые случаи можно отлавливать много и долго.

То есть может быть такое, что машина в прошлой своей версии понимала, что это на картинке человек идёт, а потом ей накатывают новую версию — и она уже не понимает?

Запросто. Есть немало статей о том, как обновлять машинные системы, чтобы они не забывали ранее приобретённые знания. Например, можно учить модель так, чтобы она по-прежнему распознавала всё, что и раньше, или не сильно меняла распределение весов. Даже если станешь дообучать модель, она может уйти в другую точку оптимума, не связанную с текущей моделью. Здесь нужно быть очень аккуратным.

Ты работал над проектом Artisto, расскажи, как он начинался.

Мы взаимодействовали с Поиском Mail.Ru, у нас была команда, человек пять на первом этапе. Проект делался на энтузиазме. Недели за две мы получили вменяемые результаты, ещё недели две доводили до состояния, необходимого для production, параллельно допиливали бекенд. За месяц выпустили продукт, работающий с видео. Изначально пытались реализовать обработку фотографий, но потом решили, что не стоит повторять Prisma, нужно создавать что-то новое. Потом люди начали уходить, потому что у них были свои дела.

Чем различаются обработка фото и видео?

В Artisto видео разбивается на кадры, а затем они стилизуются независимо друг от друга. Есть, к примеру, другой метод стилизации видео, дающий более плавный результат. Там получается сложнее с учётом так называемого optical flow, когда для постоянства стилизации мы отслеживаем, куда «перетекают» пиксели от кадра к кадру. В частности мы стилизуем один кадр, а затем используем его модификацию для стилизации следующего. Мы знаем, как в следующем кадре расположен объект, двигаем все пиксели, которые есть на картинке, и стартуем с этого кадра. Потом берём следующий кадр, опять optical flow, двигаем пиксели, стартуем с этого кадра, стилизуем его. И так далее.

В Artisto стилизуется не весь кадр целиком, а только изменившиеся фрагменты?

Почти так, но не совсем. Видео обрабатывается таким образом, чтобы у нас сохранялась стилизация предыдущего кадра. Основная проблема в том, что у тебя к каждому кадру может получиться разная стилизация, и тогда изображение будет «лихорадить». Чтобы решить эту проблему, мы обучали нейросеть таким образом, чтобы она была менее чувствительна ко всякого рода шумам, чтобы от перемены освещения ничего не поменялось, а также модифицировали функцию потерь. Читайте хабрапост на эту тему.

В каких проектах нашей компании уже используется машинное обучение?

Во многих: в Почте, Поиске, Одноклассниках, ВКонтакте, Юле, Бипкаре. Например, с его помощью анализируется текст публикаций в соцсетях и на сайтах, индексируемых нашим поисковиком. Вообще, под термином «машинное обучение» подразумевается широкий спектр дисциплин, в том числе и глубокое обучение (deep learning), то есть нейросети. Это направление сейчас очень активно развивается. Особенно ярких результатов удалось добиться в сфере компьютерного зрения. Старые методы машинного обучения имели низкую точность распознавания изображений, но сейчас уже есть высокоэффективные подходы. Благодаря этому машинное обучение получило новый импульс развития, потому что распознавание фотографий — практичная, понятная и многим близкая задача, демонстрирующая пользу нейросетей.

С текстом дела обстоят хуже, но тоже неплохо. Машинный перевод пока уступает человеку, а в распознавании изображений deep learning во многих случаях обгоняет человека. Нейросети великолепно справляются с некоторыми компьютерными играми, особенно простыми, основанными на реакции. С другими же — слабо. Особенно когда речь идёт о тяжёлых стратегиях, где нужно управлять большим количеством юнитов. Здесь reinforcement learning работает не слишком эффективно. Полагаю, нужно больше исследований на эту тему.

Но совсем недавно прогремели ребята из OpenAI со своим ботом для Dota 2. Бот разбил лучших игроков мира в схватках 1 × 1. Dota — сложная игра, потому это знаменательное событие.

Не так давно в социальных сетях был очень яркий конфликт между Маском и Цукербергом относительно государственного регулирования в сфере искусственного интеллекта. К какому лагерю ты примыкаешь и почему? Чьи аргументы кажутся тебе сильнее, чьи слабее?

Мне кажется, что рано пока говорить о сильном искусственном интеллекте. Но когда мы к нему приблизимся, то уже будет понятно, как его регулировать. Пока мы программируем просто какие-то задачки. Мы это делаем сами и знаем, что получится на выходе. То есть не будет такого, что машина, которая управляла поисковой выдачей, внезапно начнёт строить заговоры.

Да — беспилотный автомобиль может сбить пешехода. Но не специально, а из-за ошибки. Когда мы будем создавать сильный интеллект, то встанет проблема его обучения так, чтобы он разделял цели человечества. Например, сегодня при обучении мы точно говорим, чтобы ошибка на выборке была ниже, функция потерь такая-то. Но на самом деле мы хотим, чтобы машина хорошо распознавала объекты. Для этого мы минимизируем функцию потерь. Минимизация функции потерь — это математическая запись указания сети «не ошибайся на данном наборе изображений». Сеть подстраивается и приобретает обобщающую способность, то есть выявляет закономерности и учится правильно предсказывать класс для изображений, которые никогда не видела. Эти закономерности бывают неправильными. В частности, модель может называть лук паспортом, и так далее. А в человека в процессе взросления закладываются моральные принципы, которые он на ходу валидирует и адаптирует. Так и ИИ каким-то образом должны быть привиты наши моральные принципы.

Какие применения нейросетей на рынке ты сегодня считаешь самыми впечатляющими/передовыми и почему?

Нейросети в принципе поражают, особенно когда знаешь, как они работают. На рынке довольно часто применяют классификаторы изображений, детекторы объектов и сети для распознавания лиц. Некоторые решения этих задач впечатляют элегантностью и простотой. Также могу отметить беспилотные автомобили и машинный перевод. Например, у Google нейросеть использует промежуточный язык, через который выполняет переводы с других, настоящих языков (точнее, речь идёт о векторных представлениях, из которых составляются фразы на любых других языках). Система получает на вход предложение на английском, формирует наборы чисел, а потом другая часть сети преобразует эти наборы, например в предложение на французском. И когда одна и та же нейросеть обучается так преобразовывать между многими языками, то у нее формируется какое-то универсальное представление текста, благодаря которому сеть может связывать друг с другом разные языки, прямому переводу между которыми она не училась. Например, её можно натренировать переводить EN ⇄ FR и EN ⇄ RU — и тогда модель сумеет переводить FR ⇄ RU.

Какими знаниями/навыками должен обладать специалист по нейросетям?

Нужна эрудиция в ряде математических дисциплин и ML в целом. Чем больше знаний у специалиста в голове, тем проще и быстрее он может решать задачи. Помимо багажа знаний нужно любопытство. Каждый день появляются новые архитектуры и подходы к обучению нейросетей. Специалисту необходимо поддерживать свои знания в актуальном состоянии.

А как у нас в компании с вакансиями для специалистов по глубокому обучению?

У нас в компании специалисты по машинному обучению сейчас есть практически в каждом бизнес-юните. В Почту мы активно ищем специалистов для улучшения антиспама и для создания новых «умных» функций (в основном работа с текстом). Также мы заинтересованы в специалистах для разработки компьютерного зрения. В Облако — специалистов по комьютерному зрению. Еще из интересных областей, где мы используем глубокое обучение и ищем профильных специалистов, можно отметить разработку и совершенствование рекомендательных систем, анализ больших данных и работа с текстом в самых разных проектах (например, предсказание правильных ответов в Поиске Mail.Ru). ML есть и в рекламной крутилке, и в формировании умной ленты социальных сетей и в Поиске.

То есть в компании все функции людей постепенно замещаются искусственным интеллектом?

Надо понимать, что программирование от этого никак не упрощается, а только усложняется. Программисты ещё долго будут востребованы. Кроме того, специалисты по ИИ тоже должны быть в первую очередь программистами: обучить программиста созданию ИИ гораздо проще. И они принесут компании гораздо больше пользы, потому что будут очень быстро реализовывать свои идеи, в отличие от чистых исследователей. В целом многие компании, и наша в том числе, вкладывают огромные деньги в искусственный интеллект. Например, сейчас Китай до 2030 года хочет стать лидером в этой области. В одной только корпорации Baidu работает 1300 специалистов по машинному обучению.

Какое направление в сфере нейросетей ты считаешь самым перспективным?

Самое перспективное — сильный ИИ. Тут вопрос: можем ли мы перейти от решения маленьких конкретных задач к сильному искусственному интеллекту. Как всё это совместить? Не уверен, что путь к сильному искусственному интеллекту лежит через решение простых задач. Но вообще, если исключить сильный ИИ — то да, это замещение человека во всех сферах деятельности.

Как ты думаешь, удастся ли создать ИИ, который по всем параметрам будет превосходить человека? И если да, то когда?

Это вопрос времени. Согласно опросам учёных, его появления можно ожидать в 2050—2090-е годы. Но мне кажется, это так не работает. Мы копируем отдельные функции мозга, но как от этого перейти к сильному ИИ — думаю, неизвестно пока никому. Впрочем, сегодня уже удалось добиться хороших результатов в некоторых узких направлениях, например в распознавании изображений.

Обучение с подкреплением — Википедия

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

Агент воздействует на среду, а среда воздействует на агента. О такой системе говорят, что она имеет обратную связь. Такую систему нужно рассматривать как единое целое, и поэтому линия раздела между средой и агентом достаточно условна. Конечно, с анатомической или физической точек зрения между средой и агентом (организмом) существует вполне определённая граница, но если эту систему рассматривать с функциональной точки зрения, то разделение становится нечётким. Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, придающего форму куску мрамора, либо частью материала, которым пытается управлять нервная система.

Впервые такого рода обучение с обратной связью было предложено и изучено в 1961 году в работе Михаила Львовича Цетлина, известного советского математика[1].

М. Л. Цетлин тогда поместил конечный автомат определённой конструкции во внешнюю среду, которая с вероятностями, зависящими от совершаемого автоматом действия, наказывала или поощряла автомат. В соответствии с реакцией среды автомат самостоятельно изменял своё внутреннее состояние, что приводило к постепенному снижению числа наказаний, то есть обучению.

Для анализа поведения этого автомата был впервые использован аппарат цепей Маркова, разработанный А. А. Марковым, который позволил получить точные и доказательные результаты.

Этот материал был опубликован в одном из наиболее престижных и влиятельных научных советских изданий — «Доклады Академии наук СССР». М. Л. Цетлин называл эту проблему изучением поведения автомата в случайной среде.

Статья М. Л. Цетлина вызвала волну публикаций, в которых предлагались всевозможные усовершенствования конструкций конечных автоматов, интенсивно использовавшиеся в многочисленных приложениях.

М. Л. Цетлин ввёл в оборот новый термин — целесообразное поведение автомата в случайной среде. Его ученик, В. Л. Стефанюк, рассмотрел в 1963 году задачу о коллективном поведении, определив новый термин — «коллективное поведение автоматов» и детально исследовав поведение пары автоматов, введённых М. Л. Цетлиным в его первой публикации о целесообразном поведении автоматов.

В. Л. Стефанюком была изготовлена действующая обучающаяся модель на полупроводниковых элементах и вакуумных радиолампах, в которой было реализовано коллективное поведение двух таких автоматов. Эта модель была защищена в 1962 году в качестве выпускной работы на Физическом факультете Московского государственного университета.

В это же время (1963) М. Л. Цетлиным была сформулирована задача об играх автоматов, которая моделировала несколько важных проблем биологии и социологии. Несколько позже М. Л. Цетлин и С. Л. Гинзбург описали конструкцию так называемого ε-автомата, который часто используется в современных публикациях по обучению с подкреплением.

Многочисленные советские публикации о целесообразном поведения автоматов, доложенные на национальных и международных конференциях, через много лет навели авторов обучения с подкреплением на мысль о выделении этого типа обучения в отдельный класс.

Что касается коллективного поведения автоматов, то что-то подобное вылилось у зарубежных авторов в концепцию многоагентных систем, которая изучалась в терминах искусственного интеллекта и программирования. Однако математические методы анализа и доказательства в многоагентных системах практически не использовались, в отличие от работ М. Л. Цетлина и В. Л. Стефанюка по целесообразному поведению автомата, а также по коллективному поведению и играм нескольких автоматов.

Розенблатт пытался классифицировать различные алгоритмы обучения, называя их системами подкрепления.[2] Он даёт следующее определение:

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона — метода коррекции ошибки, который можно отнести к обучению с учителем, Розенблатт также ввёл понятие об обучении без учителя, предложив несколько способов обучения:

  • Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей cij{\displaystyle c_{ij}}, которые ведут к элементу uj{\displaystyle u_{j}}, изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.
  • Гамма-системой подкрепления называется такое правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, делённому на число всех связей. Эта система обладает свойством консервативности относительно весов, так как у неё полная сумма весов всех связей не может ни возрастать, ни убывать.
  • BURLAP (Brown-UMBC Reinforcement Learning and Planning) — библиотека одно- и многоагентных алгоритмов планирования и обучения с подкреплением, язык Java, лицензия LGPL
  • MMLF (Maja Machine Learning Framework) — библиотека алгоритмов обучения с подкреплением и набор тестовых сред для их проверки, язык Python, лицензия GPL
  • OpenAI Gym — платформа для разработки и сравнения алгоритмов обучения с подкреплением от OpenAI, язык Python, лицензия MIT
  • PyBrain — библиотека алгоритмов машинного обучения, язык Python, лицензия BSD
  • RLPy — библиотека для проведения экспериментов по обучению с подкреплением, язык Python, 3-х пунктовая лицензия BSD
  • Teachingbox — инструментарий для разработки алгоритмов обучения с подкреплением, язык Java, лицензия GPL
  1. ↑ Гельфанд И. М., Пятецкий-Шапиро И. И., Цетлин М. Л. О некоторых классах игр и игр автоматов // Докл. АН СССР, 1963, том 152, номер 4, С. 845—848.
  2. ↑ Розенблатт, Ф., с. 85—88.

10 крутых примеров использования машинного обучения

Искусственный интеллект и машинное обучение – одни из самых значимых технологических разработок последнего времени. Однако они до сих пор остаются недооцененными.

10 примеров использования машинного обучения

Хотите увидеть, как применяется машинное обучение в реальной жизни?

Ниже мы расскажем вам о 10 компаниях, которые эффективно используют новые технологии в своей стратегии.

1. Yelp – Курирование изображений

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Хоть Yelp, популярный сайт с отзывами, и не кажется высокотехнологическим брендом, он активно использует машинное обучение для улучшения опыта пользователей.

Классификация изображений по категориям фасад/интерьер кажется легкой задачей для человека, но компьютеру с ней справится совсем непросто.

Фото важны для Yelp не меньше отзывов пользователей, вот почему компания прикладывает не мало усилий для повышения эффективности работы с изображениями.

Несколько лет назад бренд решил обратиться к машинному обучению и впервые применил технологию классификации фото. Алгоритмы помогают сотрудникам компании выбирать категории для изображений и проставлять метки. Вклад машинного обучения сложно переоценить, ведь бренду приходится анализировать десятки миллионов фото.

2. Pinterest – Поиск контента

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Основная функция соцсети Pinterest – курирование контента. И компания делает все возможное, чтобы повысить эффективность этого процесса, в том числе применяя машинное обучение.

В 2015 Pinterest приобрел Kosei – компанию, специализирующуюся на коммерческом применении машинного обучения (в частности, на поиске контента и алгоритмах рекомендаций).

Сегодня машинное обучение участвует в каждом аспекте бизнес-операций Pinterest, от модерации спама и поиска контента до монетизации рекламы и снижения числа отписок от рассылки. Очень неплохо.

3. Facebook – Армия чатботов

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Facebook Messenger – один из самых интересных продуктов крупнейшей социальной платформы в мире. Все потому, что мессенджер стал своеобразной лабораторией чатботов. При общении с некоторыми из них сложно понять, что ты разговариваешь не с человеком.

Любой разработчик может и запустить его на базе Facebook Messenger. Благодаря этому даже небольшие компании имеют возможность предлагать клиентам отличный сервис.

Конечно, это не единственная сфера применения машинного обучения в Facebook. AI приложения используются для фильтрации спама и контента низкого качества, также компания разрабатывает алгоритмы компьютерного зрения, которые позволяют компьютерам “читать” изображения.

4. Twitter – Новостная лента

Одно из самых значимых изменений в Twitter за последнее время – переход к новостной ленте на базе алгоритмов.

Теперь пользователи соцсети могут сортировать отображаемый контент по популярности или по времени публикации.

В основе этих изменений лежит применение машинного обучения. Искусственный интеллект анализирует каждый твит в реальном времени и оценивает его по нескольким показателям.

Алгоритм Twitte в первую очередь показывает те записи, которые с большей вероятностью понравятся пользователю. При этом выбор основывается на его личных предпочтениях.

5. Google – Нейронные сети

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

У Google впечатляющие технологические амбиции. Сложно представить себе сферу научных исследований, в которую бы не внесла вклад эта корпорация (или ее головная компания Alphabet).

Например, за последние годы Google занимались разработкой технологий, замедляющих старение, медицинских устройств и нейронных сетей.

Самое значимое достижение компании – создание в DeepMind машин, которые могут мечтать и создавать необычные изображения.

Google стремится изучить все аспекты машинного обучения, что помогает компании совершенствовать классические алгоритмы, а также эффективнее обрабатывать и переводить естественную речь, улучшать ранжирование и предсказательные системы.

6. Edgecase – Показатели конверсии

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Уже давно ритейлеры пытаются объединить шопинг в онлайн и оффлайн-магазинах. Но только немногим это действительно удается.

Edgecase использует машинное обучение для улучшения опыта своих клиентов. При этом бренд стремится не только повысить показатели конверсии, но хочет помочь тем покупателям, которые имеют смутное представление о том, чего они хотят.

Анализируя поведение и действия пользователей, которые свидетельствуют о намерении совершить покупку, бренд делает онлайн-поиск более полезным и приближает его к опыту шопинга в традиционном магазине.

7. Baidu – Будущее голосового поиска

Google не единственный поисковой гигант, который осваивает машинное обучение. Китайский поисковик Baidu тоже активно инвестирует в развитие AI.

Одна из самых интересных разработок компании – Deep Voice, нейронная сеть, способная генерировать синтетические человеческие голоса, которые практически невозможно отличить от настоящих. Система может имитировать особенности интонации, произношения, ударения и высоты тона.

Последнее изобретение Baidu Deep Voice 2 значительно повлияет на эффективность обработки естественного языка, голосового поиска и систем распознавания речи. Применять новую технологию можно будет в других сферах, например, устных переводах и системах биометрической безопасности.

8. HubSpot – Умные продажи

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

HubSpot уже давно известен своим интересом к технологиям. Компания недавно приобрела Kemvi – бренд, специализирующийся на машинном обучении.

HubSpot планирует использовать технологию Kemvi для нескольких целей: самая значимая – интеграция машинного обучения и обработки естественного языка DeepGraph с внутренней системой управления контентом.

Это позволит компании эффективнее определять “триггеры” – изменения в структуре и управлении компании, которые влияют на повседневные операции. Благодаря этому нововведению HubSpot сможет эффективнее привлекать клиентов и обеспечивать высокий уровень обслуживания.

9. IBM – Здравоохранение нового поколения

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Крупнейшая технологическая корпорация IBM отказывается от устаревшей бизнес-модели и активно осваивает новые направления. Самый известный сегодня продукт бренда – искусственный интеллект Watson.

За последние несколько лет Watson использовался в госпиталях и медицинских центрах, где диагностировал определенные виды рака намного эффективнее, чем онкологи.

У Watson также есть огромный потенциал в сфере ритейла, где он может выполнять роль консультанта. IBM предлагает свой продукт на основе лицензии, что делает его уникальным в своем роде и более доступным.

10. Salesforce – Умные CRM системы

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Salesforce – титан мира технологий со значительной долей рынка в сфере управления отношениями с клиентам (CRM).

Предсказательная аналитика и оценка лидов – основные вызовы современных интернет-маркетологов, вот почему Salesforce делает высокие ставки на свою технологию машинного обучения Einstein.

Einstein позволяет компаниям, которые используют CRM от Salesforce, анализировать каждый аспект отношений с клиентами – от первого контакта до последующих точек соприкосновения. Благодаря этому они могут создавать более детальные профили и определять важнейшие моменты в процессе продаж. Все это ведет к более эффективной оценке лидов, повышению качества клиентского опыта и расширению возможностей.

Будущее машинного обучения

Некоторые формы применения машинного обучения, перечисленные выше, казались фантастикой еще десять лет назад. При этом каждое новое открытие не перестает удивлять и сегодня.

Какие тренды машинного обучения ждут нас в ближайшем будущем?

1. Машины, которые учатся еще эффективнее

Совсем скоро искусственный интеллект сможет обучаться намного эффективнее: машины будут совершенствоваться при минимальном участии человека.

2. Автоматизация борьбы с кибератаками

Рост киберпреступности заставляет компании задумываться о методах защиты. Вскоре AI будет играть все более важную роль в мониторинге, предотвращении и реакции на кибератаки.

3. Убедительные генеративные модели

Генеративные модели такие, как используются в Baidu из примера выше, и сегодня довольно убедительны. Но скоро мы вообще не сможем отличить машин от людей. В будущем алгоритмы смогут создавать картины, имитировать человеческую речь и даже целые личности.

4. Быстрое обучение

Даже самому сложному искусственному интеллекту необходим огромный объем данных для обучения. Вскоре системам машинного обучения для этого будет требоваться все меньше информации и времени.

5. Самостоятельный искусственный интеллект

Уже давно люди задаются вопросом, может ли искусственный интеллект представлять опасность для человека.

В июне этого года специалисты отдела Facebook по исследованию возможностей искусственного интеллекта (FAIR) решили отключить одну из созданных ими систем, так как боты начали общаться на собственном, непонятном для человека, языке. Эксперты призывают ввести регулирование этой области технологий, чтобы избежать угрозы выхода искусственного интеллекта из под контроля.

В будущем это может привести к введению ограничений и даже замедлению темпов развития этого направления. В любом случае, важно использовать новые технологии во благо человечества, а не во вред. А для этого необходимо жесткое регулирование отрасли.

Тренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примерыТренды, бизнес, бренды, интернет-маркетинг, стратегия, инновационные технологии, технологии, технологии будущего, машинное обучение, искусственный интеллект, AI, crm, анализ данных, аналитика, лучшие примеры, примеры

Заглавная страница

Цели Ресурса

  • Сконцентрировать информацию о достижениях ведущих российских научных школ в области машинного обучения, распознавания образов, анализа данных.
  • Способствовать обмену опытом, накоплению и распространению научных знаний в этой области.
  • Предоставить площадку для виртуальных научных семинаров и обсуждений.
  • Предоставить доступ к Полигону алгоритмов классификации — распределенной системе тестирования алгоритмов классификации на реальных прикладных задачах.

Основные принципы

Ресурс строится по принципам Википедии — свободной энциклопедии.

Содержимое Ресурса создаётся всеми его пользователями и является общественным достоянием. Каждый пользователь ресурса может создать или модифицировать статью или раздел (категорию), в любое время, в любом месте, располагая только доступом в Интернет.

Главное отличие от Википедии — профессиональная направленность тематики. Допускается (и поощряется) пополнение Ресурса специальными, полемическими и учебными материалами, информацией о незавершённых исследованиях, исходными кодами алгоритмов и программ. По этим причинам Ресурс не может являться частью Википедии. В то же время, не исключается возможность обмена материалами с Википедией и другими сетевыми энциклопедиями.

Новые статьи

  • Методы оптимизации в машинном обучении (курс лекций)/2020 (Kropotov) – [10:34, 7 февраля 2020]
  • Машинное обучение (практика, В.В. Стрижов)/ФУПМ, весна 2020 (Strijov) – [22:53, 6 февраля 2020]
  • Математические методы прогнозирования (практика, В.В. Стрижов)/Группа 674, весна 2020 (Strijov) – [21:43, 28 января 2020]
  • Нейробайесовские методы машинного обучения (курс лекций) / 2020 (Alexgr1) – [11:41, 20 января 2020]
  • Обработка изображений в системах искусственного интеллекта (курс лекций, И.А.Матвеев)/Вопросы 1 семестр (Algneushev) – [20:02, 15 декабря 2019]
  • Моя первая научная статья (практика, В.В. Стрижов)/Группы 774, 794, весна 2020 (Strijov) – [16:11, 10 декабря 2019]
  • Математические методы распознавания образов (конференция)/Программа ММРО-19 (Yury Chekhovich) – [15:51, 16 ноября 2019]

Список всех статей

Новое в разделе «Публикации»

  • Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman Mining of Massive Datasets. — Cambridge University Press, 2014. — 511 p.  (подробнее)
  • Сборник статей Past, Present, and Future of Statistical Science. — CRC Press, 2014. — 622 p.  (подробнее)
  • Донской, В. И. Алгоритмические модели обучения классификации: обоснование, сравнение, выбор. — Симферополь: ДИАЙПИ, 2014. — 228 с.  (подробнее)
  • Загоруйко, Н. Г. Когнитивный анализ данных. — Академическое издательство «ГЕО», 2012. — 203 с.  (подробнее)
  • Мерков, А. Б. Распознавание образов. Введение в методы статистического обучения. — Едиториал УРСС, 2011. — 256 с. 
    (подробнее)
  • Bishop, C.M. Pattern Recognition and Machine Learning. — Springer, 2006. — 738 p.  (подробнее)
  • Jiawei Han, Micheline Kamber, Jian Pei Data Mining: Concepts and Techniques, Third Edition. — Morgan Kaufmann Publishers, 2012. — 703 p.  (подробнее)

Все публикации

   

Последние новости

  • 11 февраля 2020 года — Конференция Artificial Intelligence and Natural Language (AINL 2020), проводимая в Хельсинки 7—9 октября, принимает короткие и полные статьи до 20 мая.
  • 11 февраля 2020 года — Конференция Open Innovations Association FRUCT (Finnish-Russian University Cooperation in Telecommunications), проводимая в Ярославле 20—24 апреля, принимает короткие и полные статьи до 28 февраля.
  • 23 декабря 2019 года — Код приглашенного доклада в сессию Bayesian Model Selection and Multimodeling: 2b72d1c2
    . Тезисы конференции IFORS 2020 в Сеуле, принимаются до 17 января.
  • с 26 по 29 ноября 2019 года — даты работы 19-й Всероссийской конференции с международным участием «Математические методы распознавания образов» (ММРО-2019). Конференция проходит в Москве в Президиуме Российской академии наук (Ленинский проспект, 32А). Объявление о конференции. Программа конференции.
  • 24 июня 2019 года  — The 25-th International Conference of Open Innovation IEEE FRUCT-2019 to be held in Helsinky, November 5-8. Publications with indexing Scopus and WoS, deadline September 16.
  • 24 июня 2019 года  — The seminar on Intelligence, Social Media and Web (ISMW) will be held in Helsinki, November 7-8, within scope of the 25 IEEE FRUCT International Conference. Publications with indexing Scopus and WoS, deadline September 16.
  • 30 марта 2019 года  — List of conferences, workshops, seminars 2019 related to Artificial Intelligence, Data Mining, Text Mining.
  • 21 марта 2019 года  — International Federation of Operational Research Societies IFORS приглашает к сотрудничеству на сайте ifors.org. Конференция IFORS состоится в Сеуле 21-26 июля 2020 года.
  • 29 мая 2019 года  — Big Data Days 2019 Международная конференция о больших данных, науке о данных и искусственном интеллекте пройдет в Москве с 8 по 10 октября.
  • 21 марта 2019 года  — The X International Conference «Optimization and Applications» will be held in Petrovac, Montenegro, September 30 — October 4, 2019 in Petrovac, Montenegro.
  • 19 июля 2016 года — Специализация МФТИ «Машинное обучение и анализ данных» — серия онлайн курсов на сайте coursera.org приглашает слушателей, желающих быстро освоить практику и теорию профессии, научиться решать типовые индустриальные задачи. Уже сейчас курс слушают несколько тысяч человек.

Основные категории

Последние правки

Машинное обучение — это… Что такое Машинное обучение?

Машинное обучение (англ. Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining).

Общая постановка задачи обучения по прецедентам

Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она неизвестна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится функционал качества.

Данная постановка является обобщением классических задач аппроксимации функций. В классических задачах аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могут быть неполными, неточными, нечисловыми, разнородными. Эти особенности приводят к большому разнообразию методов машинного обучения.

Способы машинного обучения

Так как раздел машинного обучения, с одной стороны, образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а с другой, вобрал в себя методы математической статистики, то указанные ниже способы машинного обучения исходят из нейросетей. То есть базовые виды нейросетей, такие как перцептрон и многослойный перцептрон (а также их модификации) могут обучаться как с учителем, без учителя, с подкреплением, и активно. Но некоторые нейросети и большинство статистических методов можно отнести только к одному из способов обучения. Поэтому если нужно классифицировать методы машинного обучения в зависимости от способа обучения, то, касательно нейросетей, некорректно их относить к определенному виду, а правильнее классифицировать алгоритмы обучения нейронных сетей.

  1. Метод коррекции ошибки
  2. Метод обратного распространения ошибки
  • Обучение без учителя — для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:
  1. Альфа-система подкрепления
  2. Гамма-система подкрепления
  3. Метод ближайших соседей
  1. Генетический алгоритм.
  • Активное обучение — отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ:
  • Обучение с частичным привлечением учителя (semi-supervised learning) — для части прецедентов задается пара «ситуация, требуемое решение», а для части — только «ситуация»
  • Трансдуктивное обучение (transduction) — обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки
  • Многозадачное обучение (multi-task learning) — одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»
  • Многовариантное обучение (multiple-instance learning) — обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»

Классические задачи, решаемые с помощью машинного обучения

Типы входных данных при обучении

  • Признаковое описание объектов — наиболее распространённый случай.
  • Описание взаимоотношений между объектами, чаще всего отношения попарного сходства, выражаемые при помощи матрицы расстояний, ядер либо графа данных
  • Временной ряд или сигнал.
  • Изображение или видеоряд.

Типы функционалов качества

  • При обучении с учителем  — функционал качества может определяться как средняя ошибка ответов. Предполагается, что искомый алгоритм должен его минимизировать. Для предотвращения переобучения в минимизируемый функционал качества часто в явном или неявном виде добавляют регуляризатор.
  • При обучении без учителя — функционалы качества могут определяться по-разному, например, как отношение средних межкластерных и внутрикластерных расстояний.
  • При обучении с подкреплением — функционалы качества определяются физической средой, показывающей качество приспособления агента.

Практические сферы применения

Целью машинного обучения является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности.

Машинное обучение имеет широкий спектр приложений:

Сфера применений машинного обучения постоянно расширяется. Повсеместная информатизация приводит к накоплению огромных объёмов данных в науке, производстве, бизнесе, транспорте, здравоохранении. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к обучению по прецедентам. Раньше, когда таких данных не было, эти задачи либо вообще не ставились, либо решались совершенно другими методами.

Литература

  • Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  • Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
  • Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  • Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  • Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  • Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  • Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
  • Hastie, T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p. — ISBN 978-0-387-84857-0.
  • Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.
  • Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (1983), Machine Learning: An Artificial Intelligence Approach, Tioga Publishing Company, ISBN 0-935382-05-4[1].
  • Vapnik V.N. Statistical learning theory. — N.Y.: John Wiley & Sons, Inc., 1998. [1]
  • Bernhard Schölkopf, Alexander J. Smola Learning with Kernels. Support Vector Machines, Regularization, Optimization, and Beyond. — MIT Press, Cambridge, MA, 2002 ISBN 978-0-262-19475-4 [2]
  • I.H. Witten, E. Frank Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). — Morgan Kaufmann, 2005 ISBN 0-12-088407-0 [3]

Ссылки

Ресурсы

Журналы

  • Pattern Recognition and Image Analysis

Конференции

Курсы лекций

Российские исследовательские группы и коммерческие фирмы

  • Лаборатория распознавания образов (московский Центр непрерывного математического образования).
  • ABBYY — один из ведущих мировых разработчиков ПО в области распознавания документов (OCR), ввода форм (ICR) и прикладной лингвистики.
  • BaseGroup — добыча данных, анализ и прогнозирование, создание прикладных аналитических систем (Рязань).
  • Forecsys — интеллектуальный анализ данных, прогнозирование продаж, кредитный скоринг, распознавание образов.
  • Megaputer — разработка и производство аналитических систем для углубленного анализа числовых и текстовых баз данных.
  • NeurOK — анализ данных и управление знаниями.
  • SnowCactus — Аналитические технологии для бизнеса.
  • Solutions — Центр технологий анализа данных и прогнозирования (Долгопрудный).
  • ZSoft — Проектирование, разработка и внедрение информационно-аналитических систем (Санкт-Петербург).

Примечания

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *