Кластерный анализ онлайн
Кластерный анализ — это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп наблюдений (кластеров, таксонов).Назначение. С помощью онлайн-калькулятора можно проводить классификацию объектов алгоритмами «ближайшего соседа» и «дальнего соседа» с построением дендрограммы.
- Шаг №1
- Шаг №2
- Видеоинструкция
- Оформление Word
Инструкция. Укажите количество данных, нажмите Далее. Полученное решение сохраняется в файле Word.
Количество данных
см. также Метод К-средних
Выбор конкретного метода кластерного анализа зависит от цели классификации.
Обычной формой представления исходных данных в задачах кластерного анализа служит матрица:
каждая строка которой, представляет результат измерений k, рассматриваемых признаков на одном из обследованных объектов.
Наиболее трудным считается определение однородности объектов, которые задаются введением расстояния между объектами хi и хj (p(xi, xj)).
Объекты будут однородными в случае p(xi, xj)£ pпор,
где pпор— заданное пороговое значение.
Выбор расстояния (р) является основным моментом исследования, от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются принципы “ближайшего соседа” или “дальнего соседа”. В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором — между наиболее удаленными друг от друга.
В задачах кластерного анализа часто используют Евклидово и Хемингово расстояния.
Евклидово расстояние определяется по формуле:
;
сравнивается близость двух объектов по большому числу признаков.
Хемингово расстояние:
;
используется как мера различия объектов, задаваемых атрибутивными признаками.
Пример. Провести классификацию шести объектов, каждый из которых характеризуется двумя признаками (табл.9). В качестве расстояния между объектами принять , расстояние между кластерами исчислить по принципам: 1) “ближайшего соседа” и 2) “дальнего соседа”.
№ п/п | 1 | 2 | 3 | 4 | 5 | 6 |
x1 | 2 | 4 | 5 | 12 | 14 | 15 |
x2 | 8 | 10 | 7 | 6 | 6 | 4 |
№ п/п | 1 | 2 | 3 | 4 | 5 | 6 |
1 | 0 | 2. 83 | 3.16 | 10.2 | 12.17 | 13.6 |
2 | 2.83 | 0 | 3.16 | 8.94 | 10.77 | 12.53 |
3 | 3.16 | 3.16 | 0 | 7.07 | 9.06 | 10.44 |
4 | 10.2 | 8.94 | 7.07 | 0 | 2 | 3.61 |
5 | 12.17 | 10.77 | 9.06 | 2 | 0 | 2.24 |
6 | 13. 6 | 12.53 | 10.44 | 3.61 | 2.24 | 0 |
Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки P4;5 = 2 и поэтому объединяются в один кластер.
№ п/п | 1 | 2 | 3 | [4] | [5] | 6 |
1 | 0 | 2.83 | 3.16 | 10.2 | 12.17 | 13.6 |
2 | 2.83 | 0 | 3.16 | 8.94 | 10.77 | 12.53 |
3 | 3. 16 | 3.16 | 0 | 7.07 | 9.06 | 10.44 |
[4] | 10.2 | 8.94 | 7.07 | 0 | 2 | 3.61 |
[5] | 12.17 | 10.77 | 9.06 | 2 | 0 | 2.24 |
6 | 13.6 | 12.53 | 10.44 | 3.61 | 2.24 | 0 |
В результате имеем 5 кластера: S
Из матрицы расстояний следует, что объекты 4,5 и 6 наиболее близки P4,5;6 = 2. 24 и поэтому объединяются в один кластер.
№ п/п | 1 | 2 | 3 | [4,5] | [6] |
1 | 0 | 2.83 | 3.16 | 10.2 | 13.6 |
2 | 2.83 | 0 | 3.16 | 8.94 | 12.53 |
3 | 3.16 | 3.16 | 0 | 7.07 | 10.44 |
[4,5] | 10.2 | 8.94 | 7.07 | 0 | 2.24 |
[6] | 13. 6 | 12.53 | 10.44 | 2.24 | 0 |
В результате имеем 4 кластера: S(1), S(2), S(3), S(4,5,6)
Из матрицы расстояний следует, что объекты 1 и 2 наиболее близки P1;2 = 2.83 и поэтому объединяются в один кластер.
№ п/п | [1] | [2] | 4,5,6 | |
[1] | 0 | 2.83 | 3.16 | 10.2 |
[2] | 2.83 | 0 | 3.16 | 8.94 |
3 | 3. 16 | 3.16 | 0 | 7.07 |
4,5,6 | 10.2 | 8.94 | 7.07 | 0 |
В результате имеем 3 кластера: S(1,2), S(3), S(4,5,6)
Из матрицы расстояний следует, что объекты 1,2 и 3 наиболее близки P1,2;3 = 3.16 и поэтому объединяются в один кластер.
№ п/п | [1,2] | [3] | 4,5,6 |
[1,2] | 0 | 3.16 | 8.94 |
[3] | 3.16 | 0 | 7.07 |
4,5,6 | 8. 94 | 7.07 | 0 |
В результате имеем 2 кластера: S(1,2,3), S(4,5,6)
№ п/п | 1,2,3 | 4,5,6 |
1,2,3 | 0 | 7.07 |
4,5,6 | 7.07 | 0 |
Результаты иерархической классификации объектов представлены на рис. в виде дендрограммы.
Дендрограмма
Настройка кластеризации (Map Viewer Classic)—Справка ArcGIS Online
В этом разделе содержится информация о Map Viewer Classic. Теперь доступен усовершенствованный вьюер карт. Для начала работы откройте Map Viewer из окна запуска приложений. Дополнительные сведения см. в справочной документации Map Viewer.
Если на вашей карте имеется слой, содержащий большое количество точек, вы можете настроить кластеризацию, чтобы облегчить визуальное восприятие значимой информации ваших данных. При включении кластеризации Map Viewer Classic сгруппирует находящиеся в пределах определенного расстояния друг от друга точки в один символ.
Кластеризация поддерживает до 50 000 объектов в слое.
Кластеризация применяется динамически в нескольких масштабах, так что при отдалении, большее число точек будет агрегировано в меньшее количество групп, а при приближении будет создаваться большее число кластерных групп. Когда вы увеличиваете масштаб отображения до уровня, на котором территория кластеризации вокруг одной точки не содержит других объектов, такой объект не будет кластеризоваться, а будет отображен, как отдельный точечный объект с выбранной опцией стиля, примененной к слою. Вы можете изменить количество точечных объектов, группируемых в кластеры, используя имеющийся бегунок. При указании большей кластеризации в кластер группируется большее число объектов, в то время как каждый кластер содержит меньше объектов, если вы применяете меньшую кластеризацию.
Если кластеризация включена для точечного слоя, вы можете включить всплывающие окна кластеризации, которые будут отображаться при щелчке кластера на карте. Всплывающее окно кластеризации по умолчанию содержит информацию о кластерах, включая число объектов в каждом. У вас также есть опция настройки всплывающего окна кластеризации, если необходимо. При нажатии любого точечного объекта отображается настроенное всплывающее окно для объектов вашего слоя.
Для получения более подробной информации о кластеризации в ArcGIS Online, см. эту историю.
Настройка кластеризации для точечного слоя
Чтобы настроить кластеризацию точечного слоя, выполните следующее:
- Откройте карту, содержащую точечный слой, в Map Viewer Classic.
- Щелкните Детали и щелкните Ресурсы.
- Перейдите к точечному слою, для которого вы хотите настроить кластеризацию, и выберите Кластеризовать точки .
- Поставьте отметку Включить кластеризацию, если она не стоит.
- Используйте бегунок, чтобы выбрать, сколько объектов вы хотите объединять в кластеры.
- Дополнительно вы можете настроить всплывающие окна, если необходимо.
- Щелкните ОК на панели Точки кластера.
Настройка всплывающих окон кластеризации
Вы можете включить всплывающие окна кластеризации, когда активируете кластеризацию для точечного слоя. После включения всплывающие окна кластеризации отображаются с конфигурацией по умолчанию, которая включает число объектов в кластере. Дополнительная информация, показываемая во всплывающих окнах, определяется стилем, который применен к слою. Например, если применен стиль Доминирующая категория, то всплывающее окно кластеризации по умолчанию содержит значение доминирующего атрибута для каждого кластера. Вы можете настроить всплывающие окна кластеризации нужным образом.
Когда вы включаете всплывающие окна кластеризации, всплывающие окна для отдельных объектов слоя также включаются. И наоборот, всплывающие окна кластеризации включаются автоматически, если всплывающие окна для объектов включены.
- Следуйте приведенным шагам, чтобы включить и настроить кластеризацию для точечного слоя.
- На панели Точки кластера щелкните Настроить всплывающее окно кластеризации.
- Отметьте опцию Показывать всплывающие окна.
Всплывающие окна включены для кластеров и отдельных объектов слоя.
- Укажите заголовок всплывающего окна. Используйте кнопку [+] для выбора полей из ваших данных и добавления статического текста (вместо или дополнительно к значениям вашего поля).
- Выберите опцию отображения для всплывающего окна. Вы можете выбрать список атрибутов полей или пользовательское отображение атрибутов.
- Вы можете сделать следующее:
- Если вы выбираете отображение списка атрибутов полей в предыдущем шаге, нажмите Настроить атрибуты и выберите те поля, которые вы хотите отобразить. Для выбранного поля можно изменить псевдоним, порядок следования и формат. Для числовых полей (численность населения) можно выбрать количество десятичных знаков и, при необходимости, использовать разделитель тысяч. По завершении щёлкните OK.
- Если выбрано настраиваемое отображение атрибутов, щелкните Настроить, чтобы задать и отформатировать показываемую информацию. Настраиваемое отображение атрибутов позволяет использовать комбинацию форматированного текста, атрибутов, ссылок и поддерживаемого HTML, что дает максимальные возможности настройки изображения. Используйте кнопку [+], чтобы вставить атрибуты кластеризации, которые вы желаете включить, или примите конфигурацию по умолчанию. По завершении щёлкните OK.
Конфигурация всплывающих окон кластеризации, определяется стилем, который применен к слою. Например, вместе с количеством объектов в кластере всплывающие окна кластеризации могут показывать значение доминирующего атрибута или среднее значение атрибута, который используется в стиле слоя.
- Щелкните ОК на панели Настройка всплывающего окна кластеризации.
- Щелкните ОК на панели Точки кластера.
- Вы можете просмотреть всплывающие окна кластеризации, нажимая кластеры на карте. Чтобы узнать больше об отдельных объектах в кластере, нажмите Обзор объектов в нижней части всплывающего окна и щелкните стрелку вперед или назад сверху, чтобы перемещаться между объектами и информацией о них. Чтобы вернуться обратно к общей информации для кластера, щелкните Просмотр итоговой информации.
Рекомендации
- Кластеризация поддерживается для размещенных точечных слоев, в векторных слоях ArcGIS Server 10. 3.1 и более поздней версии с поддержкой разбивки на страницы, слоях CSV и коллекциях объектов.
- Кластеризация не поддерживается на векторных мультиточечных слоях.
- Кластеризация поддерживается для слоёв, содержащих менее 50 000 объектов.
- Стиль Карта интенсивности не поддерживается для слоев с включенной кластеризацией.
- Публикация размещенного слоя листов из размещенных векторных слоев не поддерживается для слоёв с включенной кластеризацией.
- Чтобы настроить кластеризацию для точечного слоя, карта должна иметь систему координат WGS 84 или Web Mercator.
- Кластеризация отключается во время сеанса редактирования.
- Для кластеризованных объектов не доступны надписи.
Отзыв по этому разделу?
тыс. означает — Онлайн-кластеризация
спросил
Изменено 6 лет, 1 месяц назад
Просмотрено 968 раз
$\begingroup$
Я пытаюсь построить систему кластеризации K-средних с «онлайн-обучением», то есть есть существующие K кластеров и точки данных в них, и периодически появляется новая точка данных, которая отправляется в соответствующий кластер.
Проблема возникает, когда я пытаюсь выполнить повторную кластеризацию/перераспределение, поскольку с каждой новой точкой данных это становится все более затратным. Может ли кто-нибудь порекомендовать обходной путь для этого?
- кластеризация
- метод k-средних
- онлайн-алгоритмы
$\endgroup$
1
$\begingroup$
В пакете sofia-ml есть код для быстрой кластеризации методом k-средних на основе мини-пакетов (см. статью здесь). Еще одна вещь, которую вы можете сделать, чтобы ускорить работу, — это использовать случайные проекции (см., например, здесь и здесь) — поскольку в k-средних все, что вас интересует, — это расстояния $\ell_2$, а случайные проекции сохраняют их (до некоторого $\ эпсилон$).
$\endgroup$
$\begingroup$
Прочтите оригинальную литературу по k-средним.
Публикация MacQueen была основана на обновлении результата путем добавления отдельных точек.
В настоящее время большинство людей используют итерацию Ллойда, где вы выполняете типичные итерации EM, что-то вроде «массовой версии» MacQueen.
$\endgroup$
$\begingroup$
Рассмотрите возможность использования исходного документа Dirichlet Process K-means с реализацией на github. Алгоритм DP означает, что новые кластеры создаются по мере поступления новых данных. Он не требует предварительного знания числа кластеров K. Средние DP представляют собой байесовское непараметрическое расширение алгоритма K-средних, основанное на аппроксимации асимптотики малой дисперсии (SVA) модели смеси процессов Дирихле.
$\endgroup$
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя электронную почту и пароль
Опубликовать как гость
Электронная почта
Требуется, но никогда не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
. Выбор модели— пороговое значение расстояния настройки в онлайн-кластеризации
$\begingroup$
В онлайн-кластеризации существуют подходы, в которых пороговое значение $r$ расстояния до ближайшего кластера используется для определения того, должна ли новая точка данных быть связана с существующим кластером или стать отдельным кластером.
Этот тип гиперпараметра кажется мне довольно сложным для настройки, поскольку он зависит не только от самого пространства признаков, но и от фактической плотности экземпляров в нем.
Хотя контекст этого вопроса, в частности, заключается в том, что мне нужно использовать подход Souza et al. на который я ссылался ниже, который предлагает модель классификации потоков данных, основанную на таком методе кластеризации, этот вопрос не нужно ограничивать этим:
Если предположить, что существует критерий $s(r)$, который оценивает качество такой модели, основанной на расстоянии и пороге, как можно построить набор оцениваемых пороговых значений, учитывая выборку наблюдаемых данных $X$ (и $\mathbf{y}$, в моем случае) ?
Есть вопрос по выбору конкретного параметра для такого подхода, но ссылок на предполагаемое пороговое значение не нашел.
Как это часто бывает, авторы упомянутой статьи не предоставляют информации о том, как они определили используемое значение $r$ в своих экспериментах.
Ссылка:
Соуза, В.М., Сильва, Д.Ф., Батиста, Г.Э., и Гама, Дж. (2015, Декабрь). Классификация эволюционирующих потоков данных с бесконечно этикетки с задержкой. В машинном обучении и приложениях (ICMLA), 2015 г. 14-я международная конференция IEEE (стр. 214-219). IEEE.
- кластеризация
- выбор модели
- гиперпараметр
- онлайн-алгоритмы
$\endgroup$
3
$\begingroup$
В отсутствие другого подхода я выбрал следующую процедуру, которая может быть полезна для других, борющихся с подобными гиперпараметрами:
- Дан обучающий набор $X_{train}$ или (если вычислительная мощность не позволяет) выборки из него, вычислить матрицу попарных расстояний $D_X$.