Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация: ΠžΠ±Π·ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Π΄Π°Π½Π½Ρ‹Ρ… / Π₯Π°Π±Ρ€

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΠ΅

ΠžΠ±Π·ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Π΄Π°Π½Π½Ρ‹Ρ… / Π₯Π°Π±Ρ€

ΠŸΡ€ΠΈΠ²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽ!

Π’ своСй Π΄ΠΈΠΏΠ»ΠΎΠΌΠ½ΠΎΠΉ Ρ€Π°Π±ΠΎΡ‚Π΅ я ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ» ΠΎΠ±Π·ΠΎΡ€ ΠΈ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Π΄Π°Π½Π½Ρ‹Ρ…. ΠŸΠΎΠ΄ΡƒΠΌΠ°Π», Ρ‡Ρ‚ΠΎ ΡƒΠΆΠ΅ собранный ΠΈ ΠΏΡ€ΠΎΡ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π» ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ ΠΊΠΎΠΌΡƒ-Ρ‚ΠΎ интСрСсСн ΠΈ ΠΏΠΎΠ»Π΅Π·Π΅Π½.
О Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация, рассказал sashaeve Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ Β«ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ: Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ k-means ΠΈ c-meansΒ». Π― частично ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡŽ слова АлСксандра, частично дополню. Π’Π°ΠΊΠΆΠ΅ Π² ΠΊΠΎΠ½Ρ†Π΅ этой ΡΡ‚Π°Ρ‚ΡŒΠΈ ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΡƒΡŽΡ‰ΠΈΠ΅ΡΡ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Ρ‹ ΠΏΠΎ ссылкам Π² спискС Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹.

Π’Π°ΠΊ ΠΆΠ΅ я постарался привСсти сухой Β«Π΄ΠΈΠΏΠ»ΠΎΠΌΠ½Ρ‹ΠΉΒ» ΡΡ‚ΠΈΠ»ΡŒ излоТСния ΠΊ Π±ΠΎΠ»Π΅Π΅ публицистичСскому.

ΠŸΠΎΠ½ΡΡ‚ΠΈΠ΅ кластСризации

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ (ΠΈΠ»ΠΈ кластСрный Π°Π½Π°Π»ΠΈΠ·) β€” это Π·Π°Π΄Π°Ρ‡Π° разбиСния мноТСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Π΅ кластСрами. Π’Π½ΡƒΡ‚Ρ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ Β«ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅Β» ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Ρ€Π°Π·Π½Ρ‹Ρ… Π³Ρ€ΡƒΠΏΠΏΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹. Π“Π»Π°Π²Π½ΠΎΠ΅ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ кластСризации ΠΎΡ‚ классификации состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΏΠ΅Ρ€Π΅Ρ‡Π΅Π½ΡŒ Π³Ρ€ΡƒΠΏΠΏ Ρ‡Π΅Ρ‚ΠΊΠΎ Π½Π΅ Π·Π°Π΄Π°Π½ ΠΈ опрСдСляСтся Π² процСссС Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°.

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ кластСрного Π°Π½Π°Π»ΠΈΠ·Π° Π² ΠΎΠ±Ρ‰Π΅ΠΌ Π²ΠΈΠ΄Π΅ сводится ΠΊ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ этапам:

  1. ΠžΡ‚Π±ΠΎΡ€ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² для кластСризации.
  2. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ мноТСства ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒΡΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅. ΠŸΡ€ΠΈ нСобходимости – нормализация Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ….
  3. ВычислСниС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΌΠ΅Ρ€Ρ‹ сходства ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ.
  4. ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° кластСрного Π°Π½Π°Π»ΠΈΠ·Π° для создания Π³Ρ€ΡƒΠΏΠΏ сходных ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² (кластСров).
  5. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² Π°Π½Π°Π»ΠΈΠ·Π°.

ПослС получСния ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ² Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Π° ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²ΠΊΠ° Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° кластСризации Π΄ΠΎ получСния ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°.
ΠœΠ΅Ρ€Ρ‹ расстояний

Π˜Ρ‚Π°ΠΊ, ΠΊΠ°ΠΊ ΠΆΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ Β«ΠΏΠΎΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒΒ» ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²? Для Π½Π°Ρ‡Π°Π»Π° Π½ΡƒΠΆΠ½ΠΎ ΡΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Π²Π΅ΠΊΡ‚ΠΎΡ€ характСристик для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° β€” ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, это Π½Π°Π±ΠΎΡ€ числовых Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, рост-вСс Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ°. Однако ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Ρ‚Π°ΠΊΠΆΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠ΅ с качСствСнными (Ρ‚.Π½. ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉΠ½Ρ‹ΠΌΠΈ) характСристиками.

ПослС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ ΠΌΡ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ»ΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€ характСристик, ΠΌΠΎΠΆΠ½ΠΎ провСсти Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ всС ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ Π΄Π°Π²Π°Π»ΠΈ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΉ Π²ΠΊΠ»Π°Π΄ ΠΏΡ€ΠΈ расчСтС «расстояния». Π’ процСссС Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ всС значСния приводятся ΠΊ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Ρƒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, [-1, -1] ΠΈΠ»ΠΈ [0, 1].

НаконСц, для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² измСряСтся «расстояниС» ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ β€” ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ похоТСсти. БущСствуСт мноТСство ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ, Π²ΠΎΡ‚ лишь основныС ΠΈΠ· Π½ΠΈΡ…:

  1. Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС
    НаиболСС распространСнная функция расстояния. ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΠ΅Ρ‚ собой гСомСтричСским расстояниСм Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС:

  2. ΠšΠ²Π°Π΄Ρ€Π°Ρ‚ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° расстояния
    ΠŸΡ€ΠΈΠΌΠ΅Π½ΡΠ΅Ρ‚ΡΡ для придания большСго вСса Π±ΠΎΠ»Π΅Π΅ ΠΎΡ‚Π΄Π°Π»Π΅Π½Π½Ρ‹ΠΌ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ. Π­Ρ‚ΠΎ расстояниС вычисляСтся ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

  3. РасстояниС городских ΠΊΠ²Π°Ρ€Ρ‚Π°Π»ΠΎΠ² (манхэттСнскоС расстояниС)
    Π­Ρ‚ΠΎ расстояниС являСтся срСдним разностСй ΠΏΠΎ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°ΠΌ. Π’ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв эта ΠΌΠ΅Ρ€Π° расстояния ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Ρ‚Π°ΠΊΠΈΠΌ ΠΆΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ, ΠΊΠ°ΠΊ ΠΈ для ΠΎΠ±Ρ‹Ρ‡Π½ΠΎΠ³ΠΎ расстояния Π•Π²ΠΊΠ»ΠΈΠ΄Π°. Однако для этой ΠΌΠ΅Ρ€Ρ‹ влияниС ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Π±ΠΎΠ»ΡŒΡˆΠΈΡ… разностСй (выбросов) ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ΡΡ (Ρ‚.ΠΊ. ΠΎΠ½ΠΈ Π½Π΅ возводятся Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚). Π€ΠΎΡ€ΠΌΡƒΠ»Π° для расчСта манхэттСнского расстояния:

  4. РасстояниС Π§Π΅Π±Ρ‹ΡˆΠ΅Π²Π°
    Π­Ρ‚ΠΎ расстояниС ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ΠΌ, ΠΊΠΎΠ³Π΄Π° Π½ΡƒΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΄Π²Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊΠ°ΠΊ Β«Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅Β», Ссли ΠΎΠ½ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΏΠΎ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π΅. РасстояниС Π§Π΅Π±Ρ‹ΡˆΠ΅Π²Π° вычисляСтся ΠΏΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:

  5. Π‘Ρ‚Π΅ΠΏΠ΅Π½Π½ΠΎΠ΅ расстояниС
    ΠŸΡ€ΠΈΠΌΠ΅Π½ΡΠ΅Ρ‚ΡΡ Π² случаС, ΠΊΠΎΠ³Π΄Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ ΠΈΠ»ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ вСс, относящийся ΠΊ размСрности, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ сильно ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ. Π‘Ρ‚Π΅ΠΏΠ΅Π½Π½ΠΎΠ΅ расстояниС вычисляСтся ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π΅:
    ,
    Π³Π΄Π΅ r ΠΈ p – ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹, опрСдСляСмыС ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ. ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ p отвСтствСнСн Π·Π° постСпСнноС взвСшиваниС разностСй ΠΏΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°ΠΌ, ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ r отвСтствСнСн Π·Π° прогрСссивноС взвСшиваниС Π±ΠΎΠ»ΡŒΡˆΠΈΡ… расстояний ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. Если ΠΎΠ±Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° – r ΠΈ p β€” Ρ€Π°Π²Π½Ρ‹ Π΄Π²ΡƒΠΌ, Ρ‚ΠΎ это расстояниС совпадаСт с расстояниСм Π•Π²ΠΊΠ»ΠΈΠ΄Π°.

Π’Ρ‹Π±ΠΎΡ€ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ Π»Π΅ΠΆΠΈΡ‚ Π½Π° исслСдоватСлС, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ кластСризации ΠΌΠΎΠ³ΡƒΡ‚ сущСствСнно ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ ΠΏΡ€ΠΈ использовании Ρ€Π°Π·Π½Ρ‹Ρ… ΠΌΠ΅Ρ€.
ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ²

Для сСбя я Π²Ρ‹Π΄Π΅Π»ΠΈΠ» Π΄Π²Π΅ основныС классификации Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации.
  1. Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ ΠΈ плоскиС.
    Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ (Ρ‚Π°ΠΊΠΆΠ΅ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌΠΈ таксономии) строят Π½Π΅ ΠΎΠ΄Π½ΠΎ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π° Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ кластСры, Π° систСму Π²Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠΉ. Π’.ΠΎ. Π½Π° Π²Ρ‹Ρ…ΠΎΠ΄Π΅ ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π΄Π΅Ρ€Π΅Π²ΠΎ кластСров, ΠΊΠΎΡ€Π½Π΅ΠΌ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ являСтся вся Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°, Π° Π»ΠΈΡΡ‚ΡŒΡΠΌΠΈ β€” Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΌΠ΅Π»ΠΊΠΈΠ΅ кластСра.
    ПлоскиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ строят ΠΎΠ΄Π½ΠΎ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° кластСры.
  2. Π§Π΅Ρ‚ΠΊΠΈΠ΅ ΠΈ Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΈΠ΅.
    Π§Π΅Ρ‚ΠΊΠΈΠ΅ (ΠΈΠ»ΠΈ Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ) Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ставят Π² соотвСтствиС Π½ΠΎΠΌΠ΅Ρ€ кластСра, Ρ‚.Π΅. ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру. НСчСткиС (ΠΈΠ»ΠΈ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ) Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ ставят Π² соотвСтствиС Π½Π°Π±ΠΎΡ€ вСщСствСнных Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ кластСрам. Π’.Π΅. ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ относится ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ кластСру с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ.

ОбъСдинСниС кластСров

Π’ случаС использования иСрархичСских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² встаСт вопрос, ΠΊΠ°ΠΊ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ собой кластСра, ΠΊΠ°ΠΊ Π²Ρ‹Ρ‡ΠΈΡΠ»ΡΡ‚ΡŒ «расстояния» ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ. БущСствуСт нСсколько ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ:
  1. ΠžΠ΄ΠΈΠ½ΠΎΡ‡Π½Π°Ρ связь (расстояния блиТайшСго сосСда)
    Π’ этом ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ двумя кластСрами опрСдСляСтся расстояниСм ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π±Π»ΠΈΠ·ΠΊΠΈΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ (блиТайшими сосСдями) Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… кластСрах. Π Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ кластСры ΠΈΠΌΠ΅ΡŽΡ‚ Ρ‚Π΅Π½Π΄Π΅Π½Ρ†ΠΈΡŽ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡ‚ΡŒΡΡ Π² Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠΈ.
  2. Полная связь (расстояниС Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡƒΠ΄Π°Π»Π΅Π½Π½Ρ‹Ρ… сосСдСй)
    Π’ этом ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ кластСрами ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ наибольшим расстояниСм ΠΌΠ΅ΠΆΠ΄Ρƒ Π»ΡŽΠ±Ρ‹ΠΌΠΈ двумя ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… кластСрах (Ρ‚.Π΅. Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡƒΠ΄Π°Π»Π΅Π½Π½Ρ‹ΠΌΠΈ сосСдями). Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΎ, ΠΊΠΎΠ³Π΄Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ происходят ΠΈΠ· ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Π³Ρ€ΡƒΠΏΠΏ. Если ΠΆΠ΅ кластСры ΠΈΠΌΠ΅ΡŽΡ‚ ΡƒΠ΄Π»ΠΈΠ½Π΅Π½Π½ΡƒΡŽ Ρ„ΠΎΡ€ΠΌΡƒ ΠΈΠ»ΠΈ ΠΈΡ… СстСствСнный Ρ‚ΠΈΠΏ являСтся Β«Ρ†Π΅ΠΏΠΎΡ‡Π΅Ρ‡Π½Ρ‹ΠΌΒ», Ρ‚ΠΎ этот ΠΌΠ΅Ρ‚ΠΎΠ΄ Π½Π΅ΠΏΡ€ΠΈΠ³ΠΎΠ΄Π΅Π½.
  3. НСвзвСшСнноС ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠ΅ срСднСС
    Π’ этом ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ двумя Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ кластСрами вычисляСтся ΠΊΠ°ΠΊ срСднСС расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ всСми ΠΏΠ°Ρ€Π°ΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π½ΠΈΡ…. ΠœΠ΅Ρ‚ΠΎΠ΄ эффСктивСн, ΠΊΠΎΠ³Π΄Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΡŽΡ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΎΠ½ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΈ Π² случаях протяТСнных (Β«Ρ†Π΅ΠΏΠΎΡ‡Π΅Ρ‡Π½ΠΎΠ³ΠΎΒ» Ρ‚ΠΈΠΏΠ°) кластСров.
  4. Π’Π·Π²Π΅ΡˆΠ΅Π½Π½ΠΎΠ΅ ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠ΅ срСднСС
    ΠœΠ΅Ρ‚ΠΎΠ΄ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ‡Π΅Π½ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ нСвзвСшСнного ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠ³ΠΎ срСднСго, Π·Π° ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ΠΌ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ вычислСниях Ρ€Π°Π·ΠΌΠ΅Ρ€ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… кластСров (Ρ‚.Π΅. число ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², содСрТащихся Π² Π½ΠΈΡ…) ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² качСствС вСсового коэффициСнта. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ использован, ΠΊΠΎΠ³Π΄Π° ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ Π½Π΅Ρ€Π°Π²Π½Ρ‹Π΅ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρ‹ кластСров.
  5. ΠΠ΅Π²Π·Π²Π΅ΡˆΠ΅Π½Π½Ρ‹ΠΉ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄
    Π’ этом ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ двумя кластСрами опрСдСляСтся ΠΊΠ°ΠΊ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΈΡ… Ρ†Π΅Π½Ρ‚Ρ€Π°ΠΌΠΈ тяТСсти.
  6. Π’Π·Π²Π΅ΡˆΠ΅Π½Π½Ρ‹ΠΉ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ (ΠΌΠ΅Π΄ΠΈΠ°Π½Π°)
    Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ‡Π΅Π½ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌΡƒ, Π·Π° ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ΠΌ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈ вычислСниях ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ вСса для ΡƒΡ‡Π΅Ρ‚Π° Ρ€Π°Π·Π½ΠΈΡ†Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°ΠΌΠΈ кластСров. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ, Ссли ΠΈΠΌΠ΅ΡŽΡ‚ΡΡ ΠΈΠ»ΠΈ ΠΏΠΎΠ΄ΠΎΠ·Ρ€Π΅Π²Π°ΡŽΡ‚ΡΡ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ отличия Π² Ρ€Π°Π·ΠΌΠ΅Ρ€Π°Ρ… кластСров, этот ΠΌΠ΅Ρ‚ΠΎΠ΄ оказываСтся ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚ΠΈΡ‚Π΅Π»ΡŒΠ½Π΅Π΅ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ.

ΠžΠ±Π·ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ²

Алгоритмы иСрархичСской кластСризации

Π‘Ρ€Π΅Π΄ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² иСрархичСской кластСризации Π²Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ΡΡ Π΄Π²Π° основных Ρ‚ΠΈΠΏΠ°: восходящиС ΠΈ нисходящиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹. НисходящиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ ΠΏΠΎ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒ «свСрху-Π²Π½ΠΈΠ·Β»: Π² Π½Π°Ρ‡Π°Π»Π΅ всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΏΠΎΠΌΠ΅Ρ‰Π°ΡŽΡ‚ΡΡ Π² ΠΎΠ΄ΠΈΠ½ кластСр, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π·Π°Ρ‚Π΅ΠΌ разбиваСтся Π½Π° всС Π±ΠΎΠ»Π΅Π΅ ΠΌΠ΅Π»ΠΊΠΈΠ΅ кластСры. Π‘ΠΎΠ»Π΅Π΅ распространСны восходящиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π² Π½Π°Ρ‡Π°Π»Π΅ Ρ€Π°Π±ΠΎΡ‚Ρ‹ ΠΏΠΎΠΌΠ΅Ρ‰Π°ΡŽΡ‚ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΉ кластСр, Π° Π·Π°Ρ‚Π΅ΠΌ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ кластСры Π²ΠΎ всС Π±ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅, ΠΏΠΎΠΊΠ° всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Ρ‚ΡŒΡΡ Π² ΠΎΠ΄Π½ΠΎΠΌ кластСрС. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ строится систСма Π²Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠΉ. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Ρ‚Π°ΠΊΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π² Π²ΠΈΠ΄Π΅ Π΄Π΅Ρ€Π΅Π²Π° – Π΄Π΅Π½Π΄Ρ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° – классификация ΠΆΠΈΠ²ΠΎΡ‚Π½Ρ‹Ρ… ΠΈ растСний.

Для вычислСния расстояний ΠΌΠ΅ΠΆΠ΄Ρƒ кластСрами Ρ‡Π°Ρ‰Π΅ всС ΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ двумя расстояниями: ΠΎΠ΄ΠΈΠ½ΠΎΡ‡Π½ΠΎΠΉ связью ΠΈΠ»ΠΈ ΠΏΠΎΠ»Π½ΠΎΠΉ связью (см. ΠΎΠ±Π·ΠΎΡ€ ΠΌΠ΅Ρ€ расстояний ΠΌΠ΅ΠΆΠ΄Ρƒ кластСрами).

К нСдостатку иСрархичСских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ отнСсти систСму ΠΏΠΎΠ»Π½Ρ‹Ρ… Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠΉ, которая ΠΌΠΎΠΆΠ΅Ρ‚ ΡΠ²Π»ΡΡ‚ΡŒΡΡ излишнСй Π² контСкстС Ρ€Π΅ΡˆΠ°Π΅ΠΌΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ.

Алгоритмы ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ ошибки

Π—Π°Π΄Π°Ρ‡Ρƒ кластСризации ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ построСниС ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ разбиСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹. ΠŸΡ€ΠΈ этом ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π° ΠΊΠ°ΠΊ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ срСднСквадратичСской ошибки разбиСния:

Π³Π΄Π΅ cj β€” Β«Ρ†Π΅Π½Ρ‚Ρ€ масс» кластСра j (Ρ‚ΠΎΡ‡ΠΊΠ° со срСдними значСниями характСристик для Π΄Π°Π½Π½ΠΎΠ³ΠΎ кластСра).

Алгоритмы ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ ошибки относятся ΠΊ Ρ‚ΠΈΠΏΡƒ плоских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Π‘Π°ΠΌΡ‹ΠΌ распространСнным Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ этой ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ являСтся ΠΌΠ΅Ρ‚ΠΎΠ΄ k-срСдних. Π­Ρ‚ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ строит Π·Π°Π΄Π°Π½Π½ΠΎΠ΅ число кластСров, располоТСнных ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ дальшС Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Π Π°Π±ΠΎΡ‚Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° дСлится Π½Π° нСсколько этапов:

  1. Π‘Π»ΡƒΡ‡Π°ΠΉΠ½ΠΎ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ k Ρ‚ΠΎΡ‡Π΅ΠΊ, ΡΠ²Π»ΡΡŽΡ‰ΠΈΡ…ΡΡ Π½Π°Ρ‡Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ Β«Ρ†Π΅Π½Ρ‚Ρ€Π°ΠΌΠΈ масс» кластСров.
  2. ΠžΡ‚Π½Π΅ΡΡ‚ΠΈ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΊ кластСру с блиТайшим Β«Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΌ масс».
  3. ΠŸΠ΅Ρ€Π΅ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ Β«Ρ†Π΅Π½Ρ‚Ρ€Ρ‹ масс» кластСров согласно ΠΈΡ… Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌΡƒ составу.
  4. Если ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ остановки Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π΅ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€Π΅Π½, Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒΡΡ ΠΊ ΠΏ. 2.

Π’ качСствС критСрия остановки Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ минимальноС ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ срСднСквадратичСской ошибки. Π’Π°ΠΊ ΠΆΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°, Ссли Π½Π° шагС 2 Π½Π΅ Π±Ρ‹Π»ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΏΠ΅Ρ€Π΅ΠΌΠ΅ΡΡ‚ΠΈΠ²ΡˆΠΈΡ…ΡΡ ΠΈΠ· кластСра Π² кластСр.

К нСдостаткам Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΌΠΎΠΆΠ½ΠΎ отнСсти Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π·Π°Π΄Π°Π²Π°Ρ‚ΡŒ количСство кластСров для разбиСния.

НСчСткиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹

НаиболСС популярным Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ кластСризации являСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ c-срСдних (c-means). Он прСдставляСт собой ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° k-срСдних. Π¨Π°Π³ΠΈ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°:
  1. Π’Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎΠ΅ Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠ΅ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ n ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° k кластСров ΠΏΡƒΡ‚Π΅ΠΌ Π²Ρ‹Π±ΠΎΡ€Π° ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ принадлСТности U Ρ€Π°Π·ΠΌΠ΅Ρ€Π° n x k.
  2. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ U, Π½Π°ΠΉΡ‚ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ критСрия Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ ошибки:
    ,
    Π³Π΄Π΅ ck β€” Β«Ρ†Π΅Π½Ρ‚Ρ€ масс» Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠ³ΠΎ кластСра k:
    .
  3. ΠŸΠ΅Ρ€Π΅Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ с Ρ†Π΅Π»ΡŒΡŽ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ этого значСния критСрия Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ ошибки.
  4. Π’ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Ρ‚ΡŒΡΡ Π² ΠΏ. 2 Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° измСнСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ U Π½Π΅ станут Π½Π΅Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ.

Π­Ρ‚ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π΅ ΠΏΠΎΠ΄ΠΎΠΉΡ‚ΠΈ, Ссли Π·Π°Ρ€Π°Π½Π΅Π΅ нСизвСстно число кластСров, Π»ΠΈΠ±ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ отнСсти ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру.
Алгоритмы, основанныС Π½Π° Ρ‚Π΅ΠΎΡ€ΠΈΠΈ Π³Ρ€Π°Ρ„ΠΎΠ²

Π‘ΡƒΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² прСдставляСтся Π² Π²ΠΈΠ΄Π΅ Π³Ρ€Π°Ρ„Π° G=(V, E), Π²Π΅Ρ€ΡˆΠΈΠ½Π°ΠΌ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, Π° Ρ€Π΅Π±Ρ€Π° ΠΈΠΌΠ΅ΡŽΡ‚ вСс, Ρ€Π°Π²Π½Ρ‹ΠΉ Β«Ρ€Π°ΡΡΡ‚ΠΎΡΠ½ΠΈΡŽΒ» ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. Достоинством Π³Ρ€Π°Ρ„ΠΎΠ²Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π½Π°Π³Π»ΡΠ΄Π½ΠΎΡΡ‚ΡŒ, ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ простота Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ вносСния Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½ΠΈΠΉ, основанныС Π½Π° гСомСтричСских сообраТСниях. ΠžΡΠ½ΠΎΠ²Π½Ρ‹ΠΌΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ выдСлСния связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ построСния минимального ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π³ΠΎ (остовного) Π΄Π΅Ρ€Π΅Π²Π° ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ послойной кластСризации.
Алгоритм выдСлСния связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚

Π’ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ΅ выдСлСния связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ задаСтся Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ R ΠΈ Π² Π³Ρ€Π°Ρ„Π΅ ΡƒΠ΄Π°Π»ΡΡŽΡ‚ΡΡ всС Ρ€Π΅Π±Ρ€Π°, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… «расстояния» большС R. Π‘ΠΎΠ΅Π΄ΠΈΠ½Π΅Π½Π½Ρ‹ΠΌΠΈ ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΏΠ°Ρ€Ρ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Бмысл Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Ρ‚ΡŒ Ρ‚Π°ΠΊΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ R, Π»Π΅ΠΆΠ°Ρ‰Π΅Π΅ Π² Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ всСх «расстояний», ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π³Ρ€Π°Ρ„ «развалится» Π½Π° нСсколько связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚. ΠŸΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ ΠΈ Π΅ΡΡ‚ΡŒ кластСры.

Для ΠΏΠΎΠ΄Π±ΠΎΡ€Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π° R ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ строится гистограмма распрСдСлСний ΠΏΠΎΠΏΠ°Ρ€Π½Ρ‹Ρ… расстояний. Π’ Π·Π°Π΄Π°Ρ‡Π°Ρ… с Ρ…ΠΎΡ€ΠΎΡˆΠΎ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠΉ кластСрной структурой Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° гистограммС Π±ΡƒΠ΄Π΅Ρ‚ Π΄Π²Π° ΠΏΠΈΠΊΠ° – ΠΎΠ΄ΠΈΠ½ соотвСтствуСт внутрикластСрным расстояниям, Π²Ρ‚ΠΎΡ€ΠΎΠΉ – мСТкластСрным расстояния. ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ R подбираСтся ΠΈΠ· Π·ΠΎΠ½Ρ‹ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌΠ° ΠΌΠ΅ΠΆΠ΄Ρƒ этими ΠΏΠΈΠΊΠ°ΠΌΠΈ. ΠŸΡ€ΠΈ этом ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ количСством кластСров ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ ΠΏΠΎΡ€ΠΎΠ³Π° расстояния довольно Π·Π°Ρ‚Ρ€ΡƒΠ΄Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ.

Алгоритм минимального ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π³ΠΎ Π΄Π΅Ρ€Π΅Π²Π°

Алгоритм минимального ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° сначала строит Π½Π° Π³Ρ€Π°Ρ„Π΅ минимальноС ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Π΄Π΅Ρ€Π΅Π²ΠΎ, Π° Π·Π°Ρ‚Π΅ΠΌ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ удаляСт Ρ€Π΅Π±Ρ€Π° с наибольшим вСсом. На рисункС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΎ минимальноС ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Π΄Π΅Ρ€Π΅Π²ΠΎ, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠ΅ для дСвяти ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

ΠŸΡƒΡ‚Ρ‘ΠΌ удалСния связи, ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π½ΠΎΠΉ CD, с Π΄Π»ΠΈΠ½ΠΎΠΉ Ρ€Π°Π²Π½ΠΎΠΉ 6 Π΅Π΄ΠΈΠ½ΠΈΡ†Π°ΠΌ (Ρ€Π΅Π±Ρ€ΠΎ с ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ расстояниСм), ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π΄Π²Π° кластСра: {A, B, C} ΠΈ {D, E, F, G, H, I}. Π’Ρ‚ΠΎΡ€ΠΎΠΉ кластСр Π² дальнСйшСм ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π΄Π΅Π»Ρ‘Π½ Π΅Ρ‰Ρ‘ Π½Π° Π΄Π²Π° кластСра ΠΏΡƒΡ‚Ρ‘ΠΌ удалСния Ρ€Π΅Π±Ρ€Π° EF, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΈΠΌΠ΅Π΅Ρ‚ Π΄Π»ΠΈΠ½Ρƒ, Ρ€Π°Π²Π½ΡƒΡŽ 4,5 Π΅Π΄ΠΈΠ½ΠΈΡ†Π°ΠΌ.

Послойная кластСризация

Алгоритм послойной кластСризации основан Π½Π° Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠΈ связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ Π³Ρ€Π°Ρ„Π° Π½Π° Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ расстояний ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ (Π²Π΅Ρ€ΡˆΠΈΠ½Π°ΠΌΠΈ). Π£Ρ€ΠΎΠ²Π΅Π½ΡŒ расстояния задаСтся ΠΏΠΎΡ€ΠΎΠ³ΠΎΠΌ расстояния c. НапримСр, Ссли расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ , Ρ‚ΠΎ .

Алгоритм послойной кластСризации Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅Ρ‚ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ΄Π³Ρ€Π°Ρ„ΠΎΠ² Π³Ρ€Π°Ρ„Π° G, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ иСрархичСскиС связи ΠΌΠ΅ΠΆΠ΄Ρƒ кластСрами:

,

Π³Π΄Π΅ Gt = (V, Et) β€” Π³Ρ€Π°Ρ„ Π½Π° ΡƒΡ€ΠΎΠ²Π½Π΅ сt,
,
сt – t-Ρ‹ΠΉ ΠΏΠΎΡ€ΠΎΠ³ расстояния,
m – количСство ΡƒΡ€ΠΎΠ²Π½Π΅ΠΉ ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ,
G0 = (V, o), o – пустоС мноТСство Ρ€Π΅Π±Π΅Ρ€ Π³Ρ€Π°Ρ„Π°, ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΠΎΠ΅ ΠΏΡ€ΠΈ t0 = 1,
Gm = G, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π³Ρ€Π°Ρ„ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π±Π΅Π· ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠΉ Π½Π° расстояниС (Π΄Π»ΠΈΠ½Ρƒ Ρ€Π΅Π±Π΅Ρ€ Π³Ρ€Π°Ρ„Π°), ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ tm = 1.

ΠŸΠΎΡΡ€Π΅Π΄ΡΡ‚Π²ΠΎΠΌ измСнСния ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ² расстояния {с0, …, сm}, Π³Π΄Π΅ 0 = с0 < с1 < …< сm = 1, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π³Π»ΡƒΠ±ΠΈΠ½Ρƒ ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΡ‹Ρ… кластСров. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ послойной кластСризации способСн ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ плоскоС Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‚Π°ΠΊ ΠΈ иСрархичСскоС.

Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ²

Π’Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ²
Алгоритм кластСризации Π’Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ
Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ O(n2)
k-срСдних O(nkl), Π³Π΄Π΅ k – число кластСров, l – число ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΉ
c-срСдних
Π’Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ зависит ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°
МинимальноС ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Π΄Π΅Ρ€Π΅Π²ΠΎ O(n2 log n)
Послойная кластСризация O(max(n, m)), Π³Π΄Π΅ m < n(n-1)/2

Π‘Ρ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ Ρ‚Π°Π±Π»ΠΈΡ†Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ²
Алгоритм кластСризации Π€ΠΎΡ€ΠΌΠ° кластСров Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹
Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Π°Ρ Число кластСров ΠΈΠ»ΠΈ ΠΏΠΎΡ€ΠΎΠ³ расстояния для усСчСния ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ Π‘ΠΈΠ½Π°Ρ€Π½ΠΎΠ΅ Π΄Π΅Ρ€Π΅Π²ΠΎ кластСров
k-срСдних ГипСрсфСра Число кластСров Π¦Π΅Π½Ρ‚Ρ€Ρ‹ кластСров
c-срСдних ГипСрсфСра Число кластСров, ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ нСчСткости Π¦Π΅Π½Ρ‚Ρ€Ρ‹ кластСров, ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° принадлСТности
Π’Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Π°Ρ ΠŸΠΎΡ€ΠΎΠ³ расстояния R ДрСвовидная структура кластСров
МинимальноС ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Π΄Π΅Ρ€Π΅Π²ΠΎ ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Π°Ρ Число кластСров ΠΈΠ»ΠΈ ΠΏΠΎΡ€ΠΎΠ³ расстояния для удалСния Ρ€Π΅Π±Π΅Ρ€ ДрСвовидная структура кластСров
Послойная кластСризация ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Π°Ρ ΠŸΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ² расстояния ДрСвовидная структура кластСров с Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ уровнями ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ

НСмного ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΈ

Π’ своСй Ρ€Π°Π±ΠΎΡ‚Π΅ ΠΌΠ½Π΅ Π½ΡƒΠΆΠ½ΠΎ Π±Ρ‹Π»ΠΎ ΠΈΠ· иСрархичСских структур (Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π²) Π²Ρ‹Π΄Π΅Π»ΡΡ‚ΡŒ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ области. Π’.Π΅. ΠΏΠΎ сути Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π±Ρ‹Π»ΠΎ Ρ€Π°Π·Ρ€Π΅Π·Π°Ρ‚ΡŒ исходноС Π΄Π΅Ρ€Π΅Π²ΠΎ Π½Π° нСсколько Π±ΠΎΠ»Π΅Π΅ ΠΌΠ΅Π»ΠΊΠΈΡ… Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π². ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠ΅ Π΄Π΅Ρ€Π΅Π²ΠΎ – это частный случай Π³Ρ€Π°Ρ„Π°, Ρ‚ΠΎ СстСствСнным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ подходят Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, основанными Π½Π° Ρ‚Π΅ΠΎΡ€ΠΈΠΈ Π³Ρ€Π°Ρ„ΠΎΠ².

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ полносвязного Π³Ρ€Π°Ρ„Π°, Π² ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΌ Π΄Π΅Ρ€Π΅Π²Π΅ Π½Π΅ всС Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹ соСдинСны Ρ€Π΅Π±Ρ€Π°ΠΌΠΈ, ΠΏΡ€ΠΈ этом ΠΎΠ±Ρ‰Π΅Π΅ количСство Ρ€Π΅Π±Π΅Ρ€ Ρ€Π°Π²Π½ΠΎ n–1, Π³Π΄Π΅ n – число Π²Π΅Ρ€ΡˆΠΈΠ½. Π’.Π΅. ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ ΡƒΠ·Π»Π°ΠΌ Π΄Π΅Ρ€Π΅Π²Π°, Ρ€Π°Π±ΠΎΡ‚Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° выдСлСния связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ упростится, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ любого количСства Ρ€Π΅Π±Π΅Ρ€ Β«Ρ€Π°Π·Π²Π°Π»ΠΈΡ‚Β» Π΄Π΅Ρ€Π΅Π²ΠΎ Π½Π° связныС ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ (ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄Π΅Ρ€Π΅Π²ΡŒΡ). Алгоритм минимального ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° Π² Π΄Π°Π½Π½ΠΎΠΌ случаС Π±ΡƒΠ΄Π΅Ρ‚ ΡΠΎΠ²ΠΏΠ°Π΄Π°Ρ‚ΡŒ с Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ выдСлСния связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ – ΠΏΡƒΡ‚Π΅ΠΌ удалСния самых Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Ρ€Π΅Π±Π΅Ρ€ исходноС Π΄Π΅Ρ€Π΅Π²ΠΎ разбиваСтся Π½Π° нСсколько Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π². ΠŸΡ€ΠΈ этом ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Ρ„Π°Π·Π° построСния самого минимального ΠΏΠΎΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰Π΅Π³ΠΎ Π΄Π΅Ρ€Π΅Π²Π° пропускаСтся.

Π’ случаС использования Π΄Ρ€ΡƒΠ³ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Π² Π½ΠΈΡ… ΠΏΡ€ΠΈΡˆΠ»ΠΎΡΡŒ Π±Ρ‹ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ связСй ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ, Ρ‡Ρ‚ΠΎ услоТняСт Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ.

ΠžΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ Ρ…ΠΎΡ‡Ρƒ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ для достиТСния Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π²Ρ‹Π±ΠΎΡ€ΠΎΠΌ ΠΌΠ΅Ρ€ расстояний, Π° ΠΈΠ½ΠΎΠ³Π΄Π° Π΄Π°ΠΆΠ΅ ΠΌΠ΅Π½ΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ. Никакого Π΅Π΄ΠΈΠ½ΠΎΠ³ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π½Π΅ сущСствуСт.

Бписок Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹

1. Π’ΠΎΡ€ΠΎΠ½Ρ†ΠΎΠ² К.Π’. Алгоритмы кластСризации ΠΈ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ³ΠΎ ΡˆΠΊΠ°Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ. ΠšΡƒΡ€Ρ Π»Π΅ΠΊΡ†ΠΈΠΉ. ΠœΠ“Π£, 2007.
2. Jain A., Murty M., Flynn P. Data Clustering: A Review. // ACM Computing Surveys. 1999. Vol. 31, no. 3.
3. ΠšΠΎΡ‚ΠΎΠ² А., ΠšΡ€Π°ΡΠΈΠ»ΡŒΠ½ΠΈΠΊΠΎΠ² Н. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π΄Π°Π½Π½Ρ‹Ρ…. 2006.
3. МандСль И. Π”. ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·. β€” М.: Ѐинансы ΠΈ Бтатистика, 1988.
4. ΠŸΡ€ΠΈΠΊΠ»Π°Π΄Π½Π°Ρ статистика: классификация ΠΈ сниТСниС размСрности. / Π‘.А. Айвазян, Π’.М. Π‘ΡƒΡ…ΡˆΡ‚Π°Π±Π΅Ρ€, И.Π‘. Π•Π½ΡŽΠΊΠΎΠ², Π›.Π”. МСшалкин β€” М.: Ѐинансы ΠΈ статистика, 1989.
5. Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎ-аналитичСский рСсурс, посвящСнный ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡŽ ΠΎΠ±Ρ€Π°Π·ΠΎΠ² ΠΈ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ Π°Π½Π°Π»ΠΈΠ·Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… β€” www.machinelearning.ru
6. Π§ΡƒΠ±ΡƒΠΊΠΎΠ²Π° И.А. ΠšΡƒΡ€Ρ Π»Π΅ΠΊΡ†ΠΈΠΉ Β«Data MiningΒ», Π˜Π½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-унивСрситСт ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ β€” www.intuit.ru/department/database/datamining
ΠžΠ±Π·ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации числовых пространств Π΄Π°Π½Π½Ρ‹Ρ… / Π₯Π°Π±Ρ€Π—Π°Π΄Π°Ρ‡Π° кластСризации – частный случай Π·Π°Π΄Π°Ρ‡ΠΈ обучСния Π±Π΅Π· учитСля, которая сводится ΠΊ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΡŽ ΠΈΠΌΠ΅ΡŽΡ‰Π΅Π³ΠΎΡΡ мноТСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° подмноТСства Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎ элСмСнты ΠΎΠ΄Π½ΠΎΠ³ΠΎ подмноТСства сущСствСнно ΠΎΡ‚Π»ΠΈΡ‡Π°Π»ΠΈΡΡŒ ΠΏΠΎ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ Π½Π°Π±ΠΎΡ€Ρƒ свойств ΠΎΡ‚ элСмСнтов всСх Π΄Ρ€ΡƒΠ³ΠΈΡ… подмноТСств. ΠžΠ±ΡŠΠ΅ΠΊΡ‚ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ рассматриваСтся ΠΊΠ°ΠΊ Ρ‚ΠΎΡ‡ΠΊΠ° Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ мСтричСском пространствС, ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΡŽ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ соотвСтствуСт Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ свойство (Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚) ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°, Π° ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° – Π΅ΡΡ‚ΡŒ функция ΠΎΡ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π΄Π°Π½Π½Ρ‹Ρ… свойств. ΠžΡ‚ Ρ‚ΠΈΠΏΠΎΠ² ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ этого пространства, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΊΠ°ΠΊ числовыми, Ρ‚Π°ΠΊ ΠΈ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ, зависит Π²Ρ‹Π±ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° кластСризации Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°. Π­Ρ‚ΠΎΡ‚ Π²Ρ‹Π±ΠΎΡ€ ΠΏΡ€ΠΎΠ΄ΠΈΠΊΡ‚ΠΎΠ²Π°Π½ различиями Π² ΠΏΡ€ΠΈΡ€ΠΎΠ΄Π΅ Ρ€Π°Π·Π½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ² Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ².

Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΡ€ΠΈΠ²Π΅Π΄Ρ‘Π½ ΠΊΡ€Π°Ρ‚ΠΊΠΈΠΉ ΠΎΠ±Π·ΠΎΡ€ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² кластСризации числовых пространств Π΄Π°Π½Π½Ρ‹Ρ…. Она Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΠΎΠ»Π΅Π·Π½Π° Ρ‚Π΅ΠΌ, ΠΊΡ‚ΠΎ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π°Ρ‡ΠΈΠ½Π°Π΅Ρ‚ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ Data Mining ΠΈ кластСрный Π°Π½Π°Π»ΠΈΠ· ΠΈ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ‚ ΡΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π² ΠΌΠ½ΠΎΠ³ΠΎΠΎΠ±Ρ€Π°Π·ΠΈΠΈ соврСмСнных Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации ΠΈ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΎ Π½ΠΈΡ… ΠΎΠ±Ρ‰Π΅Π΅ прСдставлСниС. Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° ΠΏΠΎΠ»Π½ΠΎΡ‚Ρƒ излоТСния ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Π°, Π½Π°ΠΏΡ€ΠΎΡ‚ΠΈΠ², описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Π² Π½Π΅ΠΉ максимально ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½ΠΎ. Для Π±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎΠ³ΠΎ изучСния Ρ‚ΠΎΠ³ΠΎ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° рСкомСндуСтся ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π½Π°ΡƒΡ‡Π½ΡƒΡŽ Ρ€Π°Π±ΠΎΡ‚Ρƒ, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΎΠ½ Π±Ρ‹Π» прСдставлСн (см. список Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ Π² ΠΊΠΎΠ½Ρ†Π΅ ΡΡ‚Π°Ρ‚ΡŒΠΈ).

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ разбиСния

НаиболСС извСстныС прСдставитСли этого сСмСйства ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² – Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ k-means[1] ΠΈ k-medoids[2]. Они ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°ΡŽΡ‚ Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ k ΠΈ Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ пространство Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° k кластСров Ρ‚Π°ΠΊΠΈΡ…, Ρ‡Ρ‚ΠΎ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ ΠΎΠ΄Π½ΠΎΠ³ΠΎ кластСра сходство максимально, Π° ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ Ρ€Π°Π·Π½Ρ‹Ρ… кластСров минимально. Бходство измСряСтся ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ Ρ†Π΅Π½Ρ‚Ρ€Ρƒ кластСра ΠΊΠ°ΠΊ дистанция ΠΎΡ‚ рассматриваСмого ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π΄ΠΎ Ρ†Π΅Π½Ρ‚Ρ€Π°. ОсновноС Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠ΅ ΠΌΠ΅ΠΆΠ΄Ρƒ этими ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² способС опрСдСлСния Ρ†Π΅Π½Ρ‚Ρ€Π° кластСра.

Π’ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ΅ k-means сходство рассматриваСтся ΠΏΠΎ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ ΠΊ Ρ†Π΅Π½Ρ‚Ρ€Ρƒ масс кластСра – срСднСму Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² кластСра Π² пространствС Π΄Π°Π½Π½Ρ‹Ρ…. Π‘Π½Π°Ρ‡Π°Π»Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ΡΡ k ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… являСтся ΠΏΡ€ΠΎΡ‚ΠΎΡ‚ΠΈΠΏΠΎΠΌ кластСра ΠΈ прСдставляСт Π΅Π³ΠΎ Ρ†Π΅Π½Ρ‚Ρ€ масс. Π—Π°Ρ‚Π΅ΠΌ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ· ΠΎΡΡ‚Π°Π²ΡˆΠΈΡ…ΡΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² выполняСтся присоСдинСниС ΠΊ Ρ‚ΠΎΠΌΡƒ кластСру, с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ сходство большС. ПослС этого Ρ†Π΅Π½Ρ‚Ρ€ масс ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра вычисляСтся Π·Π°Π½ΠΎΠ²ΠΎ. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠ³ΠΎ разбиСния рассчитываСтся нСкоторая оцСночная функция, значСния ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ сходящСйся ряд. ΠŸΡ€ΠΎΡ†Π΅ΡΡ продолТаСтся Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹ΠΉ ряд Π½Π΅ сойдётся ΠΊ своСму ΠΏΡ€Π΅Π΄Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡŽ. Π˜Π½Ρ‹ΠΌΠΈ словами, ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π΅Π½ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈΠ· кластСра Π² кластСр заканчиваСтся Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° с ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠ΅ΠΉ кластСры Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΡΡ‚Π°Π²Π°Ρ‚ΡŒΡΡ Π½Π΅ΠΈΠ·ΠΌΠ΅Π½Π½Ρ‹ΠΌΠΈ. ΠœΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡ ΠΎΡ†Π΅Π½ΠΎΡ‡Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ позволяСт ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ кластСры Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹ΠΌΠΈ ΠΈ Ρ€Π°Π·Π΄Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ, насколько это Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ. ΠœΠ΅Ρ‚ΠΎΠ΄ k-means Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚, ΠΊΠΎΠ³Π΄Π° кластСры ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»Ρ‘Π½Π½Ρ‹Π΅ ΠΌΠ΅ΠΆΠ΄Ρƒ собой ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Ρ‹Π΅ Β«ΠΎΠ±Π»Π°ΠΊΠ°Β». Он эффСктивСн для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΠ΄Π½Π°ΠΊΠΎ Π½Π΅ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌ для обнаруТСния кластСров Π½Π΅Π²Ρ‹ΠΏΡƒΠΊΠ»ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΡ‹ ΠΈΠ»ΠΈ сильно Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‰Π΅Π³ΠΎΡΡ Ρ€Π°Π·ΠΌΠ΅Ρ€Π°. Π‘ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΠ³ΠΎ, ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΎΡ‡Π΅Π½ΡŒ чувствитСлСн ΠΊ ΡˆΡƒΠΌΡƒ ΠΈ обособлСнным Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌ пространства, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π΄Π°ΠΆΠ΅ ΠΌΠ°Π»ΠΎΠ΅ количСство Ρ‚Π°ΠΊΠΈΡ… Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΌΠΎΠΆΠ΅Ρ‚ сущСствСнно Π²Π»ΠΈΡΡ‚ΡŒ Π½Π° вычислСниС Ρ†Π΅Π½Ρ‚Ρ€Π° масс кластСра.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ влияниС ΡˆΡƒΠΌΠ° ΠΈ обособлСнных Ρ‚ΠΎΡ‡Π΅ΠΊ пространства Π½Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ кластСризации, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ k-medoids, Π² ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ k-means, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ для прСдставлСния Ρ†Π΅Π½Ρ‚Ρ€Π° кластСра Π½Π΅ Ρ†Π΅Π½Ρ‚Ρ€ масс, Π° ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ – ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² кластСра. Как ΠΈ Π² ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ k-means, сначала ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ выбираСтся k ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· ΠΎΡΡ‚Π°Π²ΡˆΠΈΡ…ΡΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ΡΡ Π² кластСр с блиТайшим ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ. Π—Π°Ρ‚Π΅ΠΌ ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° производится Π΅Π³ΠΎ Π·Π°ΠΌΠ΅Π½Π° ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌ Π½Π΅ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ пространства Π΄Π°Π½Π½Ρ‹Ρ…. ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π·Π°ΠΌΠ΅Π½Ρ‹ продолТаСтся Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ΡΡ качСство Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΡ… кластСров. ΠšΠ°Ρ‡Π΅ΡΡ‚Π²ΠΎ кластСризации опрСдСляСтся суммой ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ ΠΈ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅Π³ΠΎ кластСра, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄ стрСмится ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ.Π’ΠΎ Π΅ΡΡ‚ΡŒ, ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°ΡŽΡ‚ΡΡ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ кластСрС Π΅Π³ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π½Π΅ станСт ΠΌΠ΅Π΄ΠΎΠΈΠ΄ΠΎΠΌ – Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π±Π»ΠΈΠ·ΠΊΠΈΠΌ ΠΊ Ρ†Π΅Π½Ρ‚Ρ€Ρƒ кластСра ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ. Алгоритм ΠΏΠ»ΠΎΡ…ΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌ для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… ΠΎΠ±ΡŠΡ‘ΠΌΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, Π½ΠΎ эту ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‰ΠΈΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ k-medoids Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ CLARANS [3]. Для кластСризации ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… пространств Π½Π° основС CLARANS построСн Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ PROCLUS [4].

Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹

ΠžΠ±Ρ‰Π°Ρ идСя ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π΄Π°Π½Π½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ иСрархичСской Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ мноТСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Π’ зависимости ΠΎΡ‚ направлСния построСния ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ Π΄ΠΈΠ²ΠΈΠ·ΠΈΠΌΠ½Ρ‹ΠΉ ΠΈ Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹. Π’ случаС Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° (снизу Π²Π²Π΅Ρ€Ρ…) процСсс Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ начитаСтся с Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ прСдставляСт собой ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ кластСр. Π—Π°Ρ‚Π΅ΠΌ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΠ°Ρ€Ρ‹ Π±Π»ΠΈΠ·Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… кластСров ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ Π² ΠΎΠ±Ρ‰ΠΈΠΉ кластСр. Π˜Ρ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°ΡŽΡ‚ΡΡ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π½Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½Π΅Π½Ρ‹ Π² ΠΎΠ΄ΠΈΠ½ кластСр ΠΈΠ»ΠΈ ΠΏΠΎΠΊΠ° Π½Π΅ выполнится Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ условиС остановки. Π”ΠΈΠ²ΠΈΠ·ΠΈΠΌΠ½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ (свСрху Π²Π½ΠΈΠ·) Π½Π°ΠΏΡ€ΠΎΡ‚ΠΈΠ², ΠΏΠΎΠ΄Ρ€Π°Π·ΡƒΠΌΠ΅Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π½Π° Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎΠΌ этапС всС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½Π΅Π½Ρ‹ Π² Π΅Π΄ΠΈΠ½Ρ‹ΠΉ кластСр. На ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΎΠ½ раздСляСтся Π½Π° Π±ΠΎΠ»Π΅Π΅ ΠΌΠ΅Π»ΠΊΠΈΠ΅ Π΄ΠΎ Ρ‚Π΅Ρ… ΠΏΠΎΡ€, ΠΏΠΎΠΊΠ° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π½Π΅ окаТСтся Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΌ кластСрС ΠΈΠ»ΠΈ Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΎ условиС остановки. Π’ качСствС условия остановки ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ число кластСров, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ кластСрами.

Основная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° иСрархичСских ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² слоТности опрСдСлСния условия остановки Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ «СстСствСнныС» кластСры ΠΈ Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя Π½Π΅ Π΄ΠΎΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ ΠΈΡ… разбиСния. Π•Ρ‰Π΅ ΠΎΠ΄Π½Π° ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° иСрархичСских ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² кластСризации Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Π²Ρ‹Π±ΠΎΡ€Π΅ Ρ‚ΠΎΡ‡ΠΊΠΈ раздСлСния ΠΈΠ»ΠΈ слияния кластСров. Π­Ρ‚ΠΎΡ‚ Π²Ρ‹Π±ΠΎΡ€ ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π΅Π½, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ послС раздСлСния ΠΈΠ»ΠΈ слияния кластСров Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ шагС ΠΌΠ΅Ρ‚ΠΎΠ΄ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΠ΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ вновь ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ кластСрами, поэтому Π½Π΅Π²Π΅Ρ€Π½Ρ‹ΠΉ Π²Ρ‹Π±ΠΎΡ€ Ρ‚ΠΎΡ‡ΠΊΠΈ слияния ΠΈΠ»ΠΈ раздСлСния Π½Π° ΠΊΠ°ΠΊΠΎΠΌ-Π»ΠΈΠ±ΠΎ шагС ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ нСкачСствСнной кластСризации. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, иСрархичСскиС ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π½Π΅ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΊ большим Π½Π°Π±ΠΎΡ€Π°ΠΌ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΠΎΡ‚ΠΎΠΌΡƒ ΠΊΠ°ΠΊ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠΈ ΠΈΠ»ΠΈ слиянии кластСров Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π°Π½Π°Π»ΠΈΠ·Π° большого количСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈ кластСров, Ρ‡Ρ‚ΠΎ Π²Π΅Π΄Ρ‘Ρ‚ ΠΊ большой Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ слоТности ΠΌΠ΅Ρ‚ΠΎΠ΄Π°. ΠŸΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², основанных Π½Π° иСрархичСском ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ ΡΠ²Π»ΡΡŽΡ‚ΡΡ BIRCH[5] ΠΈ CHAMELEON[6].

ΠŸΠ»ΠΎΡ‚Π½ΠΎΡΡ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹

ΠšΠ»Π°ΡΡ‚Π΅Ρ€Ρ‹ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΊΠ°ΠΊ Ρ€Π΅Π³ΠΈΠΎΠ½Ρ‹ пространства Π΄Π°Π½Π½Ρ‹Ρ… с высокой ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Ρ‹ Ρ€Π΅Π³ΠΈΠΎΠ½Π°ΠΌΠΈ с Π½ΠΈΠ·ΠΊΠΎΠΉ ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².

Алгоритм DBSCAN [7] – ΠΎΠ΄ΠΈΠ½ ΠΈΠ· ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации плотностным ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ. Π’ основС этого Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π»Π΅ΠΆΠΈΡ‚ нСсколько ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΉ:

  • Ξ΅-ΠΎΠΊΡ€Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° называСтся ΠΎΠΊΡ€Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒ радиуса Ξ΅ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°.
  • ΠšΠΎΡ€Π½Π΅Π²Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ называСтся ΠΎΠ±ΡŠΠ΅ΠΊΡ‚, Ξ΅-ΠΎΠΊΡ€Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ содСрТит Π½Π΅ ΠΌΠ΅Π½Π΅Π΅ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ минимального числа MinPts ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².
  • ΠžΠ±ΡŠΠ΅ΠΊΡ‚ p нСпосрСдствСнно ΠΏΠ»ΠΎΡ‚Π½ΠΎ-достиТим ΠΈΠ· ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° q Ссли p находится Π² Ξ΅-окрСстности q ΠΈ q являСтся ΠΊΠΎΡ€Π½Π΅Π²Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ.
  • ΠžΠ±ΡŠΠ΅ΠΊΡ‚ p ΠΏΠ»ΠΎΡ‚Π½ΠΎ-достиТим ΠΈΠ· ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° q ΠΏΡ€ΠΈ Π·Π°Π΄Π°Π½Π½Ρ‹Ρ… Ξ΅ ΠΈ MinPts, Ссли сущСствуСт ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² p1, …, pn, Π³Π΄Π΅ p1 = q ΠΈ pn = p, такая Ρ‡Ρ‚ΠΎ pi+1 нСпосрСдствСнно ΠΏΠ»ΠΎΡ‚Π½ΠΎ достиТим ΠΈΠ· pi, 1 ≀ i ≀ n.
  • ΠžΠ±ΡŠΠ΅ΠΊΡ‚ p ΠΏΠ»ΠΎΡ‚Π½ΠΎ-соСдинён с ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ q ΠΏΡ€ΠΈ Π·Π°Π΄Π°Π½Π½Ρ‹Ρ… Ξ΅ ΠΈ MinPts, Ссли сущСствуСт ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ o Ρ‚Π°ΠΊΠΎΠΉ, Ρ‡Ρ‚ΠΎ p ΠΈ q ΠΏΠ»ΠΎΡ‚Π½ΠΎ-достиТимы ΠΈΠ· o.

Для поиска кластСров Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ DBSCAN провСряСт Ξ΅-ΠΎΠΊΡ€Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°. Если Ξ΅-ΠΎΠΊΡ€Π΅ΡΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° p содСрТит большС Ρ‚ΠΎΡ‡Π΅ΠΊ Ρ‡Π΅ΠΌ MinPts, Ρ‚ΠΎ создаётся Π½ΠΎΠ²Ρ‹ΠΉ кластСр с ΠΊΠΎΡ€Π½Π΅Π²Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠΌ p. Π—Π°Ρ‚Π΅ΠΌ DBSCAN ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎ собираСт ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ нСпосрСдствСнно ΠΏΠ»ΠΎΡ‚Π½ΠΎ-достиТимыС ΠΈΠ· ΠΊΠΎΡ€Π½Π΅Π²Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ привСсти ΠΊ объСдинСнию Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΏΠ»ΠΎΡ‚Π½ΠΎ-достиТимых кластСров. ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π·Π°Π²Π΅Ρ€ΡˆΠ°Π΅Ρ‚ΡΡ, ΠΊΠΎΠ³Π΄Π° Π½ΠΈ ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΎ Π½ΠΈ ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π½ΠΎΠ²ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°.

Π₯отя, Π² ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² разбиСния, DBSCAN Π½Π΅ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π·Π°Ρ€Π°Π½Π΅Π΅ ΡƒΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ число ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΡ‹Ρ… кластСров, трСбуСтся ΡƒΠΊΠ°Π·Π°Π½ΠΈΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Ξ΅ ΠΈ MinPts, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ нСпосрСдствСнно Π²Π»ΠΈΡΡŽΡ‚ Π½Π° Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ кластСризации. ΠžΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹Π΅ значСния этих ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² слоТно ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, особСнно для ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… пространств Π΄Π°Π½Π½Ρ‹Ρ…. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, распрСдСлСниС Π΄Π°Π½Π½Ρ‹Ρ… Π² Ρ‚Π°ΠΊΠΈΡ… пространствах часто нСсиммСтрично, Ρ‡Ρ‚ΠΎ Π½Π΅ позволяСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для ΠΈΡ… кластСризации Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ плотности. Для кластСризации ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… пространств Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π±Π°Π·Π΅ DBSCAN Π±Ρ‹Π» создан Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ SUBCLU [8].

Π‘Π΅Ρ‚Π΅Π²Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹

ΠžΠ±Ρ‰Π°Ρ идСя ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ пространство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² разбиваСтся Π½Π° ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ΅ число ячССк, ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΡ… ΡΠ΅Ρ‚Π΅Π²ΡƒΡŽ структуру, Π² Ρ€Π°ΠΌΠΊΠ°Ρ… ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ всС ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ кластСризации. Π“Π»Π°Π²Π½ΠΎΠ΅ достоинство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² этой Π³Ρ€ΡƒΠΏΠΏΡ‹ Π² ΠΌΠ°Π»ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ выполнСния, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π½Π΅ зависит ΠΎΡ‚ количСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, Π° зависит Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚ количСства ячССк Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΈ пространства.

Алгоритм CLIQUE [9], Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Π΄Π°Π½Π½Ρ‹Ρ… высокой размСрности, являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· классичСских сСтСвых Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². ΠœΠ΅Ρ‚ΠΎΠ΄ основан Π½Π° Ρ‚ΠΎΠΌ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ Ссли Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС Π΄Π°Π½Π½Ρ‹Ρ… распрСдСлСниС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π΅ Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎ – Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Ρ€Π΅Π³ΠΈΠΎΠ½Ρ‹ плотности ΠΈ разрСТСния, Ρ‚ΠΎ проСкция Ρ€Π΅Π³ΠΈΠΎΠ½Π° плотности Π² подпространство с мСньшСй Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ Π±ΡƒΠ΄Π΅Ρ‚ Ρ‡Π°ΡΡ‚ΡŒΡŽ Ρ€Π΅Π³ΠΈΠΎΠ½Π° плотности Π² этом подпространствС. Алгоритм CLIQUE ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ³ΠΎ пространства Π΄Π°Π½Π½Ρ‹Ρ… ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ: пространство Π΄Π°Π½Π½Ρ‹Ρ… разбиваСтся Π½Π° Π½Π΅ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ ячСйки фиксированного Ρ€Π°Π·ΠΌΠ΅Ρ€Π°, срСди Π½ΠΈΡ… ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΡ†ΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΏΠ»ΠΎΡ‚Π½Ρ‹Π΅ ячСйки – Ρ‚Π°ΠΊΠΈΠ΅, ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€Π΅Π²Ρ‹ΡˆΠ°Π΅Ρ‚ Π·Π°Π΄Π°Π½Π½ΠΎΠ΅ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅. Π”Π°Π»Π΅Π΅ ΠΈΠ· Π½Π°ΠΉΠ΄Π΅Π½Π½Ρ‹Ρ… ячССк формируСтся пространство, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ΠΌΠΎΠ³ΡƒΡ‚ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠ»ΠΎΡ‚Π½Ρ‹Π΅ ячСйки большСй размСрности. ΠŸΡ€ΠΎΡ†Π΅ΡΡ начинаСтся с ΠΎΠ΄Π½ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… пространств (описанная ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π° выполняСтся для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ измСрСния) с ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΎΠΌ ΠΊ подпространствам Π±ΠΎΠ»Π΅Π΅ высокой размСрности.

Π­Ρ‚ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌ для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ большого количСства Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΏΡ€ΠΈ большом количСствС ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ число рассматриваСмых ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ растёт Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎ, ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, трСбуСтся ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ эвристики для сокращСния количСства рассматриваСмых ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΡ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ сильно зависит ΠΎΡ‚ Π²Ρ‹Π±ΠΎΡ€Π° Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ячСйки ΠΈ ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ значСния плотности ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² ячСйкС. Π­Ρ‚ΠΎ являСтся большой ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ΄Π½ΠΈ ΠΈ Ρ‚Π΅ ΠΆΠ΅ значСния этих ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ ΠΏΡ€ΠΈ рассмотрСнии всСх ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΉ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ. Π­Ρ‚Ρƒ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ MAFIA [10], Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ ΠΏΠΎ схоТСму ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡƒ, Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΠΉ Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€ ячССк ΠΏΡ€ΠΈ Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠΈ подпространств.

ΠœΠΎΠ΄Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ этого сСмСйства ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ имССтся нСкоторая матСматичСская модСль кластСра Π² пространствС Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ стрСмятся ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ сходство этой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ Π΄Π°Π½Π½Ρ‹Ρ…. Часто ΠΏΡ€ΠΈ этом ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π°ΠΏΠΏΠ°Ρ€Π°Ρ‚ матСматичСской статистики.

Алгоритм EM [11] основан Π½Π° ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ исслСдуСмоС мноТСство Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ смодСлировано с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠΈ ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½Ρ‹Ρ… Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… распрСдСлСний. Π•Π³ΠΎ Ρ†Π΅Π»ΡŒΡŽ являСтся ΠΎΡ†Π΅Π½ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² распрСдСлСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠ°ΠΊΡΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ правдоподобия, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡƒΡŽ Π² качСствС ΠΌΠ΅Ρ€Ρ‹ качСства ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π˜Π½Ρ‹ΠΌΠΈ словами, прСдполагаСтся, Ρ‡Ρ‚ΠΎ Π΄Π°Π½Π½Ρ‹Π΅ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ кластСрС ΠΏΠΎΠ΄Ρ‡ΠΈΠ½ΡΡŽΡ‚ΡΡ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌΡƒ Π·Π°ΠΊΠΎΠ½Ρƒ распрСдСлСния, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ, Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ. Π‘ ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ этого прСдполоТСния ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π·Π°ΠΊΠΎΠ½Π° распрСдСлСния – матСматичСскоС ΠΎΠΆΠΈΠ΄Π°Π½ΠΈΠ΅ ΠΈ Π΄ΠΈΡΠΏΠ΅Ρ€ΡΠΈΡŽ, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… функция правдоподобия максимальна. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΌΡ‹ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ любой ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠΎ всСм кластСрам, Π½ΠΎ с Ρ€Π°Π·Π½ΠΎΠΉ Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ. Π’ΠΎΠ³Π΄Π° Π·Π°Π΄Π°Ρ‡Π° Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒΡΡ Π² Β«ΠΏΠΎΠ΄Π³ΠΎΠ½ΠΊΠ΅Β» совокупности распрСдСлСний ΠΊ Π΄Π°Π½Π½Ρ‹ΠΌ, Π° Π·Π°Ρ‚Π΅ΠΌ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ вСроятностСй принадлСТности ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ кластСру. ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ отнСсСн ΠΊ Ρ‚ΠΎΠΌΡƒ кластСру, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ данная Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Π²Ρ‹ΡˆΠ΅.

Алгоритм EM прост ΠΈ Π»Ρ‘Π³ΠΎΠΊ Π² Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ, Π½Π΅ чувствитСлСн ΠΊ ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ ΠΈ быстро сходится ΠΏΡ€ΠΈ ΡƒΠ΄Π°Ρ‡Π½ΠΎΠΉ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ. Однако ΠΎΠ½ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ для ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ указания количСства кластСров k, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ΄Ρ€Π°Π·ΡƒΠΌΠ΅Π²Π°Π΅Ρ‚ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Π°ΠΏΡ€ΠΈΠΎΡ€Π½Ρ‹Ρ… Π·Π½Π°Π½ΠΈΠΉ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ…. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΏΡ€ΠΈ Π½Π΅ΡƒΠ΄Π°Ρ‡Π½ΠΎΠΉ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΡΡ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠΉ ΠΈΠ»ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ нСкачСствСнный Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚.
ΠžΡ‡Π΅Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π½Π΅ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠΌΡ‹ ΠΊ пространствам с высокой Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒΡŽ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π² этом случаС ΠΊΡ€Π°ΠΉΠ½Π΅ слоТно ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚ΡŒ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ модСль распрСдСлСния Π΄Π°Π½Π½Ρ‹Ρ… Π² этом пространствС.

ΠšΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½Π°Ρ кластСризация

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠΉ кластСризации, которая ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π΅Ρ‚ Π³Ρ€ΡƒΠΏΠΏΡ‹ схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° основС ΠΌΠ΅Ρ€Ρ‹ сходства ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ, ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½Π°Ρ кластСризация опрСдСляСт кластСры ΠΊΠ°ΠΊ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², относящСйся ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ классу ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚Ρƒ – ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½ΠΎΠΌΡƒ Π½Π°Π±ΠΎΡ€Ρƒ ΠΏΠ°Ρ€ Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚-Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅.

Алгоритм COBWEB [12] – классичСский ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠ½ΠΊΡ€Π΅ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠΉ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ кластСризации. Он создаёт ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Π² Π²ΠΈΠ΄Π΅ Π΄Π΅Ρ€Π΅Π²Π° классификации: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΡƒΠ·Π΅Π» этого Π΄Π΅Ρ€Π΅Π²Π° ссылаСтся Π½Π° ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚ ΠΈ содСрТит вСроятностноС описаниС этого ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚Π°, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ принадлСТности ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚Π° ΠΊ Π΄Π°Π½Π½ΠΎΠΌΡƒ ΡƒΠ·Π»Ρƒ ΠΈ условныС вСроятности Π²ΠΈΠ΄Π°: P(Ai = vij|Ck), Π³Π΄Π΅ Ai = vij – ΠΏΠ°Ρ€Π° Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚-Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Ck – класс ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚Π°.
Π£Π·Π»Ρ‹, находящСйся Π½Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ Π΄Π΅Ρ€Π΅Π²Π° классификации, Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ срСзом. Алгоритм ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ для построСния Π΄Π΅Ρ€Π΅Π²Π° классификации ΡΠ²Ρ€ΠΈΡΡ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ ΠΎΡ†Π΅Π½ΠΊΠΈ, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡƒΡŽ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒΡŽ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ – прирост ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎΠ³ΠΎ числа ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ ΠΎ значСниях Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² ΠΏΡ€ΠΈ Π·Π½Π°Π½ΠΈΠΈ ΠΎΠ± ΠΈΡ… принадлСТности ΠΊ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Ρ‘Π½Π½ΠΎΠΉ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎΠ³ΠΎ числа ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ ΠΎ значСниях Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² Π±Π΅Π· этого знания. Π§Ρ‚ΠΎΠ±Ρ‹ Π²ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π½ΠΎΠ²Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π² Π΄Π΅Ρ€Π΅Π²ΠΎ классификации, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ COBWEB ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΈΡ‚ всё Π΄Π΅Ρ€Π΅Π²ΠΎ Π² поисках Β«Π»ΡƒΡ‡ΡˆΠ΅Π³ΠΎΒ» ΡƒΠ·Π»Π°, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ отнСсти этот ΠΎΠ±ΡŠΠ΅ΠΊΡ‚. Π’Ρ‹Π±ΠΎΡ€ ΡƒΠ·Π»Π° осущСствляСтся Π½Π° основС помСщСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π² ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΡƒΠ·Π΅Π» ΠΈ вычислСния полСзности ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ²ΡˆΠ΅Π³ΠΎΡΡ срСза. Π’Π°ΠΊΠΆΠ΅ вычисляСтся ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ для случая, ΠΊΠΎΠ³Π΄Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ относится ΠΊ вновь создаваСмому ΡƒΠ·Π»Ρƒ. Π’ ΠΈΡ‚ΠΎΠ³Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ относится ΠΊ Ρ‚ΠΎΠΌΡƒ ΡƒΠ·Π»Ρƒ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ большС.
Однако COBWEB ΠΈΠΌΠ΅Π΅Ρ‚ ряд ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠΉ. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΎΠ½ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ распрСдСлСния вСроятностСй Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² статистичСски нСзависимы Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π°. Однако это ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ Π½Π΅ всСгда Π²Π΅Ρ€Π½ΠΎ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ ΠΊΠ°ΠΊ часто ΠΌΠ΅ΠΆΠ΄Ρƒ значСниями Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ² сущСствуСт коррСляция. Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, вСроятностноС прСдставлСниС кластСров Π΄Π΅Π»Π°Π΅Ρ‚ ΠΎΡ‡Π΅Π½ΡŒ слоТным ΠΈΡ… ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅, особСнно Π² Ρ‚ΠΎΠΌ случаС, ΠΊΠΎΠ³Π΄Π° Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚Ρ‹ ΠΈΠΌΠ΅ΡŽΡ‚ большоС число Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. Π­Ρ‚ΠΎ Π²Ρ‹Π·Π²Π°Π½ΠΎ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° зависит Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ‚ количСства Π°Ρ‚Ρ€ΠΈΠ±ΡƒΡ‚ΠΎΠ², Π½ΠΎ ΠΈ ΠΎΡ‚ количСства ΠΈΡ… Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ.

Бписок Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹

  1. MacQueen, J. Some methods for classification and analysis of multivariate observations/ J. MacQueen // In Proc. 5th Berkeley Symp. Оn Math. Statistics and Probability, 1967. -Б.281-297.
  2. Kaufman, L. Clustering by means of Medoids, in Statistical Data Analysis Based on the l–Norm and Related Methods / L. Kaufman, P.J. Rousseeuw, Y. Dodge, 1987. -Π‘.405-416.
  3. Ng, R.T. Efficient and Effective Clustering Methods for Spatial Data Mining / R.T. Ng, J. Han // Proc. 20th Int. Conf. on Very Large Data Bases. Morgan Kaufmann Publishers, San Francisco, CA, 1994. -Π‘.144-155.
  4. Aggarwal, C.C. Fast Algorithms for Projected Clustering / C.C. Aggarwal, C. Procopiuc // In Proc. ACM SIGMOD Int. Conf. on Management of Data, Philadelphia, PA, 1999. 12 с.
  5. Zhang, T. BIRCH: An Efficient Data Clustering Method for Very Large Databases / T. Zhang, R. Ramakrishnan, M. Linvy // In Proc. ACM SIGMOD Int. Conf. on Management of Data. ACM Press, New York, 1996. -Π‘.103-114.
  6. Karypis, G. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling / G. Karypis, E.-H. Han, V. Kumar // Journal Computer Volume 32 Issue 8. IEEE Computer Society Press Los Alamitos, CA, 1999. -Π‘.68-75
  7. Ester, M. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester, H.-P. Kriegel, J. Sander, X. Xu // In Proc. ACM SIGMOD Int. Conf. on Management of Data, Portland, OR, 1996. –Б. 226-231.
  8. Kailing, K. Density-Connected Subspace Clustering for High-Dimensional Data / K. Kailing, H.-P. Kriegel, P. KrΓΆger // In Proceedings of the 4th SIAM International Conference on Data Mining (SDM), 2004. -Π‘.246-257.
  9. Agrawal, R. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications / R. Agrawal, J. Gehrke, D. Gunopulos, P. Raghavan // In Proc. ACM SIGMOD Int. Conf. on Management of Data, Seattle, Washington, 1998. -Π‘.94-105.
  10. Nagesh, H. MAFIA: Efficient and Scalable Subspace Clustering for Very Large Data Sets / H. Nagesh, S. Goil, A. Choudhary // Technical Report Number CPDC-TR-9906-019, Center for Parallel and Distributed Computing, Northwestern University, 1999. 20 с.
  11. Demster, A. Maximum Likelihood from Incomplete Data via the EM Algorithm /A.P. Demster, N.M. Laird, D.B. Rubin //JOURNAL OF THE ROYAL STATISTICAL SOCIETY, SERIES B, Vol. 39, No. 1, 1977. -Π‘.1-38.
  12. Fisher, D.H. Knowledge acquisition via incremental conceptual clustering / D.H. Fisher // Machine Learning 2, 1987. -Π‘.139-172.
расскаТи ΠΌΠ½Π΅, Ρ‡Ρ‚ΠΎ Ρ‚Ρ‹ ΠΏΠΎΠΊΡƒΠΏΠ°Π΅ΡˆΡŒ, ΠΈ я скаТу ΠΊΡ‚ΠΎ Ρ‚Ρ‹ / Π‘Π»ΠΎΠ³ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ datawiz.io / Π₯Π°Π±Ρ€

Π—Π°Π΄Π°Ρ‡Π° Datawiz.io: провСсти ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π² Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ β€” это ΠΌΠ΅Ρ‚ΠΎΠ΄ поиска закономСрностСй, ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π½Ρ‹ΠΉ для разбиСния совокупности ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹ (кластСры) ΠΈΠ»ΠΈ поиска ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… структур Π² Π΄Π°Π½Π½Ρ‹Ρ….

ЦСлью кластСризации являСтся ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½ΠΎΠ²Ρ‹Ρ… Π·Π½Π°Π½ΠΈΠΉ. Π­Ρ‚ΠΎ ΠΊΠ°ΠΊ β€œΠ½Π°ΠΉΡ‚ΠΈ ΠΊΠ»Π°Π΄ Π² собствСнном подвалС”.

Для Ρ‡Π΅Π³ΠΎ это Π½ΡƒΠΆΠ½ΠΎ компаниям? Π§Ρ‚ΠΎΠ±Ρ‹ Π»ΡƒΡ‡ΡˆΠ΅ ΡƒΠ·Π½Π°Ρ‚ΡŒ своих ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². Π§Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΠΉΡ‚ΠΈ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρƒ, Π° Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со всСми ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ.

НСсмотря Π½Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΈ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ ΠΊΠΎΠ»ΠΎΡΡΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ, ΠΈΡ… Π°Π½Π°Π»ΠΈΡ‚ΠΈΠΊΠΈ сначала ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ пСрсону покупатСля, Π° ΡƒΠΆΠ΅ ΠΏΠΎΡ‚ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ Π΅Π΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅.

РСшСниС: Machine Learning позволяСт ΠΏΠΎΠΉΡ‚ΠΈ ΠΎΡ‚ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ, ΠΎΡ‚ Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚Π΅Π½ΠΈΠΉ β€” ΠΊ пСрсонС. ΠœΡ‹ Π² Datawiz.io ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΊΠ°ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄ группирования ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠΎ Π΄Π°Π½Π½Ρ‹ΠΌ ΠΎ ΠΈΡ… ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΈ – ΠΏΠΎΠΊΡƒΠΏΠΊΠ°Ρ…, банковских транзакциях, ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½Ρ‹Ρ… историях.

Для кластСризации массива Π΄Π°Π½Π½Ρ‹Ρ… (Ρ‡Π΅ΠΊΠΈ, Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°Ρ… Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ) ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ K-means. Он Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅Ρ‚ΡΡ ΠΈ оптимизируСтся ΠΏΠΎΠ΄ Hadoop.

Π’Π°ΠΊΠΆΠ΅ ΠΊΠ°ΠΊ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Affinity Propagation. ΠšΠΎΠ½Π΅Ρ‡Π½ΠΎ, Ρƒ Π½Π΅Π³ΠΎ Π΅ΡΡ‚ΡŒ ряд сущСствСнных минусов: ΠΎΠ½ ΠΌΠ΅Π΄Π»Π΅Π½Π½Ρ‹ΠΉ ΠΈ ΠΏΠ»ΠΎΡ…ΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅Ρ‚ΡΡ. Но Π² частных случаях, ΠΏΡ€ΠΈ ΠΆΠ΅Π»Π°Π½ΠΈΠΈ ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ свободного Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΅Π³ΠΎ для кластСризации Π½Π° ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΈΡ… ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΊΠ°Ρ… Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

Π˜Ρ‚Π°ΠΊ, пошагово.

1. Clean DatΠ°.


ΠŸΡ€Π΅ΠΆΠ΄Π΅, Ρ‡Π΅ΠΌ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ β€” Π² ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΌ порядкС чистим ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ. Π£Π±ΠΈΡ€Π°Π΅ΠΌ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π½Π΅ влияСт Π½Π° ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ ΠΈ являСтся ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ ΡˆΡƒΠΌΠΎΠΌ. Для Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅Ρ€ΠΎΠ², Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚ΡŒ Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½ΡƒΡŽ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ†ΠΈΡŽ, Π²Ρ‹Π΄Π°Π½Π½Ρ‹Π΅ дисконтныС ΠΊΠ°Ρ€Ρ‚Ρ‹, скрСтч-ΠΊΠ°Ρ€Ρ‚Ρ‹, Ρ‚Π°Ρ€Ρƒ ΠΈ ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, ΠΏΠΎΠΊΡƒΠΏΠ°Π΅ΠΌΡ‹Π΅ Π½Π° кассС. ПослС Ρ‚ΠΎΠ³ΠΎ ΠΊΠ°ΠΊ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΡ‡ΠΈΡ‰Π΅Π½Ρ‹ приступаСм ΠΊ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

2. Π€ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅ΠΌ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ с Π²Ρ…ΠΎΠ΄Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ.


Π’Π°ΠΆΠ½ΠΎ: Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ кластСризации ΠΎΡ‡Π΅Π½ΡŒ зависят ΠΎΡ‚ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄Π° Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΎΠ½Π° проводится. Если Π²Ρ‹Π±Π΅Ρ€Π΅ΠΌ ΠΊΡ€ΠΎΡ‚ΠΊΠΈΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ β€” ΡƒΠ²ΠΈΠ΄ΠΈΠΌ Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΠ΅ Ρ‚Ρ€Π΅Π½Π΄Ρ‹.

НапримСр, провСдя ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠ΅Ρ€Π΅Π΄ Новым Π³ΠΎΠ΄ΠΎΠΌ, ΡƒΠ²ΠΈΠ΄ΠΈΠΌ кластСры, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ Π²ΠΈΠ΄Π½Ρ‹ Π½Π° Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΊΠ΅ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. (Π‘ΠΊΠ°ΠΆΠ΅ΠΌ, кластСр β€œΠ›ΡŽΠ±ΠΈΡ‚Π΅Π»ΠΈ β€œΠžΠ»ΠΈΠ²ΡŒΠ΅β€ ΠΈ β€œΠ‘Π΅Π»Π΅Π΄ΠΊΠΈ ΠΏΠΎΠ΄ ΡˆΡƒΠ±ΠΎΠΉβ€). ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π·Π° Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½Ρƒ Π² Ρ†Π΅Π»ΠΎΠΌ, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² со ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Ρ‹ΠΌ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ΠΌ (β€œΠ»Π°ΠΉΡ„ΡΡ‚Π°ΠΉΠ»β€). β€œΠ‘Ρ‚ΡƒΠ΄Π΅Π½Ρ‚Ρ‹β€, β€œΠ”ΠΎΠΌΠΎΡ…ΠΎΠ·ΡΠΉΠΊΠΈβ€, β€œΠŸΠ΅Π½ΡΠΈΠΎΠ½Π΅Ρ€Ρ‹β€ ΠΈ Ρ‚.Π΄.

НапримСр, Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅Ρ€ Ρ…ΠΎΡ‡Π΅Ρ‚ провСсти ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ΅ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π·Π° ΠΏΠΎΠ»Π³ΠΎΠ΄Π°.
Π£ ΠΌΠ°Π³Π°Π·ΠΈΠ½Π° Π΅ΡΡ‚ΡŒ Ρ‡Π΅ΠΊΠΈ Васи, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π·Π° ΠΏΠΎΠ»Π³ΠΎΠ΄Π° ΠΊΡƒΠΏΠΈΠ» 1 Ρ…Π»Π΅Π±, 2 ΠΌΠΎΠ»ΠΎΠΊΠ° ΠΈ 1 Π±Π°Ρ‚ΠΎΠ½; ΠΈ Ρ‡Π΅ΠΊΠΈ Оли β€” ΠΎΠ½Π° ΠΊΡƒΠΏΠΈΠ»Π° 3 Ρ…Π»Π΅Π±Π°, 5 ΠΌΠΎΠ»ΠΎΠΊΠ° ΠΈ 2 Π±Π°Ρ‚ΠΎΠ½Π° Π·Π° ΠΏΠΎΠ»Π³ΠΎΠ΄Π° ΠΈ Ρ‚.Π΄.

Π—Π½Π°Ρ‡ΠΈΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° для этого Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅Ρ€Π° Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ Ρ‚Π°ΠΊ:

Для Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅Ρ€Π° Π² срСднСм, features = 15 тыс. SKU, Π° samples = 60 тыс. ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ².

Π’ΠΎΠ·ΡŒΠΌΠ΅ΠΌ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Π’Π°ΡΡŽ со всСми Π΅Π³ΠΎ Ρ‡Π΅ΠΊΠ°ΠΌΠΈ Π·Π° ΠΏΠΎΠ»Π³ΠΎΠ΄Π°. Π’ зависимости ΠΎΡ‚ количСства Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ всСх Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² ΠΏΠΎ всСх Π΅Π³ΠΎ Ρ‡Π΅ΠΊΠ°Ρ…, размСстим Π’Π°ΡΡŽ (ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ…) Π½Π° Π³Ρ€Π°Ρ„ΠΈΠΊΠ΅, Π³Π΄Π΅:

количСство осСй = количСству Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² (features),

количСство Ρ‚ΠΎΡ‡Π΅ΠΊ = количСству ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² (samples), ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ΅ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.

НаглядноС (ΠΈ ΠΎΡ‡Π΅Π½ΡŒ схСматичноС:) ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅:

Но Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ кластСризации Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ k-means Π±ΡƒΠ΄Π΅Ρ‚ Ρ‚Π°ΠΊ:

Π’Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹Ρ… уровнях ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² (feature reduction), Ρ‚ΠΎΠ³Π΄Π° ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ Ρ‚Π°ΠΊ:

ПослС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° сформирована, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ количСства кластСров.

3. Π’Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ количСство кластСров.


ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ кластСров ΠΌΡ‹ Π²Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹ΠΌ ΠΏΡƒΡ‚Π΅ΠΌ, исходя ΠΈΠ· собствСнного ΠΎΠΏΡ‹Ρ‚Π°. МалоС количСство кластСров Π±ΡƒΠ΄Π΅Ρ‚ малоэффСктивно ΠΈ Π½Π΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½ΠΎ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π² Ρ‚Π°ΠΊΠΎΠΌ случаС ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ ΠΎΠ΄ΠΈΠ½-Π΄Π²Π° β€œΠΌΠ΅Π³Π°ΠΊΠ»Π°ΡΡ‚Π΅Ρ€Π°β€, ΠΊΡƒΠ΄Π° Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ 98% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ нСсколько бСсполСзных ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… кластСров.

ΠŸΡ€ΠΈ большом количСствС кластСров получится слишком ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… Π³Ρ€ΡƒΠΏΠΏ. К Ρ‚ΠΎΠΌΡƒ ΠΆΠ΅ Π½ΠΈΠΊΡ‚ΠΎ Π½Π΅ Ρ…ΠΎΡ‡Π΅Ρ‚ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ 5000 ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠ΅Π»ΠΊΠΈΡ… кластСров. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ случая Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ свой ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄.

Для Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ΠΎΠ² ΠΈ большого количСства кластСров ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ K-means.

4. ΠŸΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠΌ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ.


Π’Ρ‹Π±ΠΈΡ€Π°Π΅ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ K-means (ΠΈΠ»ΠΈ Affinity Propagation), ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ Python Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ scikit-learn, Π½Π° Π²Ρ…ΠΎΠ΄ Π΄Π°Π΅ΠΌ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ²ΡˆΡƒΡŽΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ, запускаСм ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ.

5. АнализируСм Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ кластСризации.


Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° являСтся ΠΌΠ°Ρ€ΠΊΠΈΡ€ΠΎΠ²ΠΊΠ° всСх ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π² зависимости ΠΎΡ‚ ΠΈΡ… повСдСния/ΠΏΠΎΠΊΡƒΠΏΠΊΠΈ. ΠšΠ»ΠΈΠ΅Π½Ρ‚Ρ‹ с ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹ΠΌΠΈ повСдСнчСскими характСристиками ΠΏΠΎΠΏΠ°Π΄Π°ΡŽΡ‚ Π² ΠΎΠ΄ΠΈΠ½ кластСр.

Если Π²Ρ‹ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚Π΅ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Π·Π° вСсь ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ Ρ€Π°Π±ΠΎΡ‚Ρ‹, Ρ‚ΠΎ Π² Π½Π΅ΠΉ ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΡŽΡ‚ всС ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Если Π·Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ (Π³ΠΎΠ΄, мСсяц), Ρ‚ΠΎ Π² кластСризации ΡƒΡ‡Π°ΡΡ‚Π²ΡƒΡŽΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΠΎΠ²Π΅Ρ€ΡˆΠΈΠ»ΠΈ ΠΏΠΎΠΊΡƒΠΏΠΊΠΈ Π² Π·Π°Π΄Π°Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄.

Π˜Ρ‚Π°ΠΊ, ΠΌΡ‹ ΠΏΡ€ΠΎΠ²Π΅Π»ΠΈ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠΎ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ΅ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ для Ρ€ΠΈΡ‚Π΅ΠΉΠ»Π΅Ρ€Π° Π·Π° ΠΏΠΎΠ»Π³ΠΎΠ΄Π°, с количСством кластСров 75. Рассмотрим, ΠΊΠ°ΠΊ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ»ΠΈΡΡŒ ΠΏΠΎ кластСрам ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»ΠΈ, ΠΈ ΠΊΠ°ΠΊΠΈΠ΅ Ρ‚ΠΎΠ²Π°Ρ€Ρ‹ ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡ΠΈΡ‚Π°ΡŽΡ‚ Π² Ρ‚Π΅Ρ… ΠΈΠ»ΠΈ ΠΈΠ½Ρ‹Ρ… кластСрах:

β€” Π’ β€œΠšΠ»Π°ΡΡ‚Π΅Ρ€ 1” ΠΏΠΎΠΏΠ°Π»ΠΎ 45% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π·Π° этот ΠΏΠ΅Ρ€ΠΈΠΎΠ΄. Π›ΠΈΠ΄Π΅Ρ€Π°ΠΌΠΈ ΠΏΡ€ΠΎΠ΄Π°ΠΆ ΠΏΠΎ Ρ‚ΠΎΠ²Π°Ρ€Π°ΠΌ здСсь стали: масло, Π±Π°Π½Π°Π½Ρ‹, яйца, ΠΌΠΎΠ»ΠΎΠΊΠΎ, Π±Π°Ρ‚ΠΎΠ½, смСтана.

β€” Π’ β€œΠšΠ»Π°ΡΡ‚Π΅Ρ€Π΅ 2” оказалось 12% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². Π—Π΄Π΅ΡΡŒ популярнСС ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΡƒΠΆΠ΅ нСсколько Π²ΠΈΠ΄ΠΎΠ² Ρ…Π»Π΅Π±Π° ΠΈ смСтаны, Π±Π°Π½Π°Π½Ρ‹ ΠΈ Π½Π΅ΠΏΡ€ΠΎΠ΄ΠΎΠ²ΠΎΠ»ΡŒΡΡ‚Π²Π΅Π½Π½Ρ‹Π΅ Ρ‚ΠΎΠ²Π°Ρ€Ρ‹.

β€” ΠŸΡΡ‚ΡŒ ΠΏΠΎΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… кластСров ΡƒΠΆΠ΅ Π½Π΅ Ρ‚Π°ΠΊΠΈΠ΅ большиС, Π² ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· Π½ΠΈΡ… входят лишь ΠΏΠΎ 2-3% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². (Π’ ΠΎΠ±Ρ‰Π΅ΠΉ слоТности Π² эти кластСры ΠΏΠΎΠΏΠ°Π»ΠΈ 12% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π·Π° Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄). Π—Π΄Π΅ΡΡŒ прСдпочтСния ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² вСсьма интСрСсны, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€: ΠΌΠΎΠ»ΠΎΡ‡Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹+Ρ„Ρ€ΡƒΠΊΡ‚Ρ‹, ΠΏΠ΅Ρ‡Π΅Π½ΡŒΠ΅+ΠΉΠΎΠ³ΡƒΡ€Ρ‚Ρ‹\сырки, ΠΉΠΎΠ³ΡƒΡ€Ρ‚Ρ‹\дСсСрты+Ρ…Π»ΠΎΠΏΡŒΡ, ΠΊΡƒΡ€ΠΈΡ†Π°+ΠΏΠΈΠ²ΠΎ+ΠΊΠΎΡ€ΠΌ для кошСк.

β€” ΠžΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ 31% ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ рассСяны ΠΏΠΎ 68 кластСрам. Π² ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ входят 0,1-2% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². Π’Π°ΠΊΠΆΠ΅ кластСр ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ малСньким ΠΈ ΡΠΎΡΡ‚ΠΎΡΡ‚ΡŒ ΠΈΠ· 1-2 Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ. Π§Π΅ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ интСрСсСн Ρ‚Π°ΠΊΠΎΠΉ кластСр? Π§ΠΈΡ‚Π°ΠΉΡ‚Π΅ Π² кСйсах Π² ΠΊΠΎΠ½Ρ†Π΅ ΡΡ‚Π°Ρ‚ΡŒΠΈ.

ΠŸΡ€ΠΈ кластСризации Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ выявляСт нСстандартноС ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°. Π’Ρ‹ΡΠ²ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΎΠ΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ‚ Π°Π½Π°Π»ΠΈΠ· ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… β€œΡ„ΠΈΡ‡β€(характСристик ΠΈ особСнностСй) ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ кластСра.

6. АнализируСм характСристики ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра.


  • НазваниС кластСра. МоТно просто ΠΏΡ€ΠΎΠ½ΡƒΠΌΠ΅Ρ€ΠΎΠ²Π°Ρ‚ΡŒ кластСры, Π° ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΡΠ²ΠΎΠΈΡ‚ΡŒ ΠΈΠΌ названия, Π² зависимости ΠΎΡ‚ повСдСнчСских особСнностСй Π²Π½ΡƒΡ‚Ρ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра β€” ΠΎΡ‚ β€œΠ”ΠΎΠΌΠΎΡ…ΠΎΠ·ΡΠ΅ΠΊβ€, β€œΠ₯олостяков”, β€œΠ‘ΠΈΠ·Π½Π΅ΡΠΌΠ΅Π½ΠΎΠ²β€ Π΄ΠΎ β€œΠšΠ»ΡƒΠ±Π° Π»ΡŽΠ±ΠΈΡ‚Π΅Π»Π΅ΠΉ ΠΊΠΎΡˆΠ΅ΠΊβ€:)
  • ΠžΠ±ΠΎΡ€ΠΎΡ‚ кластСра. ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ кластСры, приносящиС наибольший Π΄ΠΎΡ…ΠΎΠ΄.
  • Доля кластСра Π² ΠΎΠ±ΠΎΡ€ΠΎΡ‚Π΅. Π’ ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π½ΠΎΠΌ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ ΠΎΡ‚ ΠΎΠ±Ρ‰Π΅Π³ΠΎ ΠΎΠ±ΠΎΡ€ΠΎΡ‚Π° ΠΏΠΎ кластСризации Π·Π° Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄.
  • ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π² кластСрС.
  • ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Π½ΠΎΠ²Ρ‹Ρ… ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π² кластСрС. (Π’ΠΏΠ΅Ρ€Π²Ρ‹Π΅ воспользовались дисконтной ΠΊΠ°Ρ€Ρ‚ΠΎΠΉ Π·Π° Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ кластСризации).
  • ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΌΡƒΠΆΡ‡ΠΈΠ½ ΠΈ ΠΆΠ΅Π½Ρ‰ΠΈΠ½ Π² кластСрС Π² ΠΏΡ€ΠΎΡ†Π΅Π½Ρ‚Π½ΠΎΠΌ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΈ. ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ Π²Ρ‹ΡΠ²ΠΈΡ‚ΡŒ Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹Π΅ муТскиС ΠΈ Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹Π΅ ТСнскиС ΠΏΠΎΠΊΡƒΠΏΠΊΠΈ, ΠΏΠΎΠΌΠΈΠΌΠΎ ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½Ρ‹Ρ….
  • ΠžΠ±Ρ‰Π΅Π΅ количСство Ρ‡Π΅ΠΊΠΎΠ² Π² кластСрС.
  • ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ‡Π΅ΠΊΠΎΠ² Π½Π° ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π° Π² кластСрС. ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ ΠΎΡ‚ΡΠ»Π΅Π΄ΠΈΡ‚ΡŒ сколько Ρ€Π°Π· возвращался ΠΊΠ»ΠΈΠ΅Π½Ρ‚ Π·Π° Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ ΠΏΠ΅Ρ€ΠΈΠΎΠ΄ кластСризации.
  • Π‘Ρ€Π΅Π΄Π½Π΅Π΅ количСство Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² Π² Ρ‡Π΅ΠΊΠ΅.
  • БрСдняя ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‡Π΅ΠΊΠ°. ΠŸΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, Π² ΠΊΠ°ΠΊΠΎΠΌ кластСрС ΠΏΡ€ΠΎΠ΄Π°ΡŽΡ‚ΡΡ самыС Π΄ΠΎΡ€ΠΎΠ³ΠΈΠ΅ Ρ‚ΠΎΠ²Π°Ρ€Ρ‹.

ΠŸΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π² характСристики ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра ΠΈ с ΠΈΡ… ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ² пСрсону покупатСля, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΊ пСрсонализированной рассылкС.

7. ΠŸΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠΌ ΠΏΠ΅Ρ€ΡΠΎΠ½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½ΡƒΡŽ рассылку ΠΏΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ кластСру.

Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Ρ‡Π΅Ρ‚ΠΊΡƒΡŽ систСму Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ для пСрсонала β€” ΠΊΠ°ΠΊΠΎΠΉ Ρ‚ΠΎΠ²Π°Ρ€, ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρƒ ΠΈ Π² ΠΊΠ°ΠΊΠΎΠ΅ врСмя ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Ρ‚ΡŒ.

Зная, Ρ‡Ρ‚ΠΎ ΠΈ ΠΊΠ°ΠΊΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅ людСй ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Ρ‚ΡŒ, ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ смогут ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° β€œΠΊΠΎΠ²Ρ€ΠΎΠ²ΠΎΠΉ бомбардировки” ΠΏΡ€ΠΈ sms ΠΈΠ»ΠΈ e-mail рассылкС. ΠŸΡ€Π΅Π΄Π»Π°Π³Π°Ρ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°ΠΌ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½ΡƒΠΆΠ½Ρ‹Π΅ ΠΈΠΌ Ρ‚ΠΎΠ²Π°Ρ€Ρ‹ (Π½Π΅ забывая ΠΏΡ€ΠΎ ΡΠΎΠΏΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅), ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ Π³ΠΎΡ€Π°Π·Π΄ΠΎ большСго ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠ° ΠΈ конвСрсии Π² ΠΏΠΎΠΊΡƒΠΏΠΊΡƒ.

Рассмотрим нСсколько кСйсов ΠΎΡ‚ Datawiz.io.

ΠŸΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠ΅ эффСктивности ΠΏΡ€ΠΎΠΌΠΎ-рассылок с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ кластСризации.
Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ кластСризации ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· сСти ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ² ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈ 75 кластСров. Для ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π° рассмотрим Ρ‚Ρ€ΠΈ ΠΈΠ· Π½ΠΈΡ…: β€œΠΌΠΎΠ»ΠΎΠ΄Π°Ρ ΡΠ΅ΠΌΡŒΡβ€, β€œΡΡ‚ΡƒΠ΄Π΅Π½Ρ‚β€ ΠΈ β€œΠΏΠ΅Π½ΡΠΈΠΎΠ½Π΅Ρ€β€.
β€” ΠšΠ»ΠΈΠ΅Π½Ρ‚Ρ‹ кластСра β€œΠΌΠΎΠ»ΠΎΠ΄Π°Ρ ΡΠ΅ΠΌΡŒΡβ€ Π±Ρ‹Π»ΠΈ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ восприимчивы ΠΊ прСдлоТСниям ΠΏΠΎ ΠΏΠΎΠΊΡƒΠΏΠΊΠ΅ ΠΏΠΎΠ΄Π³ΡƒΠ·Π½ΠΈΠΊΠΎΠ², дСтского питания, Ρ„Ρ€ΡƒΠΊΡ‚ΠΎΠ² ΠΈ ΠΌΠΎΠ»ΠΎΠΊΠ°;
β€” β€œΡΡ‚ΡƒΠ΄Π΅Π½Ρ‚Π°ΠΌβ€ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ скидки Π½Π° ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹ Π³Ρ€ΡƒΠΏΠΏΡ‹ фастфуд ΠΈ ΠΏΠΈΠ²ΠΎ;
β€” Π° β€œΠΏΠ΅Π½ΡΠΈΠΎΠ½Π΅Ρ€Π°ΠΌβ€ Π½Π° ΠΊΡ€ΡƒΠΏΡ‹ ΠΈ ΠΎΠ²ΠΎΡ‰ΠΈ.
Π’ слСдствии Ρ‚Π°ΠΊΠΎΠΉ рассылки конвСрсия Π² ΠΏΠΎΠΊΡƒΠΏΠΊΡƒ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ»Π°ΡΡŒ Π½Π° 14,5 %.

ΠŸΡ€ΠΎΠ΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅ Π½ΠΎΠ²ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°.
Π’Π°Ρ€ΠΈΠ°Π½Ρ‚ 1. Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ·Π½Π°Ρ‚ΡŒ ΠΊΠΎΠΌΡƒ Π±ΡƒΠ΄Π΅Ρ‚ интСрСсСн Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚, ΠΌΡ‹ сдСлали рассылку ΠΏΠΎ всСх ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°Ρ… ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ. По Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°Ρ… ΠΎΡ‚ΠΊΠ»ΠΈΠΊΠ° ΡƒΠ·Π½Π°Π»ΠΈ пСрсону покупатСля, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚. Π”Π°Π»Π΅Π΅, отслСдили Π½ΡƒΠΆΠ½Ρ‹Ρ… Π½Π°ΠΌ ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ Π² кластСрах. ΠŸΡ€ΠΎΠ²Π΅Π»ΠΈ рассылку ΡƒΠΆΠ΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎ ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΡƒΡŽΡ‰ΠΈΡ… нас кластСрах.

Π’Π°Ρ€ΠΈΠ°Π½Ρ‚ 2. Компания Π½Π΅ Π·Π°Ρ…ΠΎΡ‚Π΅Π»Π° ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ рассылку ΠΏΠΎ всСх ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°Ρ…, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π±Π°Π·Π° вСсьма ΠΎΠ±ΡˆΠΈΡ€Π½Π°. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΌΡ‹ создали Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ, ΠΊΠ°ΠΊΠΈΠΌ кластСрам ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² этот ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ интСрСсСн. Из всСх ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΡƒΡŽΡ‰ΠΈΡ… нас кластСров ΠΌΡ‹ взяли Ρ€Π°Π½Π΄ΠΎΠΌΠ½ΠΎ ΠΏΠΎ 1% ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ ΠΏΡ€ΠΎΠ²Π΅Π»ΠΈ ΠΏΠΎ Π½ΠΈΠΌ Ρ‚Π΅ΡΡ‚ΠΎΠ²ΡƒΡŽ рассылку. Π‘ Ρ‚Π΅ΠΌΠΈ кластСрами, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ Π½Π°ΠΈΠ²Ρ‹ΡΡˆΡƒΡŽ ΠΊΠΎΠ½Π²Π΅Ρ€ΡΠΈΡŽ Π² ΠΏΠΎΠΊΡƒΠΏΠΊΡƒ послС тСстовой рассылки, ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Π² дальнСйшСм, прСдлагая Π½ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ всСму кластСру.

НСстандартноС ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°.
ΠœΡ‹ ΠΏΡ€ΠΎΠ²Π΅Π»ΠΈ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ для ΠΌΠ°Π³Π°Π·ΠΈΠ½Π° ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· сСти. Алгоритм Π²Ρ‹Π΄Π°Π» кластСр, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π±Ρ‹Π»ΠΎ всСго 2 ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°. Но Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ²Π»Π΅ΠΊΠ»Π° сумма ΠΎΠ±ΠΎΡ€ΠΎΡ‚Π° ΠΏΠΎ этому кластСру Π·Π° нСбольшой ΠΏΠ΅Ρ€ΠΈΠΎΠ΄. Казалось Π±Ρ‹, Π½Ρƒ ΠΏΠΎΠΊΡƒΠΏΠ°ΡŽΡ‚ люди ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ² ΠΈ Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ².

Π•Ρ‰Π΅ ΠΎΠ΄Π½ΠΎΠΉ интСрСсной Π΄Π΅Ρ‚Π°Π»ΡŒΡŽ Π±Ρ‹Π»ΠΎ Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ Ρ‡Π΅ΠΊΠΎΠ² ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡŒ с Ρ€Π°Π·Π½ΠΈΡ†Π΅ΠΉ Π² нСсколько ΠΌΠΈΠ½ΡƒΡ‚. Когда ΠΆΠ΅ отслСдили этих ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π² Π±Π°Π·Π΅ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ, оказалось, Ρ‡Ρ‚ΠΎ Π²Π»Π°Π΄Π΅Π»ΡŒΡ†Π°ΠΌΠΈ Π΄Π²ΡƒΡ… дисконтных ΠΊΠ°Ρ€Ρ‚ Π±Ρ‹Π»ΠΈ сотрудники ΠΌΠ°Π³Π°Π·ΠΈΠ½Π°.

Вопрос: ΠΌΠΎΠΆΠ΅Ρ‚ сотрудники Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ склоняли ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΊ ΠΏΠΎΠΊΡƒΠΏΠΊΠ΅? ΠΈΠ»ΠΈ Π·Π°Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π»ΠΈ сСбС дисконтныС Π±Π°Π»Π»Ρ‹? ΠΈΠ»ΠΈ ΠΏΡ€ΠΎΠ΄Π°Π²Π°Π»ΠΈ Ρ‚ΠΎΠ²Π°Ρ€ ΠΏΠΎ ΠΏΠΎΠ»Π½ΠΎΠΉ стоимости, Π° Ρ€Π°Π·Π½ΠΈΡ†Ρƒ присваивали, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ, ΠΌΠΎΡˆΠ΅Π½Π½ΠΈΡ‡Π°Π»ΠΈ?

ВмСсто Π²Ρ‹Π²ΠΎΠ΄Π°.


ИспользованиС кластСризации ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ компаниям Π²Ρ‹ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ с ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π°ΠΌΠΈ Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с Π½ΠΈΠΌΠΈ ΠΏΠΎ-Π½ΠΎΠ²ΠΎΠΌΡƒ. Π˜Π½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚Ρƒ повысит Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΈΡ‚Π΅Π»Π΅ΠΉ, ΠΈ нСсомнСнно ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ ΠΊ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΡŽ ΠΏΡ€ΠΈΠ±Ρ‹Π»ΠΈ.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Β· Loginom Wiki

Π‘ΠΈΠ½ΠΎΠ½ΠΈΠΌΡ‹: БСгмСнтация, Segmentation

Π Π°Π·Π΄Π΅Π»Ρ‹: БизнСс-Π·Π°Π΄Π°Ρ‡ΠΈ, Алгоритмы

Loginom: ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ (ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ), EM ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ (ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊ)

РСшСния: Loginom Customer Segmentation

ОбъСдинСниС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ наблюдСний Π² Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ Π³Ρ€ΡƒΠΏΠΏΡ‹, Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹Π΅ кластСрами, Π½Π° основС близости Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ кластСрС Π±ΡƒΠ΄ΡƒΡ‚ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΏΠΎΡ…ΠΎΠΆΠΈΠ΅ ΠΏΠΎ своим свойствам Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π° ΠΈ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‰ΠΈΠ΅ΡΡ ΠΎΡ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ содСрТатся Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… кластСрах. ΠŸΡ€ΠΈ этом Ρ‡Π΅ΠΌ большС ΠΏΠΎΠ΄ΠΎΠ±ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π²Π½ΡƒΡ‚Ρ€ΠΈ кластСра ΠΈ Ρ‡Π΅ΠΌ сильнСС ΠΈΡ… ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… кластСрах, Ρ‚Π΅ΠΌ Π»ΡƒΡ‡ΡˆΠ΅ кластСризация.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ

Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Π°Ρ постановка Π·Π°Π΄Π°Ρ‡ΠΈ кластСризации выглядит ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

ΠŸΡƒΡΡ‚ΡŒ Π·Π°Π΄Π°Π½Ρ‹ мноТСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² X=(x1,x2,…,xn) ΠΈ Π½ΠΎΠΌΠ΅Ρ€ΠΎΠ² (ΠΈΠΌΠ΅Π½, ΠΌΠ΅Ρ‚ΠΎΠΊ) кластСров Y=(y1,y2,…,yk). Для X ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π° нСкоторая функция расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ D(x,xβ€²), Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ° L2. ΠšΡ€ΠΎΠΌΠ΅ этого, имССтся конСчная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Xm=(x1,x2,…,xm) ΠΈΠ· мноТСства X, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ трСбуСтся Ρ€Π°Π·Π±ΠΈΡ‚ΡŒ Π½Π° Xm Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ подмноТСства (кластСры) Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ ΠΈΠ· Π½ΠΈΡ… состояло Π±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΈΠ· элСмСнтов, Π±Π»ΠΈΠ·ΠΊΠΈΡ… ΠΏΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅ D. ΠŸΡ€ΠΈ этом ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ xi ΠΈΠ· мноТСства Xm присваиваСтся Π½ΠΎΠΌΠ΅Ρ€ кластСра yj.

Π’ΠΎΠ³Π΄Π° Π·Π°Π΄Π°Ρ‡Π° Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒΡΡ Π² поискС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ f, которая Π»ΡŽΠ±ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ x ΠΈΠ· мноТСства X ставит Π² соотвСтствиС Π½ΠΎΠΌΠ΅Ρ€ кластСра y ΠΈΠ· мноТСства Y, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ само ΠΏΠΎ сСбС Π±Ρ‹Π²Π°Π΅Ρ‚ извСстно Π·Π°Ρ€Π°Π½Π΅Π΅. Однако Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв приходится ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ число кластСров исходя ΠΈΠ· особСнностСй Ρ€Π΅ΡˆΠ°Π΅ΠΌΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ позволяСт Π΄ΠΎΠ±ΠΈΡ‚ΡŒΡΡ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… Ρ†Π΅Π»Π΅ΠΉ:

  • ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π·Π° счСт выявлСния структурных Π³Ρ€ΡƒΠΏΠΏ;
  • Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹ схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² позволяСт ΡƒΠΏΡ€ΠΎΡΡ‚ΠΈΡ‚ΡŒ Π΄Π°Π»ΡŒΠ½Π΅ΠΉΡˆΡƒΡŽ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ ΠΈ принятиС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, примСняя ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ кластСру свой ΠΌΠ΅Ρ‚ΠΎΠ΄ Π°Π½Π°Π»ΠΈΠ·Π°;
  • позволяСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΠΎ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ ΠΈ Ρ…Ρ€Π°Π½ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅. Для этого вмСсто хранСния всСх Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ Ρ‚ΠΈΠΏΠΈΡ‡Π½ΠΎΠΌΡƒ наблюдСнию ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра;
  • поиск Π½ΠΎΠ²ΠΈΠ·Π½Ρ‹ β€” ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Π½Π΅Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ ΠΏΠΎΠΏΠ°Π»ΠΈ Π½ΠΈ Π² ΠΎΠ΄ΠΈΠ½ кластСр.

Π’ Data Mining кластСризация ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для сСгмСнтации ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Ρ€Ρ‹Π½ΠΊΠΎΠ², мСдицинской диагностики, ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΈ дСмографичСских исслСдований, опрСдСлСния крСдитоспособности Π·Π°Π΅ΠΌΡ‰ΠΈΠΊΠΎΠ² ΠΈ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… Π΄Ρ€ΡƒΠ³ΠΈΡ… областях.

Π²Π²Π΅Π΄Π΅Π½ΠΈΠ΅, ΠΎΠ±Π·ΠΎΡ€ инструмСнтов ΠΈ ВолосяныС Π¨Π°Ρ€Ρ‹ / Π‘Π»ΠΎΠ³ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ DCA (Data-Centric Alliance) / Π₯Π°Π±Ρ€ΠŸΡ€ΠΈΠ²Π΅Ρ‚, Π₯Π°Π±Ρ€! Π’ нашСй Ρ€Π°Π±ΠΎΡ‚Π΅ часто Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ‚ ΠΏΠΎΡ‚Ρ€Π΅Π±Π½ΠΎΡΡ‚ΡŒ Π² Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠΈ сообщСств (кластСров) Ρ€Π°Π·Π½Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ²: ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ, сайтов, ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ²Ρ‹Ρ… страниц ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ². Польза ΠΎΡ‚ Ρ‚Π°ΠΊΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ вСсьма ΠΌΠ½ΠΎΠ³ΠΎΠ³Ρ€Π°Π½Π½Π° – Π²ΠΎΡ‚ лишь нСсколько областСй практичСского примСнСния качСствСнных кластСров:
  1. Π’Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ сСгмСнтов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ для провСдСния Ρ‚Π°Ρ€Π³Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½Ρ‹Ρ… ΠΊΠ°ΠΌΠΏΠ°Π½ΠΈΠΉ.
  2. ИспользованиС кластСров Π² качСствС ΠΏΡ€Π΅Π΄ΠΈΠΊΡ‚ΠΎΡ€ΠΎΠ² (Β«Ρ„ΠΈΡ‡Π΅ΠΉΒ») Π² ΠΏΠ΅Ρ€ΡΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… рСкомСндациях (Π² content-based ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… ΠΈΠ»ΠΈ ΠΊΠ°ΠΊ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ информация Π² ΠΊΠΎΠ»Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ).
  3. Π‘Π½ΠΈΠΆΠ΅Π½ΠΈΠ΅ размСрности Π² любой Π·Π°Π΄Π°Ρ‡Π΅ машинного обучСния, Π³Π΄Π΅ Π² качСствС Ρ„ΠΈΡ‡Π΅ΠΉ Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°ΡŽΡ‚ страницы ΠΈΠ»ΠΈ Π΄ΠΎΠΌΠ΅Π½Ρ‹, посСщСнныС ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΌ.
  4. Π‘Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΠ²Π°Ρ€Π½Ρ‹Ρ… URL ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚-ΠΌΠ°Π³Π°Π·ΠΈΠ½Π°ΠΌΠΈ с Ρ†Π΅Π»ΡŒΡŽ выявлСния срСди Π½ΠΈΡ… Π³Ρ€ΡƒΠΏΠΏ, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈ Ρ‚ΠΎΠΌΡƒ ΠΆΠ΅ Ρ‚ΠΎΠ²Π°Ρ€Ρƒ.
  5. ΠšΠΎΠΌΠΏΠ°ΠΊΡ‚Π½Π°Ρ визуализация β€” Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΡƒ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΡ‰Π΅ Π²ΠΎΡΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ структуру Π΄Π°Π½Π½Ρ‹Ρ….

Π‘ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния машинного обучСния ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Ρ… связанных Π³Ρ€ΡƒΠΏΠΏ выглядит ΠΊΠ°ΠΊ типичная Π·Π°Π΄Π°Ρ‡Π° кластСризации. Однако Π½Π΅ всСгда Π½Π°ΠΌ Π±Ρ‹Π²Π°ΡŽΡ‚ Π»Π΅Π³ΠΊΠΎ доступны Ρ„ΠΈΡ‡ΠΈ наблюдСний, Π² пространствС ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΌΠΎΠΆΠ½ΠΎ Π±Ρ‹Π»ΠΎ Π±Ρ‹ ΠΈΡΠΊΠ°Ρ‚ΡŒ кластСры. ΠšΠΎΠ½Ρ‚Π΅Π½Ρ‚Ρ‹Π΅ ΠΈΠ»ΠΈ сСмантичСскиС Ρ„ΠΈΡ‡ΠΈ достаточно Ρ‚Ρ€ΡƒΠ΄ΠΎΠ΅ΠΌΠΊΠΈ Π² ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠΈ, ΠΊΠ°ΠΊ ΠΈ интСграция Ρ€Π°Π·Π½Ρ‹Ρ… источников Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΡ‚ΠΊΡƒΠ΄Π° эти Ρ„ΠΈΡ‡ΠΈ ΠΌΠΎΠΆΠ½ΠΎ Π±Ρ‹Π»ΠΎ Π±Ρ‹ Π΄ΠΎΡΡ‚Π°Ρ‚ΡŒ. Π—Π°Ρ‚ΠΎ Ρƒ нас Π΅ΡΡ‚ΡŒ DMP ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ Facetz.DCA, Π³Π΄Π΅ Π½Π° повСрхности Π»Π΅ΠΆΠ°Ρ‚ Ρ„Π°ΠΊΡ‚Ρ‹ посСщСний ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌΠΈ страниц. Из Π½ΠΈΡ… Π»Π΅Π³ΠΊΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ количСство посСщСний сайтов, ΠΊΠ°ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π² ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Ρ‚Π°ΠΊ ΠΈ совмСстных посСщСний для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ сайтов. Π­Ρ‚ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΡƒΠΆΠ΅ достаточно для построСния Π³Ρ€Π°Ρ„ΠΎΠ² Π²Π΅Π±-Π΄ΠΎΠΌΠ΅Π½ΠΎΠ² ΠΈΠ»ΠΈ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ²Ρ‹Ρ… страниц. Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ кластСризации ΠΌΠΎΠΆΠ½ΠΎ ΡΡ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ Π·Π°Π΄Π°Ρ‡Ρƒ выдСлСния сообщСств Π² ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π³Ρ€Π°Ρ„Π°Ρ….

ЗабСгая Π²ΠΏΠ΅Ρ€Π΅Π΄, скаТу, Ρ‡Ρ‚ΠΎ сообщСства Π²Π΅Π±-Π΄ΠΎΠΌΠ΅Π½ΠΎΠ² Π½Π°ΠΌ ΡƒΠΆΠ΅ ΡƒΠ΄Π°Π»ΠΎΡΡŒ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ с большой пользой Π² Ρ€Π΅ΠΊΠ»Π°ΠΌΠ½Ρ‹Ρ… RTB-кампаниях. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠ°Ρ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ°, с ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°ΡŽΡ‚ΡΡ Ρ‚Ρ€Π΅ΠΉΠ΄Π΅Ρ€Ρ‹ β€” это Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ Π»Π°Π²ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒΡŽ таргСтирования ΠΈ объСмом сСгмСнта. Π‘ ΠΎΠ΄Π½ΠΎΠΉ стороны, Π³Ρ€ΡƒΠ±Ρ‹ΠΉ Ρ‚Π°Ρ€Π³Π΅Ρ‚ΠΈΠ½Π³ ΠΏΠΎ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎ-дСмографичСским ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌ слишком ΡˆΠΈΡ€ΠΎΠΊ ΠΈ нСэффСктивСн. Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Ρ…ΠΈΡ‚Ρ€Ρ‹Π΅ тСматичСскиС сСгмСнты Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ слишком ΡƒΠ·ΠΊΠΈ, ΠΈ измСнСния ΠΏΠΎΡ€ΠΎΠ³ΠΎΠ² вСроятности Π² классификаторах Π½Π΅ способны Ρ€Π°ΡΡˆΠΈΡ€ΠΈΡ‚ΡŒ сСгмСнт Π΄ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΠ³ΠΎ объСма (скаТСм, Π΄ΠΎ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… дСсятков ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΊΡƒΠΊ). Π’ Ρ‚ΠΎ ΠΆΠ΅ врСмя, люди, часто ΠΏΠΎΡΠ΅Ρ‰Π°ΡŽΡ‰ΠΈΠ΅ Π΄ΠΎΠΌΠ΅Π½Ρ‹ ΠΈΠ· ΠΎΠ΄Π½ΠΎΠ³ΠΎ кластСра, ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠ΅ сСгмСнты ΠΊΠ°ΠΊ Ρ€Π°Π· для Ρ‚Π°ΠΊΠΈΡ… ΡˆΠΈΡ€ΠΎΠΊΠΎΠΎΡ…Π²Π°Ρ‚Π½Ρ‹Ρ… ΠΊΠ°ΠΌΠΏΠ°Π½ΠΈΠΉ.

Π’ Π΄Π°Π½Π½ΠΎΠΉ сСрии постов я ΠΏΠΎΠΏΡ€ΠΎΠ±ΡƒΡŽ ΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ большС Π½Π° алгоритмичСской сторонС Π·Π°Π΄Π°Ρ‡ΠΈ, Ρ‡Π΅ΠΌ Π½Π° бизнСсовой, ΠΈ ΡΠ΄Π΅Π»Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π΅. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ наши экспСримСнты ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρƒ нас ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈΡΡŒ. Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ ΠΎΡΡ‚Π°Π½ΠΎΠ²ΠΈΡ‚ΡŒΡΡ Π½Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ…: Ρ‡Ρ‚ΠΎ ΠΌΡ‹ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ / Ρ…ΠΎΡ‚Π΅Π»ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ, Π½ΠΎ ΠΏΠ΅Ρ€Π΅Π΄ΡƒΠΌΠ°Π»ΠΈ / всё Π΅Ρ‰Ρ‘ Ρ…ΠΎΡ‚ΠΈΠΌ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π² пСрспСктивС.

Многим ΠΈΠ· вас, вСроятно, ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅, Π½ΠΎ, вСроятно, Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²ΠΎ, ΠΊΠ°ΠΊ ΠΈ ΠΌΡ‹, Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ кластСризовали Π³Ρ€Π°Ρ„. Главная ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΡŒ кластСризации Π³Ρ€Π°Ρ„ΠΎΠ² β€” это отсутствиС Ρ„ΠΈΡ‡Π΅ΠΉ наблюдСний. Π£ нас Π½Π΅Ρ‚ расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ двумя ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌΠΈ Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌΠΈ Π² пространствС, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Π½Π΅Ρ‚ самого пространства, Π½Π΅Ρ‚ Π½ΠΎΡ€ΠΌΡ‹, ΠΈ Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ расстояниС. ВмСсто этого, Ρƒ нас Π΅ΡΡ‚ΡŒ ΠΌΠ΅Ρ‚Π°Π΄Π°Π½Π½Ρ‹Π΅ Ρ€Ρ‘Π±Π΅Ρ€ (Π² ΠΈΠ΄Π΅Π°Π»Π΅, для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ Π²Π΅Ρ€ΡˆΠΈΠ½). Если имССтся «вСс» Ρ€Π΅Π±Ρ€Π°, Ρ‚ΠΎ Π΅Π³ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ расстояниС (ΠΈΠ»ΠΈ, Π½Π°ΠΎΠ±ΠΎΡ€ΠΎΡ‚, ΠΊΠ°ΠΊ ΡΡ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ), ΠΈ Ρ‚ΠΎΠ³Π΄Π° Ρƒ нас ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Ρ‹ расстояния для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΏΠ°Ρ€Ρ‹ Π²Π΅Ρ€ΡˆΠΈΠ½.

МногиС ΠΈΠ· Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Π² Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎΠΌ пространствС подходят ΠΈ для Π³Ρ€Π°Ρ„ΠΎΠ², Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ для этих Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² трСбуСтся лишь Π·Π½Π°Ρ‚ΡŒ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ наблюдСниями, Π° Π½Π΅ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΌΠΈ Β«Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌΠΈ Π² пространствС». НСкоторыС Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ ΠΈΠΌΠ΅Π½Π½ΠΎ пространство Ρ„ΠΈΡ‡Π΅ΠΉ ΠΈ для Π³Ρ€Π°Ρ„ΠΎΠ² Π½Π΅ годятся (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, k-means). Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Ρƒ Π³Ρ€Π°Ρ„ΠΎΠ² Π΅ΡΡ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ своих ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… свойств, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ‚ΠΎΠΆΠ΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ: ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ связности, Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Π΅ скоплСния Ρ€Ρ‘Π±Π΅Ρ€, мСста зацикливания ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… ΠΏΠΎΡ‚ΠΎΠΊΠΎΠ² ΠΈ Π΄Ρ€.

ΠžΠ±Π·ΠΎΡ€ инструмСнтов


К настоящСму ΠΌΠΎΠΌΠ΅Π½Ρ‚Ρƒ люди ΠΈΠ·ΠΎΠ±Ρ€Π΅Π»ΠΈ ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠ΅ количСство ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² кластСризации Π³Ρ€Π°Ρ„ΠΎΠ² β€” ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ со своими прСимущСствами ΠΈ косяками. Π’ ΠΎΠ΄Π½ΠΎΠΌ ΠΈΠ· ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… постов Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Π΅Π΅ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΈ ΠΈΡ… свойства. А ΠΏΠΎΠΊΠ° считаСм ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ΠΌ ΠΏΠΎΠ΄Π΅Π»ΠΈΡ‚ΡŒΡΡ ссылками Π½Π° ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ инструмСнты для Π°Π½Π°Π»ΠΈΠ·Π° Π³Ρ€Π°Ρ„ΠΎΠ², Π³Π΄Π΅ ΡƒΠΆΠ΅ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ΠΎ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ для кластСризации ΠΈ нахоТдСния сообщСств.
  1. ΠžΡ‡Π΅Π½ΡŒ ΠΌΠΎΠ΄Π½Ρ‹ΠΉ ΠΈ Ρ€Π°Π·Π²ΠΈΠ²Π°ΡŽΡ‰ΠΈΠΉΡΡ Π½Ρ‹Π½Ρ‡Π΅ GraphX. Π•Π³ΠΎ Π½ΡƒΠΆΠ½ΠΎ Π±Ρ‹Π»ΠΎ Π½Π°ΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΏΠ΅Ρ€Π²Ρ‹ΠΌ элСмСнтом Π² спискС, Π½ΠΎ ΠΊΠ°ΠΊ Ρ‚Π°ΠΊΠΎΠ²Ρ‹Ρ… Π³ΠΎΡ‚ΠΎΠ²Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Ρ‚Π°ΠΌ ΠΏΠΎΠΊΠ° Π½Π΅Ρ‚ (вСрсия 1.4.1). Π•ΡΡ‚ΡŒ подсчСт Ρ‚Ρ€Π΅ΡƒΠ³ΠΎΠ»ΡŒΠ½ΠΈΠΊΠΎΠ² ΠΈ связных ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚, Ρ‡Ρ‚ΠΎ, Π²ΠΊΡƒΠΏΠ΅ с стандартными опСрациями Π½Π°Π΄ Spark RDD, ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для написания своих Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ². Пока Ρ‡Ρ‚ΠΎ Ρƒ GraphX Π΅ΡΡ‚ΡŒ Π°ΠΏΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для scala, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΡΠ»ΠΎΠΆΠ½ΠΈΡ‚ΡŒ Π΅Π³ΠΎ использованиС.
  2. Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° для Apache Giraph ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ Okapi ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ нСсколько Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², Π² Ρ‚ΠΎΠΌ числС достаточно Π½ΠΎΠ²Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ собствСнной Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ Spinner, основанный Π½Π° label propagation. Giraph β€” это надстройка Π½Π°Π΄ Hadoop, прСдназначСнная для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π³Ρ€Π°Ρ„ΠΎΠ². Π’ Π½Π΅ΠΉ ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅Ρ‚ машинного обучСния, ΠΈ для компСнсации этого Π² ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ Telefonica ΠΈ Π±Ρ‹Π» создан Okapi. ВСроятно, сСйчас Giraph выглядит ΡƒΠΆΠ΅ Π½Π΅ Ρ‚Π°ΠΊ пСрспСктивно Π½Π° Ρ„ΠΎΠ½Π΅ GraphX, Π½ΠΎ сам Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Spinner Ρ…ΠΎΡ€ΠΎΡˆΠΎ лоТится ΠΈ Π½Π° ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡƒ Spark. ΠŸΡ€ΠΎ Spinner ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ здСсь.
  3. Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° graph-tool для ΠΏΠΈΡ‚ΠΎΠ½Π° содСрТит нСсколько Π½ΠΎΠ²Π΅ΠΉΡˆΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации ΠΈ ΠΎΡ‡Π΅Π½ΡŒ быстро Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚. ΠœΡ‹ использовали Π΅Ρ‘ для сличСния URL, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈ Ρ‚ΠΎΠΌΡƒ ΠΆΠ΅ Ρ‚ΠΎΠ²Π°Ρ€Ρƒ. ВсС, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ, распараллСлСно ΠΏΠΎ ядрам процСссора, ΠΈ для Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ… вычислСний (Π³Ρ€Π°Ρ„Ρ‹ Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ Π΄ΠΎ ΠΏΠ°Ρ€Ρ‹ сотСн тысяч ΡƒΠ·Π»ΠΎΠ²) это самый быстрый Π²Π°Ρ€ΠΈΠ°Π½Ρ‚.
  4. Gephi β€” извСстный инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ обошли Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, нСзаслуТСнно. Π”ΠΎΠ»Π³ΠΎΠ΅ врСмя Gephi практичСски Π½Π΅ развивался, Π·Π°Ρ‚ΠΎ Ρƒ Π½Π΅Π³ΠΎ появились Ρ…ΠΎΡ€ΠΎΡˆΠΈΠ΅ ΠΏΠ»Π°Π³ΠΈΠ½Ρ‹, Π² Ρ‚ΠΎΠΌ числС для выдСлСния сообщСств. Π’ послСднСС врСмя ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ вновь ΠΎΠΆΠΈΠ» ΠΈ оТидаСтся вСрсия 0.9
  5. GraphLab Create. Π­Ρ‚ΠΎ питоновская ΠΎΠ±Π΅Ρ€Ρ‚ΠΊΠ° Π½Π°Π΄ C++, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π°Ρ ΠΏΡ€ΠΎΠ³ΠΎΠ½ΡΡ‚ΡŒ машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΊΠ°ΠΊ локально, Ρ‚Π°ΠΊ ΠΈ распрСдСлСнно (Π½Π° Yarn). ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ Π³Ρ€Π°Ρ„ΠΎΠ² Ρ‚Π°ΠΌ всС Π΅Ρ‰Ρ‘ Π½Π΅Ρ‚, Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ k-ядСр.
  6. Π₯Π²Π°Π»Π΅Π½Ρ‹ΠΉ networkX, нСсмотря Π½Π° ΠΎΠ±ΠΈΠ»ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², Π½Π΅ ΡƒΠΌΠ΅Π΅Ρ‚ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π³Ρ€Π°Ρ„Ρ‹, Π½ΠΎ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ связныС ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ ΠΈ ΠΊΠ»ΠΈΠΊΠΈ. Π’Π΄ΠΎΠ±Π°Π²ΠΎΠΊ ΠΎΠ½ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ΅Π΄Π»Π΅Π½Π½Π΅Π΅ graph-tool, ΠΈ ΠΏΠΎ части Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ уступаСт Ρ‚ΠΎΠΌΡƒ ΠΆΠ΅ graph-tool ΠΈ gephi.
  7. РСализация Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° марковской кластСризации (MCL) ΠΎΡ‚ Π΅Π³ΠΎ изобрСтатСля. Автор снизил ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎΠ³ΠΎ MCL Π² Ρ…ΡƒΠ΄ΡˆΠ΅ΠΌ случаС с Π΄ΠΎ , Π³Π΄Π΅ β€” число ΡƒΠ·Π»ΠΎΠ², Π° β€” максимальная ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ ΡƒΠ·Π»Π°, ΠΈ обиТаСтся, ΠΊΠΎΠ³Π΄Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ MCL Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Π½Π΅ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΡ‹ΠΌ.Π’Π°ΠΊΠΆΠ΅ ΠΎΠ½ Π΄ΠΎΠ±Π°Π²ΠΈΠ» Ρ„ΠΈΡˆΠΊΠΈ для Ρ€Π΅Π³ΡƒΠ»ΠΈΡ€ΠΎΠ²ΠΊΠΈ числа кластСров. Однако Ρƒ MCL Π±Ρ‹Π»ΠΎ нСсколько Π΄Ρ€ΡƒΠ³ΠΈΡ… ΡΠ΅Ρ€ΡŒΠ΅Π·Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ, ΠΈ нСпонятно, Ρ€Π΅ΡˆΠ΅Π½Ρ‹ Π»ΠΈ ΠΎΠ½ΠΈ. НапримСр, ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π½Π΅ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° кластСров (наш нСбольшой экспСримСнт Π²Ρ‹Π΄Π°Π» ΠΎΠ΄Π½Ρƒ Π³ΠΈΠ³Π°Π½Ρ‚ΡΠΊΡƒΡŽ ΡΠ²ΡΠ·Π½ΡƒΡŽ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρƒ ΠΈ ΠΌΠ½ΠΎΠ³ΠΎ ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… кластСрочков ΠΏΠΎ 2-3 ΡƒΠ·Π»Π°, Π½ΠΎ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, ΠΌΡ‹ Π½Π΅ нашли Π½ΡƒΠΆΠ½ΡƒΡŽ Ρ€ΡƒΡ‡ΠΊΡƒ). ПослСдняя Π½ΠΎΠ²ΠΎΡΡ‚ΡŒ Π½Π° сайтС датируСтся 2012 Π³ΠΎΠ΄ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΎ.
  8. Π Π°Π·Π½Ρ‹Π΅ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ· самых популярных Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² Louvain: для C, для Python, Π΅Ρ‰Ρ‘ для Python. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠ°Ρ ΡΡ‚Π°Ρ‚ΡŒΡ ΠΏΡ€ΠΎ этот Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ: ссылка.
  9. Π‘Π°ΠΉΡ‚, посвящСнный Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ Infomap ΠΈ Π΅Π³ΠΎ модификациям, ΠΎΡ‚ Π°Π²Ρ‚ΠΎΡ€ΠΎΠ² ΠΌΠ΅Ρ‚ΠΎΠ΄Π°. Как ΠΈ Π²Π΅Π·Π΄Π΅, Π΅ΡΡ‚ΡŒ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΉ ΠΊΠΎΠ΄. Помимо Ρ…ΠΎΡ€ΠΎΡˆΠ΅ΠΉ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΠΈ, Π΅ΡΡ‚ΡŒ ΠΈΠ·ΡƒΠΌΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π΄Π΅ΠΌΠΊΠΈ, ΠΈΠ»Π»ΡŽΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ Ρ€Π°Π±ΠΎΡ‚Ρƒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°: Π²ΠΎΡ‚ ΠΈ Π²ΠΎΡ‚. Π£Π·Π½Π°Ρ‚ΡŒ, ΠΊΠ°ΠΊ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, ΠΌΠΎΠΆΠ½ΠΎ здСсь.
  10. ΠŸΠ°ΠΊΠ΅Ρ‚ для R ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ igraph. Π’ Π½Π΅ΠΌ Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ΠΎ довольно ΠΌΠ½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации, Π½ΠΎ ΠΌΡ‹ Π½Π΅ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ Π½ΠΈΡ‡Π΅Π³ΠΎ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ ΠΎ Π½ΠΈΡ…, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π½Π΅ ΠΈΠ·ΡƒΡ‡Π°Π»ΠΈ ΠΏΠ°ΠΊΠ΅Ρ‚.

Если Ρ†Π΅Π»ΡŒ β€” провСсти воспроизводимый экспСримСнт Π½Π° Π½Π΅Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, Π° Π½Π΅ Π²Ρ‹ΠΊΠ°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ Π² ΠΏΡ€ΠΎΠ΄Π°ΠΊΡˆΠ½ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚, Ρ‚ΠΎ срСди всСго Π²Ρ‹ΡˆΠ΅ΠΏΠ΅Ρ€Π΅Ρ‡ΠΈΡΠ»Π΅Π½Π½ΠΎΠ³ΠΎ Π»ΡƒΡ‡ΡˆΠΈΠΌΠΈ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°ΠΌΠΈ ΡΠ²Π»ΡΡŽΡ‚ΡΡ, Π½Π° наш взгляд, graph-tool (ΠΏΡƒΠ½ΠΊΡ‚ 3), Gephi (ΠΏΡƒΠ½ΠΊΡ‚ 4) ΠΈΠ»ΠΈ Infomap (ΠΏΡƒΠ½ΠΊΡ‚ 9).

Наши экспСримСнты


А Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ расскаТСм, ΠΊΠ°ΠΊ ΠΌΡ‹ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π»ΠΈ Π³Ρ€Π°Ρ„Ρ‹ Π΄ΠΎΠΌΠ΅Π½ΠΎΠ² Π ΡƒΠ½Π΅Ρ‚Π° ΠΈ окрСстностСй, ΠΈ ΠΏΠΎΠΊΠ°ΠΆΠ΅ΠΌ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ с Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌΠΈ ΠΈΡ… кластСризации. Π’ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ части нашСго Ρ†ΠΈΠΊΠ»Π° статСй Π±ΡƒΠ΄Π΅Ρ‚ описан Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ, с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π±Ρ‹Π»ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Ρ‹ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹Π΅ Π½ΠΈΠΆΠ΅ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ. Π­Ρ‚ΠΎ ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ k-medoids, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ Π² Π»ΡƒΡ‡ΡˆΠΈΡ… традициях вСлосипСдирования написали Π½Π° ΠΊΠΎΡ€Π½Π΅Π²ΠΎΠΌ ΠΏΠΈΡ‚ΠΎΠ½Π΅, ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡƒΠ΄Π°Π»ΠΎΡΡŒ Π½Π° ΡƒΠ΄ΠΈΠ²Π»Π΅Π½ΠΈΠ΅ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Ρ€Π΅ΡˆΠΈΡ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ. Π§Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· этого ΠΈ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π³ΠΎ поста, Π° Ρ‚Π°ΠΊΠΆΠ΅ описаниС Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΄Ρ€ΡƒΠ³ΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², Π΅ΡΡ‚ΡŒ Π² ΠΏΡ€Π΅Π·Π΅Π½Ρ‚Π°Ρ†ΠΈΠΈ, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ я рассказывал Π½Π° newprolab Π² digital october этой вСсной:

Π”Π°Π½Π½Ρ‹Π΅


ΠŸΠ΅Ρ€Π²Π°Ρ Π·Π°Π΄Π°Ρ‡Π° β€” кластСризация Π²Π΅Π±-Π΄ΠΎΠΌΠ΅Π½ΠΎΠ². Из DMP ΠΌΡ‹ Π±Π΅Ρ€Π΅ΠΌ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎ посСщСниях ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π΄ΠΎΠΌΠ΅Π½ΠΎΠ², ΠΈ Π½Π° ΠΈΡ… основС строим Π³Ρ€Π°Ρ„, Π³Π΄Π΅ Π² качСствС ΡƒΠ·Π»ΠΎΠ² Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°ΡŽΡ‚ Π΄ΠΎΠΌΠ΅Π½Ρ‹, Π° Π² качСствС Ρ€Ρ‘Π±Π΅Ρ€ β€” Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ Π΄ΠΎΠΌΠ΅Π½Π°ΠΌΠΈ. Аффинити (ΠΎΠ½ ΠΆΠ΅ Π»ΠΈΡ„Ρ‚) ΠΌΠ΅ΠΆΠ΄Ρƒ Π΄ΠΎΠΌΠ΅Π½Π°ΠΌΠΈ ΠΈ β€” это выборочная ΠΎΡ†Π΅Π½ΠΊΠ° Ρ‚ΠΎΠ³ΠΎ, насколько события «посСщСниС ΡŽΠ·Π΅Ρ€ΠΎΠΌ Π΄ΠΎΠΌΠ΅Π½Π° Β» ΠΈ «посСщСниС ΡŽΠ·Π΅Ρ€ΠΎΠΌ Π΄ΠΎΠΌΠ΅Π½Π° Β» Π±Π»ΠΈΠ·ΠΊΠΈ ΠΊ нСзависимости. Если β€” ΠΎΠ±Ρ‰Π΅Π΅ количСство рассматриваСмых ΡŽΠ·Π΅Ρ€ΠΎΠ², Π° β€” количСство ΡŽΠ·Π΅Ρ€ΠΎΠ², ΠΏΠΎΡΠ΅Ρ‚ΠΈΠ²ΡˆΠΈΡ… , Ρ‚ΠΎ:
Π§Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·Π±Π°Π²ΠΈΡ‚ΡŒΡΡ ΠΎΡ‚ ΡˆΡƒΠΌΠΎΠ², Π½ΡƒΠΆΠ½ΠΎ ΠΎΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Ρ‚ΡŒ Π΄ΠΎΠΌΠ΅Π½Ρ‹ со слишком малСньким числом посСщСний, Π° Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Ρ‘Π±Ρ€Π° с Π½ΠΈΠ·ΠΊΠΈΠΌ Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ. ΠŸΡ€Π°ΠΊΡ‚ΠΈΠΊΠ° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ достаточно ΠΏΠΎΡ€ΠΎΠ³Π° Π² 15-20 ΠΏΠΎ посСщСниям ΠΈ 20-25 ΠΏΠΎ Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ. ΠŸΡ€ΠΈ Π±ΠΎΠ»Π΅Π΅ высоком ΠΏΠΎΡ€ΠΎΠ³Π΅ ΠΏΠΎ Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ появляСтся слишком ΠΌΠ½ΠΎΠ³ΠΎ ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π²Π΅Ρ€ΡˆΠΈΠ½.

ΠŸΠΎΠ΄ΠΎΠ±Π½Ρ‹ΠΉ способ построСния Π³Ρ€Π°Ρ„Π° позволяСт ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ Π² Π΄Π°Π½Π½Ρ‹Ρ… довольно Ρ‡Π΅Ρ‚ΠΊΡƒΡŽ структуру «сообщСств» Π΄ΠΎΠΌΠ΅Π½ΠΎΠ². Одна ΠΈΠ· интСрСсных Π΅Π³ΠΎ особСнностСй состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ самыС ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ Π΄ΠΎΠΌΠ΅Π½Ρ‹ (поисковики, ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Π΅ сСти, Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ ΠΌΠ°Π³Π°Π·ΠΈΠ½Ρ‹ ΠΈ новостныС сайты), ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ ΠΎΡ‡Π΅Π½ΡŒ «толстых» Ρ€Ρ‘Π±Π΅Ρ€ Π½ΠΈ с ΠΎΠ΄Π½ΠΎΠΉ Π΄Ρ€ΡƒΠ³ΠΎΠΉ Π²Π΅Ρ€ΡˆΠΈΠ½ΠΎΠΉ. Π­Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ эти Π΄ΠΎΠΌΠ΅Π½Ρ‹ находятся Π½Π° ΠΎΡ‚ΡˆΠΈΠ±Π΅ ΠΈ часто ΠΎΡΡ‚Π°ΡŽΡ‚ΡΡ ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ Π²Π΅Ρ€ΡˆΠΈΠ½Π°ΠΌΠΈ, Π½Π΅ попадая Π½ΠΈ Π² ΠΎΠ΄ΠΈΠ½ ΠΈΠ· кластСров. ΠœΡ‹ считаСм это плюсом, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ совмСстноС посСщСниС vk.com ΠΈ ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Π½ΠΈΠ±ΡƒΠ΄ΡŒ узкоспСциализированного сайта Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΌΠ°Π»ΠΎ Ρ‡Ρ‚ΠΎ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ ΠΎ ΠΈΡ… связи Π΄Ρ€ΡƒΠ³ с Π΄Ρ€ΡƒΠ³ΠΎΠΌ.

Надо ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΈ ΠΎΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅, ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π³Ρ€Π°Ρ„ ΠΈ ΠΏΠΎΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΏΠΎ Π½Π΅ΠΌΡƒ Ρ€Π°Π·Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ β€” Π·Π°Π΄Π°Ρ‡Π° Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ Π±ΠΎΠ»Π΅Π΅ рСсурсоСмкая, Ρ‡Π΅ΠΌ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ΠΈΠ΅ самих кластСров. НСкоторыС этапы (Π² частности, вычислСниС ΠΏΠΎΠΏΠ°Ρ€Π½ΠΎΠΉ схоТСсти) ΡƒΠ΄Π°Π»ΠΎΡΡŒ Ρ€Π°ΡΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΡ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΏΠ°ΠΊΠ΅Ρ‚Π° pathos (pathos.multiprocessing). Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ стандартного питоновского ΠΏΠ°ΠΊΠ΅Ρ‚Π° multiprocessing, ΠΎΠ½ Π½Π΅ испытываСт ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌ с сСриализациСй, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ dill вмСсто pickle. Бинтаксис Ρƒ Π½Π΅Π³ΠΎ Π°Π±ΡΠΎΠ»ΡŽΡ‚Π½ΠΎ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ‡Π΅Π½ стандартному multiprocessing. Π—Π΄Π΅ΡΡŒ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΏΡ€ΠΎ dill.

Визуализация


ΠŸΡ€ΠΈΡˆΠ»ΠΎ врСмя ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΎΠΊ с Π³Ρ€Π°Ρ„Π°ΠΌΠΈ (ΠΊΠ°ΠΊ ΠΎΠ½ΠΈ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈΡΡŒ, ΠΌΡ‹ расскаТСм Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ части). Π˜Π·Π²Π΅ΡΡ‚Π½ΠΎ, Ρ‡Ρ‚ΠΎ networkX Π½Π΅ ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½ для Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π³Ρ€Π°Ρ„ΠΎΠ², ΠΈ Ρ‡Ρ‚ΠΎ для этой Ρ†Π΅Π»ΠΈ Π»ΡƒΡ‡ΡˆΠ΅ ΠΎΠ±Ρ€Π°Ρ‰Π°Ρ‚ΡŒΡΡ ΠΊ d3.js, gephi ΠΈΠ»ΠΈ graph-tool. ΠœΡ‹ слишком ΠΏΠΎΠ·Π΄Π½ΠΎ ΡƒΠ·Π½Π°Π»ΠΈ ΠΎΠ± этом, ΠΈ Π²ΠΎΠΏΡ€Π΅ΠΊΠΈ Π·Π΄Ρ€Π°Π²ΠΎΠΌΡƒ смыслу, всС Ρ€Π°Π²Π½ΠΎ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΠ»ΠΈ муТСствСнно Ρ€ΠΈΡΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ Π² networkX. ΠŸΠΎΠ»ΡƒΡ‡ΠΈΠ»ΡΡ Π½Π΅ Ρ‚ΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ чистый ΠΌΡ‘Π΄ (Π² частности, Π½Π΅ ΡƒΠ΄Π°Π»ΠΎΡΡŒ Π½Π°ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ Π²Π·Π°ΠΈΠΌΠ½ΠΎΠ΅ ΠΎΡ‚Ρ‚Π°Π»ΠΊΠΈΠ²Π°Π½ΠΈΠ΅ ΡƒΠ·Π»ΠΎΠ² ΠΈ Π½Π΅ΠΏΠ΅Ρ€Π΅ΠΊΡ€Ρ‹Π²Π°ΡŽΡ‰ΠΈΠ΅ΡΡ надписи), Π½ΠΎ ΠΌΡ‹ ΠΊΠ°ΠΊ ΠΌΠΎΠ³Π»ΠΈ ΡΡ‚Π°Ρ€Π°Π»ΠΈΡΡŒ ΠΈ Π²Ρ‹ΠΆΠ°Π»ΠΈ всС Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ· возмоТностСй networkX. Π’ΠΎ всСх ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ°Ρ… Π΄ΠΈΠ°ΠΌΠ΅Ρ‚Ρ€ ΠΊΡ€ΡƒΠΆΠΎΡ‡ΠΊΠ° (Π΄ΠΎΠΌΠ΅Π½Π°) соотвСтствуСт Π΅Π³ΠΎ посСщаСмости, Ρ‚ΠΎΠ»Ρ‰ΠΈΠ½Π° Ρ€Π΅Π±Ρ€Π° соотвСтствуСт Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ, Ρ†Π²Π΅Ρ‚ ΠΊΡ€ΡƒΠΆΠΎΡ‡ΠΊΠ° ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ Π΄ΠΎΠΌΠ΅Π½Π° кластСру. Π¦Π²Π΅Ρ‚ Ρ€Π΅Π±Ρ€Π° ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΎΠ±Π΅ΠΈΡ… Π²Π΅Ρ€ΡˆΠΈΠ½ Π΄Π°Π½Π½ΠΎΠΌΡƒ кластСру, сСрый Ρ†Π²Π΅Ρ‚ соотвСтствуСт Ρ€Ρ‘Π±Ρ€Π°ΠΌ, ΡΠΎΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰ΠΈΠΌ Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹ ΠΈΠ· Ρ€Π°Π·Π½Ρ‹Ρ… кластСров.

ΠšΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΈ ΠΊ кластСрам Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ· Π³Ρ€Π°Ρ„ΠΎΠ²


НС ΠΎΡ‡Π΅Π½ΡŒ большой Π³Ρ€Π°Ρ„ ΠΈΠ· 1285 Π΄ΠΎΠΌΠ΅Π½ΠΎΠ²:

На ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠ΅ нарисован Π΅Π³ΠΎ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹ΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚: большая Ρ‡Π°ΡΡ‚ΡŒ Ρ€Ρ‘Π±Π΅Ρ€ ΡƒΠ΄Π°Π»Π΅Π½Π° ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ local sparsification (ΠΎΠ½ Π±ΡƒΠ΄Π΅Ρ‚ описан Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ части), ΠΈΠ·-Π·Π° Ρ‡Π΅Π³ΠΎ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠ° Π² сообщСства выглядит Π±ΠΎΠ»Π΅Π΅ ΠΎΡ‚Ρ‡Π΅Ρ‚Π»ΠΈΠ²ΠΎ, ΠΈ смягчаСтся эффСкт Β«Π‘ΠΎΠ»ΡŒΡˆΠΎΠ³ΠΎ Волосяного Π¨Π°Ρ€Π°Β». ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΎΠ² всСго 18. ΠŸΠΎΠ»Π½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ (Π² png).

На ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π²Π΅Ρ€ΡˆΠΈΠ½Π΅ написано Π½Π°Π·Π²Π°Π½ΠΈΠ΅ Π΄ΠΎΠΌΠ΅Π½Π° ΠΈ Π½ΠΎΠΌΠ΅Ρ€ кластСра, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌΡƒ ΠΎΠ½ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚. ΠžΠ±Ρ€Π°Ρ‚ΠΈΡ‚Π΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π½Π° ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹ ΠΏΠΎ внСшнСй окруТности β€” это, ΠΊΠ°ΠΊ ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, ΠΊΡ€ΡƒΠΏΠ½Ρ‹Π΅ Π΄ΠΎΠΌΠ΅Π½Ρ‹ Π±Π΅Π· ΡΠΈΠ»ΡŒΠ½Ρ‹Ρ… связСй с ΠΊΠ΅ΠΌ-Π»ΠΈΠ±ΠΎ. НиТнюю Ρ‡Π°ΡΡ‚ΡŒ Π³Ρ€Π°Ρ„Π° ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ Π±ΠΎΠ»Π΅Π΅ Β«ΠΆΠ΅Π½ΡΠΊΡƒΡŽΒ» (Π²Π΅Ρ€Π½Π΅Π΅, Β«ΡΠ΅ΠΌΠ΅ΠΉΠ½ΡƒΡŽΒ»). Она довольно бСспорядочная, вСроятно, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ с ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π±Ρ€Π°ΡƒΠ·Π΅Ρ€Π° (с ΠΎΠ΄Π½ΠΎΠΉ ΠΊΡƒΠΊΠΈ) страницы просматривали нСсколько Ρ‡Π»Π΅Π½ΠΎΠ² сСмьи Π² Ρ€Π°Π·Π½ΠΎΠ΅ врСмя. Π‘ Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ΠΌ сообщСств Π² этой части Π³Ρ€Π°Ρ„Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ справился Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΎ.

Π’ ΠΎΠ΄ΠΈΠ½ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹ΠΉ кластСр ΠΏΠΎΠ΄ Π½ΠΎΠΌΠ΅Ρ€ΠΎΠΌ 17 (Ρ€ΠΎΠ·ΠΎΠ²Ρ‹ΠΉ) ΠΏΠΎΠΏΠ°Π»ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ Ρ‡Π΅Π³ΠΎ β€” ΠΎΡ‚ сайтов ΠΏΠΎ вСдСнию бСрСмСнности Π²Π½ΠΈΠ·Ρƒ ΠΈ мСдицинских сайтов Π² Ρ†Π΅Π½Ρ‚Ρ€Π΅, Π΄ΠΎ ΠΌΠ΅ΡˆΠ°Π½ΠΈΠ½Ρ‹ ΠΈΠ· ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΎΠ² ΠΏΠΎΠ³ΠΎΠ΄Ρ‹, ТСнских Ρ„ΠΎΡ€ΡƒΠΌΠΎΠ² ΠΈ ΠΆΡƒΡ€Π½Π°Π»ΠΎΠ² Π² Π²Π΅Ρ€Ρ…Π½Π΅ΠΉ части кластСра. К «юго-Π·Π°ΠΏΠ°Π΄ΡƒΒ» ΠΎΡ‚ Π½Π΅Π³ΠΎ располоТСн ΠΊΡƒΠ»ΠΈΠ½Π°Ρ€Π½Ρ‹ΠΉ кластСр (Π½ΠΎΠΌΠ΅Ρ€ 4):

К «юго-востоку» ΠΎΡ‚ сСмСйного кластСра β€” Π½Π΅Π΄Π²ΠΈΠΆΠΈΠΌΠΎΡΡ‚ΡŒ + поиск Ρ€Π°Π±ΠΎΡ‚Ρ‹ (объСдинились Π² ΠΎΠ΄ΠΈΠ½ кластСр Π½ΠΎΠΌΠ΅Ρ€ 2):

К Β«ΡŽΠ³ΡƒΒ» ΠΎΡ‚ кластСра 17 Ρ€Π°ΡΠΏΠΎΠ»ΠΎΠΆΠΈΠ»Π°ΡΡŒ ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠ»ΠΎΡ…ΠΎ размСчСнная ΠΎΠ±Π»Π°ΡΡ‚ΡŒ. Π’Π°ΠΊ, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ Π½Π΅ ΡƒΠ΄Π°Π»ΠΎΡΡŒ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ сообщСство туристичСских Π΄ΠΎΠΌΠ΅Π½ΠΎΠ² (ΠΎΠ½ΠΈ разбросаны ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ сообщСствам), Π° Π² кластСр ΠΊΡƒΠ»ΠΈΠ½Π°Ρ€ΠΈΠΈ ΠΏΠΎΠΏΠ°Π» сайт ΠΏΡ€ΠΎ ΠΎΡ€ΡƒΠΆΠΈΠ΅.

Π’ нСбольшой кластСр 15 (красный) ΠΏΠΎΠΏΠ°Π»ΠΈ, Π² основном, ΡŽΡ€ΠΈΠ΄ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ сайты:

К «сСвСро-Π·Π°ΠΏΠ°Π΄ΡƒΒ» ΠΎΡ‚ «сСмСйной» части располоТСны Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Ρ‡Π΅Ρ‚ΠΊΠΈΠ΅ кластСры. По всСй видимости, Π±Ρ€Π°ΡƒΠ·Π΅Ρ€Π°ΠΌΠΈ посСтитСлСй этих сайтов Π½ΠΈΠΊΡ‚ΠΎ большС Π½Π΅ ΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ (ΠΈ это Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎ, исходя ΠΈΠ· Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ кластСров). Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, Π±Ρ€ΠΎΡΠ°ΡŽΡ‚ΡΡ Π² Π³Π»Π°Π·Π° Π΄Π²Π° ΠΏΠ»ΠΎΡ‚Π½Ρ‹Ρ… кластСра: российскиС (Π½ΠΎΠΌΠ΅Ρ€ 16, ΠΊΠΈΡ€ΠΏΠΈΡ‡Π½Ρ‹ΠΉ) ΠΈ украинскиС (Π½ΠΎΠΌΠ΅Ρ€ 12, синий) новостныС сайты, ΠΏΡ€ΠΈΡ‡Π΅ΠΌ послСдний Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΠ»ΠΎΡ‚Π½Π΅Π΅, Ρ…ΠΎΡ‚ΡŒ ΠΈ мСньшС ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ. МоТно Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΆΠ΅, Ρ‡Ρ‚ΠΎ мСняСтся Π°Π½Π³Π°ΠΆΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΡΡ‚ΡŒ сайтов вдоль российского кластСра:

К «сСвСро-востоку» ΠΎΡ‚ новостных сайтов Ρ€Π°ΡΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ Ρ„ΠΈΠ»ΡŒΠΌΡ‹, сСриалы ΠΈ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΊΠΈΠ½ΠΎΡ‚Π΅Π°Ρ‚Ρ€Ρ‹ (сСрый ΠΈ ΠΆΠ΅Π»Ρ‚Ρ‹ΠΉ кластСры ΠΏΠΎΠ΄ Π½ΠΎΠΌΠ΅Ρ€Π°ΠΌΠΈ 3 ΠΈ 8). ΠœΠ΅ΠΆΠ΄Ρƒ кластСрами Ρ„ΠΈΠ»ΡŒΠΌΠΎΠ² ΠΈ кластСром украинских новостСй ΠΊΠ°ΠΊ пСрСходная Π·ΠΎΠ½Π° располоТСн кластСр ΠΏΠΎΡ€Π½ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ.

Π•Ρ‰Ρ‘ восточнСС располоТСн кластСр Π½ΠΎΠΌΠ΅Ρ€ 1 β€” вСсь казахский ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚. Рядом с Π½ΠΈΠΌ β€” Π°Π²Ρ‚ΠΎΠΌΠΎΠ±ΠΈΠ»ΡŒΠ½Ρ‹Π΅ сайты (кластСр 6, сирСнСвый) ΠΈ российскиС спортивныС сайты (ΠΎΠ½ΠΈ влились ΠΊ ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹ΠΌ новостям Π² кластСр 16).

Π”Π°Π»Π΅Π΅ ΠΊ ΡŽΠ³Ρƒ располоТСн кластСр ΠΌΡƒΠ»ΡŒΡ‚Ρ„ΠΈΠ»ΡŒΠΌΠΎΠ² ΠΈ дСтских ΠΈΠ³Ρ€ (Π½ΠΎΠΌΠ΅Ρ€ 10, Π±ΠΎΠ»ΠΎΡ‚Π½Ρ‹ΠΉ), Π° Ρ‚Π°ΠΊΠΆΠ΅ тСсно связанныС с Π½ΠΈΠΌ ΡˆΠΊΠΎΠ»ΡŒΠ½Ρ‹Π΅ кластСра словарСй, ΠΎΠ½Π»Π°ΠΉΠ½-Ρ€Π΅ΡˆΠ΅Π±Π½ΠΈΠΊΠΎΠ² ΠΈ Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚ΠΎΠ²: ΠΊΡ€ΡƒΠΏΠ½Ρ‹ΠΉ российский (Π½ΠΎΠΌΠ΅Ρ€ 5, пСрсиковый) ΠΈ совсСм нСбольшой украинский (Π½ΠΎΠΌΠ΅Ρ€ 0, Π·Π΅Π»Π΅Π½Ρ‹ΠΉ). Π’ кластСр Π½ΠΎΠΌΠ΅Ρ€ 0 Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎΠΏΠ°Π»ΠΈ украинскиС сайты всСх Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ, ΠΊΡ€ΠΎΠΌΠ΅ новостСй (ΠΈΡ… оказалось совсСм Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ). Π¨ΠΊΠΎΠ»ΡŒΠ½Ρ‹Π΅ кластСры Π½Π° «югС» ΠΏΠ»Π°Π²Π½ΠΎ пСрСходят Π² Π³Π»Π°Π²Π½Ρ‹ΠΉ ТСнский кластСр Π½ΠΎΠΌΠ΅Ρ€ 17.

ПослСднСС, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Ρ‚ΡƒΡ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ β€” кластСр ΠΊΠ½ΠΈΠ³, располоТСнный Π½Π° ΠΎΡ‚ΡˆΠΈΠ±Π΅ Π² «восточной» части ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΠΈ:

ИзмСнСния за год


Π’ΠΎΡ‚ Ρ‚Π°ΠΊ выглядит Ρ‚ΠΎΡ‚ ΠΆΠ΅ самый Π³Ρ€Π°Ρ„, Ρ‚ΠΎΠ»ΡŒΠΊΠΎ нарисованный Π±Π΅Π· прорСТивания:


ΠŸΠΎΠ»Π½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€.

А Π²ΠΎΡ‚ Ρ‚Π°ΠΊ выглядит ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹ΠΉ Π³Ρ€Π°Ρ„, построСнный Π·Π° ΠΏΠΎΡ‡Ρ‚ΠΈ Π³ΠΎΠ΄ Π΄ΠΎ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅Π³ΠΎ. Π’ Π½Π΅ΠΌ 12 кластСров:

ΠŸΠΎΠ»Π½Ρ‹ΠΉ Ρ€Π°Π·ΠΌΠ΅Ρ€.

Как ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Π·Π° это врСмя структура Π² Ρ†Π΅Π»ΠΎΠΌ ΠΎΡΡ‚Π°Π»Π°ΡΡŒ ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΉ (новостныС сайты, ΠΊΡ€ΡƒΠΏΠ½Ρ‹ΠΉ ТСнский кластСр, крупная разрСТСнная ΠΎΠ±Π»Π°ΡΡ‚ΡŒ Ρ€Π°Π·Π²Π»Π΅ΠΊΠ°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… сайтов Ρ€Π°Π·Π½ΠΎΠΉ направлСнности). Из Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠΉ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ ΠΎΠΊΠΎΠ½Ρ‡Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ исчСзновСния кластСра с ΠΌΡƒΠ·Ρ‹ΠΊΠΎΠΉ Π·Π° это врСмя. ВСроятно, Π·Π° это врСмя люди для нахоТдСния ΠΌΡƒΠ·Ρ‹ΠΊΠΈ ΠΏΠΎΡ‡Ρ‚ΠΈ пСрСстали ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ спСциализированными сайтами, Ρ‡Π°Ρ‰Π΅ ΠΎΠ±Ρ€Π°Ρ‰Π°ΡΡΡŒ ΠΊ соцсСтям ΠΈ Π½Π°Π±ΠΈΡ€Π°ΡŽΡ‰ΠΈΠΌ ΠΎΠ±ΠΎΡ€ΠΎΡ‚Ρ‹ сСрвисам Π²Ρ€ΠΎΠ΄Π΅ Spotify. Π Π°Π·Π΄Π΅Π»ΡΠ΅ΠΌΠΎΡΡ‚ΡŒ всСго Π³Ρ€Π°Ρ„Π° Π½Π° сообщСства Π² Ρ†Π΅Π»ΠΎΠΌ возросла, ΠΈ количСство осмыслСнных кластСров ΡƒΠ΄Π°Π»ΠΎΡΡŒ довСсти с 12 Π΄ΠΎ 18. ΠŸΡ€ΠΈΡ‡ΠΈΠ½Ρ‹ этого, скорСС всСго, ΠΊΡ€ΠΎΡŽΡ‚ΡΡ Π½Π΅ Π² ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ повСдСния ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ, Π° просто Π² ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ Π½Π°ΡˆΠΈΡ… источников Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° сбора Π΄Π°Π½Π½Ρ‹Ρ….

Если ΠΌΡ‹ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠΌ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΈ оставим Π½Π° ΠΏΡ€Π΅ΠΆΠ½Π΅ΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Ρ‹ Π½Π° минимальноС количСство посСщСний Π΄ΠΎΠΌΠ΅Π½Π° ΠΈ ΠΏΠ°Ρ€Ρ‹ Π΄ΠΎΠΌΠ΅Π½ΠΎΠ², Π° Ρ‚Π°ΠΊΠΆΠ΅ минимальноС Π°Ρ„Ρ„ΠΈΠ½ΠΈΡ‚ΠΈ для формирования Ρ€Π΅Π±Ρ€Π°, ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠΌ Π±ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹ΠΉ Π³Ρ€Π°Ρ„. НиТС прСдставлСн Ρ‚Π°ΠΊΠΎΠΉ Π³Ρ€Π°Ρ„ ΠΈΠ· 10121 Π²Π΅Ρ€ΡˆΠΈΠ½Ρ‹ ΠΈ 30 кластСров. Как Π²ΠΈΠ΄Π½ΠΎ, силовой Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ рисования ΠΈΠ· networkx ΡƒΠΆΠ΅ Π½Π΅ ΠΎΡ‡Π΅Π½ΡŒ-Ρ‚ΠΎ справляСтся ΠΈ Π²Ρ‹Π΄Π°Π΅Ρ‚ довольно ΠΏΡƒΡ‚Π°Π½ΡƒΡŽ ΠΊΠ°Ρ€Ρ‚ΠΈΠ½ΠΊΡƒ. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΡΠ»Π΅Π΄ΠΈΡ‚ΡŒ ΠΈ Π² Ρ‚Π°ΠΊΠΎΠΌ Π²ΠΈΠ΄Π΅. ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ Ρ€Ρ‘Π±Π΅Ρ€ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΎ с ΠΏΠΎΠ»ΡƒΡ‚ΠΎΡ€Π° ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Π΄ΠΎ 40000 с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΆΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° разрСТСния (local sparsification). PNG-Ρ„Π°ΠΉΠ» Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ 80 Мб, поэтому ΠΏΡ€ΠΎΡΡŒΠ±Π° ΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Π² ΠΏΠΎΠ»Π½ΠΎΠΌ Ρ€Π°Π·ΠΌΠ΅Ρ€Π΅ здСсь.

На Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π½Π΅ ΡƒΠ΄Π°Π»ΠΎΡΡŒ ΠΊΠ°ΠΊ слСдуСт Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ структуру сообщСств (мСшанина Π² Ρ†Π΅Π½Ρ‚Ρ€Π΅), Π½ΠΎ Π² Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ кластСра ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»ΠΈΡΡŒ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅ осмыслСнными, Ρ‡Π΅ΠΌ Π² случаС 1285 Π΄ΠΎΠΌΠ΅Π½ΠΎΠ².

Π‘ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ΠΌ количСства Π΄Π°Π½Π½Ρ‹Ρ… Π½Π°Π±Π»ΡŽΠ΄Π°ΡŽΡ‚ΡΡ интСрСсныС закономСрности. Π‘ ΠΎΠ΄Π½ΠΎΠΉ стороны, Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Π²Ρ‹Π΄Π΅Π»ΡΡ‚ΡŒΡΡ малСнькиС ΠΏΠ΅Ρ€ΠΈΡ„Π΅Ρ€ΠΈΠΉΠ½Ρ‹Π΅ кластСра, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π±Ρ‹Π»ΠΈ Π½Π΅Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠΌΡ‹ Π½Π° ΠΌΠ°Π»Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΏΠ»ΠΎΡ…ΠΎ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Π»ΠΎΡΡŒ Π½Π° ΠΌΠ°Π»Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΠ»ΠΎΡ…ΠΎ кластСризуСтся ΠΈ Π½Π° Π±ΠΎΠ»ΡŒΡˆΠΈΡ… (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡΠΌΠ΅ΡˆΠΈΠ²Π°ΡŽΡ‚ΡΡ сайты ΠΏΡ€ΠΎ Π½Π΅Π΄Π²ΠΈΠΆΠΈΠΌΠΎΡΡ‚ΡŒ ΠΈ ΠΏΡ€ΠΎ поиск Ρ€Π°Π±ΠΎΡ‚Ρ‹, часто ΠΊ Π½ΠΈΠΌ ΠΏΡ€ΠΈΠΌΡ‹ΠΊΠ°Π΅Ρ‚ эзотСрика ΠΈ астрология).

Π’ΠΎΡ‚ нСсколько ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π½ΠΎΠ²Ρ‹Ρ… сообщСств. На самом ΠΎΡ‚ΡˆΠΈΠ±Π΅ выдСлился испанский кластСр, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΌΡ‹ Ρ‡Ρ‚ΠΎ-Ρ‚ΠΎ Π²ΠΈΠ΄ΠΈΠΌ ΠΎΡ‚Ρ‚ΡƒΠ΄Π°:

НСдалСко ΠΎΡ‚ Π½Π΅Π³ΠΎ, Π±Π»ΠΈΠΆΠ΅ ΠΊ основному скоплСнию Ρ‚ΠΎΡ‡Π΅ΠΊ, располагаСтся азСрбайдТанский кластСр (Π½ΠΎΠΌΠ΅Ρ€ 2) ΠΈ грузинский (Π½ΠΎΠΌΠ΅Ρ€ 4):

Появился узбСкско-тадТикский кластСр, Π° Ρ‚Π°ΠΊΠΆΠ΅ бСлорусский (Π½ΠΎΠΌΠ΅Ρ€ 16) β€” Π²Π½ΡƒΡ‚Ρ€ΠΈ основной массы Π΄ΠΎΠΌΠ΅Π½ΠΎΠ², рядом с «российским новостным» ΠΈ «украинским нСновостным» сообщСствами:

Π’ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΌ постС Π±ΡƒΠ΄Π΅Ρ‚ описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°:

– ΠΊΠ°ΠΊ Π±Ρ‹Π»ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Ρ‹ сами кластСра, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΌΠΎΠΆΠ½ΠΎ Π±Ρ‹Π»ΠΎ Ρ‚Π°ΠΊ Ρ€Π°ΡΠΊΡ€Π°ΡˆΠΈΠ²Π°Ρ‚ΡŒ Π³Ρ€Π°Ρ„;
– ΠΊΠ°ΠΊ ΡƒΠ΄Π°Π»ΡΠ»ΠΈΡΡŒ ΠΈΠ·Π±Ρ‹Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ Ρ€Ρ‘Π±Ρ€Π°.

Π“ΠΎΡ‚ΠΎΠ²Ρ‹ ΠΎΡ‚Π²Π΅Ρ‚ΠΈΡ‚ΡŒ Π½Π° ваши вопросы Π² коммСнтариях. Stay tuned!

Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ k-means ΠΈ c-means / Π₯Π°Π±Ρ€

Π”ΠΎΠ±Ρ€Ρ‹ΠΉ дСнь!

Как ΠΈ ΠΎΠ±Π΅Ρ‰Π°Π», ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°ΡŽ ΡΠ΅Ρ€ΠΈΡŽ ΠΏΡƒΠ±Π»ΠΈΠΊΠ°Ρ†ΠΈΠΉ ΠΎ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ Data Mining. БСгодня Ρ…ΠΎΡ‡Ρƒ Ρ€Π°ΡΡΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΎ Π΄Π²ΡƒΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… кластСризации (k-means ΠΈ c-means), ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ прСимущСства ΠΈ нСдостатки, Π΄Π°Ρ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΏΠΎ ΠΈΡ… использованию. Π˜Ρ‚Π°ΠΊ, поСхали…

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ β€” это Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ мноТСства Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹ (кластСры) ΠΏΠΎ стСпСни «схоТСсти» Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π°.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π² Data Mining ΠΏΡ€ΠΈΠΎΠ±Ρ€Π΅Ρ‚Π°Π΅Ρ‚ Ρ†Π΅Π½Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° ΠΎΠ½Π° выступаСт ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· этапов Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, построСния Π·Π°ΠΊΠΎΠ½Ρ‡Π΅Π½Π½ΠΎΠ³ΠΎ аналитичСского Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. Аналитику часто Π»Π΅Π³Ρ‡Π΅ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π³Ρ€ΡƒΠΏΠΏΡ‹ схоТих ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΈΡ… особСнности ΠΈ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΡƒΡŽ модСль, Ρ‡Π΅ΠΌ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΠΎΠ΄Π½Ρƒ ΠΎΠ±Ρ‰ΡƒΡŽ модСль для всСх Π΄Π°Π½Π½Ρ‹Ρ…. Π’Π°ΠΊΠΈΠΌ ΠΏΡ€ΠΈΠ΅ΠΌΠΎΠΌ постоянно ΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π² ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³Π΅, выдСляя Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ, Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ² ΠΈ разрабатывая для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· Π½ΠΈΡ… ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΡƒΡŽ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ (ВикипСдия).

ΠœΠ΅Ρ€Ρ‹ расстояний

Для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΡ€Π°Π²Π½ΠΈΠ²Π°Ρ‚ΡŒ Π΄Π²Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΉ, Π½Π° основании ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΡΡ…ΠΎΠ΄ΠΈΡ‚ΡŒ сравнСниС. Как ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ, Ρ‚Π°ΠΊΠΈΠΌ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅ΠΌ являСтся расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ.

Π•ΡΡ‚ΡŒ мноТСство ΠΌΠ΅Ρ€ расстояния, рассмотрим нСсколько ΠΈΠ· Π½ΠΈΡ…:

Π•Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС β€” Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ распространСнноС расстояниС. Оно являСтся гСомСтричСским расстояниСм Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС.

ΠšΠ²Π°Π΄Ρ€Π°Ρ‚ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° расстояния. Иногда ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΎΠ·Π½ΠΈΠΊΠ½ΡƒΡ‚ΡŒ ΠΆΠ΅Π»Π°Π½ΠΈΠ΅ возвСсти Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ стандартноС Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΡ€ΠΈΠ΄Π°Ρ‚ΡŒ большиС вСса Π±ΠΎΠ»Π΅Π΅ ΠΎΡ‚Π΄Π°Π»Π΅Π½Π½Ρ‹ΠΌ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌ.

РасстояниС городских ΠΊΠ²Π°Ρ€Ρ‚Π°Π»ΠΎΠ² (манхэттСнскоС расстояниС). Π­Ρ‚ΠΎ расстояниС являСтся просто срСдним разностСй ΠΏΠΎ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°ΠΌ. Π’ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв эта ΠΌΠ΅Ρ€Π° расстояния ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ Ρ‚Π°ΠΊΠΈΠΌ ΠΆΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ, ΠΊΠ°ΠΊ ΠΈ для ΠΎΠ±Ρ‹Ρ‡Π½ΠΎΠ³ΠΎ расстояния Π•Π²ΠΊΠ»ΠΈΠ΄Π°. Однако ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎ для этой ΠΌΠ΅Ρ€Ρ‹ влияниС ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… Π±ΠΎΠ»ΡŒΡˆΠΈΡ… разностСй (выбросов) ΡƒΠΌΠ΅Π½ΡŒΡˆΠ°Π΅Ρ‚ΡΡ (Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ½ΠΈ Π½Π΅ возводятся Π² ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚).

РасстояниС Π§Π΅Π±Ρ‹ΡˆΠ΅Π²Π°. Π­Ρ‚ΠΎ расстояниС ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ ΠΏΠΎΠ»Π΅Π·Π½Ρ‹ΠΌ, ΠΊΠΎΠ³Π΄Π° ΠΆΠ΅Π»Π°ΡŽΡ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΄Π²Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΊΠ°ΠΊ Β«Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅Β», Ссли ΠΎΠ½ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΏΠΎ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π΅ (ΠΊΠ°ΠΊΠΈΠΌ-Π»ΠΈΠ±ΠΎ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ΠΌ).

Π‘Ρ‚Π΅ΠΏΠ΅Π½Π½ΠΎΠ΅ расстояниС. Иногда ΠΆΠ΅Π»Π°ΡŽΡ‚ прогрСссивно ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ ΠΈΠ»ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠΈΡ‚ΡŒ вСс, относящийся ΠΊ размСрности, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ сильно ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ достигнуто с использованиСм стСпСнного расстояния.

Π’Ρ‹Π±ΠΎΡ€ расстояния (критСрия схоТСсти) Π»Π΅ΠΆΠΈΡ‚ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ Π½Π° исслСдоватСлС. ΠŸΡ€ΠΈ Π²Ρ‹Π±ΠΎΡ€Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠ΅Ρ€ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ кластСризации ΠΌΠΎΠ³ΡƒΡ‚ сущСствСнно ΠΎΡ‚Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ.

Алгоритм k-means (k-срСдних)

НаиболСС простой, Π½ΠΎ Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя достаточно Π½Π΅Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ кластСризации Π² классичСской Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ. Он Ρ€Π°Π·Π±ΠΈΠ²Π°Π΅Ρ‚ мноТСство элСмСнтов Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ пространства Π½Π° Π·Π°Ρ€Π°Π½Π΅Π΅ извСстноС число кластСров k. ДСйствиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Ρ‚Π°ΠΊΠΎΠ²ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ стрСмится ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ срСднСквадратичноС ΠΎΡ‚ΠΊΠ»ΠΎΠ½Π΅Π½ΠΈΠ΅ Π½Π° Ρ‚ΠΎΡ‡ΠΊΠ°Ρ… ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра. Основная идСя Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ пСрСвычисляСтся Ρ†Π΅Π½Ρ‚Ρ€ масс для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠ³ΠΎ Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ шагС, Π·Π°Ρ‚Π΅ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° кластСры вновь Π² соотвСтствии с Ρ‚Π΅ΠΌ, ΠΊΠ°ΠΊΠΎΠΉ ΠΈΠ· Π½ΠΎΠ²Ρ‹Ρ… Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² оказался Π±Π»ΠΈΠΆΠ΅ ΠΏΠΎ Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅. Алгоритм Π·Π°Π²Π΅Ρ€ΡˆΠ°Π΅Ρ‚ΡΡ, ΠΊΠΎΠ³Π΄Π° Π½Π° ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ ΠΈΡ‚Π΅Ρ€Π°Ρ†ΠΈΠΈ Π½Π΅ происходит измСнСния кластСров.

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° k-means:
* Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π°Ρ€Π°Π½Π΅Π΅ Π·Π½Π°Ρ‚ΡŒ количСство кластСров. Мной Π±Ρ‹Π»ΠΎ ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ опрСдСлСния количСства кластСров, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ основывался Π½Π° Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΈ кластСров, распрСдСлСнных ΠΏΠΎ Π½Π΅ΠΊΠΎΠ΅ΠΌΡƒ Π·Π°ΠΊΠΎΠ½Ρƒ (Π² ΠΌΠΎΠ΅ΠΌ случаС всС сводилось ΠΊ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ Π·Π°ΠΊΠΎΠ½Ρƒ). ПослС этого выполнялся классичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ k-means, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π΄Π°Π²Π°Π» Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.
* Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΡ‡Π΅Π½ΡŒ чувствитСлСн ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ Π½Π°Ρ‡Π°Π»ΡŒΠ½Ρ‹Ρ… Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² кластСров. ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΈΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ ΠΏΠΎΠ΄Ρ€Π°Π·ΡƒΠΌΠ΅Π²Π°Π΅Ρ‚ случайный Π²Ρ‹Π±ΠΎΡ€ класторов, Ρ‡Ρ‚ΠΎ ΠΎΡ‡Π΅Π½ΡŒ часто являлось источником ΠΏΠΎΠ³Ρ€Π΅ΡˆΠ½ΠΎΡΡ‚ΠΈ. Как Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ исслСдования ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° для Π±ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΡ‡Π½ΠΎΠ³ΠΎ опрСдСлСния Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² Π½Π°Ρ‡Π°Π»ΡŒΠ½Ρ‹Ρ… кластСров. Π’ ΠΌΠΎΠ΅ΠΌ случаС Π½Π° Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎΠΌ этапС прСдлагаСтся ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Π² качСствС Ρ†Π΅Π½Ρ‚ΠΎΠ² самыС ΠΎΡ‚Π΄Π°Π»Π΅Π½Π½Ρ‹Π΅ Ρ‚ΠΎΡ‡ΠΊΠΈ кластСров.
* Π½Π΅ справляСтся с Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, ΠΊΠΎΠ³Π΄Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊ Ρ€Π°Π·Π½Ρ‹ΠΌ кластСрам Π² Ρ€Π°Π²Π½ΠΎΠΉ стСпСни ΠΈΠ»ΠΈ Π½Π΅ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ Π½ΠΈ ΠΎΠ΄Π½ΠΎΠΌΡƒ.

ΠœΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Ρ‹ ΠΏΠΎ Ρ‚Π΅ΠΌΠ΅:
* ВикипСдия β€” K-means
* Introduction to K-means
* ОписаниС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ kmeans Π² Matlab Statistics Toolbox
* K-means β€” Interactive demo (Java)

НСчСткий Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации с-means

Π‘ послСднСй ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ k-means ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ справляСтся Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ с-means. ВмСсто ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎΠ³ΠΎ ΠΎΡ‚Π²Π΅Ρ‚Π° Π½Π° вопрос ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ кластСру относится ΠΎΠ±ΡŠΠ΅ΠΊΡ‚, ΠΎΠ½ опрСдСляСт Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊ Ρ‚ΠΎΠΌΡƒ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΌΡƒ кластСру. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π΅Π½ΠΈΠ΅ Β«ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ А ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊ кластСру 1 с Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ 90%, ΠΊ кластСру 2 β€” 10% Β» Π²Π΅Ρ€Π½ΠΎ ΠΈ Π±ΠΎΠ»Π΅Π΅ ΡƒΠ΄ΠΎΠ±Π½ΠΎ.

ΠšΠ»Π°ΡΡΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ с-means β€” Ρ‚.Π½. Β«Π±Π°Π±ΠΎΡ‡ΠΊΠ°Β» (butterfly):

Как Π²ΠΈΠ΄Π½ΠΎ, Ρ‚ΠΎΡ‡ΠΊΠ° с ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°ΠΌΠΈ (3,2) Π² Ρ€Π°Π²Π½ΠΎΠΉ стСпСни ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ ΠΊΠ°ΠΊ ΠΏΠ΅Ρ€Π²ΠΎΠΌΡƒ Ρ‚Π°ΠΊ ΠΈ Π²Ρ‚ΠΎΡ€ΠΎΠΌΡƒ кластСру.

ΠžΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ Ρƒ с-means Ρ‚Π°ΠΊΠΈΠ΅ ΠΆΠ΅, ΠΊΠ°ΠΊ Ρƒ k-means, Π½ΠΎ ΠΎΠ½ΠΈ Π½ΠΈΠ²Π΅Π»ΠΈΡ€ΡƒΡŽΡ‚ΡΡ благодаря нСчСткости разбиСния.

Бсылки ΠΏΠΎ Ρ‚Π΅ΠΌΠ΅:
* Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ описаниС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΈ рСализация Π½Π° C#
* Fuzzy c-means clustering
* Fuzzy C-means cluster analysis

P.S. Π― Π½Π΅ описывал матСматичСскиС ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², с Π½ΠΈΠΌΠΈ Π»Π΅Π³ΠΊΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ·Π½Π°ΠΊΠΎΠΌΠΈΡ‚ΡŒΡΡ ΠΏΠΎ прСдставлСнным ссылкам.

Бпасибо за вниманиС!

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ кластСрного Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Ρ‚ΠΎ это Ρ‚Π°ΠΊΠΎΠ΅

Π”ΠΎΠ±Π°Π²Π»Π΅Π½ΠΎ Π² Π·Π°ΠΊΠ»Π°Π΄ΠΊΠΈ: 0

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π°Π½Π°Π»ΠΈΠ· кластСрный – ΠΎΠ΄ΠΈΠ½ ΠΈΠ· матСматичСских ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², Π·Π°ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‰ΠΈΠΉΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ кластСрами.

Π’ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ кластСрС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ схоТи, Π° ΠΌΠ΅ΠΆ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ кластСрами ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ явныС отличия. Главная Ρ†Π΅Π»ΡŒ, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π΄Π°Π½Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· прСслСдуСт – Π²Ρ‹ΡΠ²ΠΈΡ‚ΡŒ схоТиС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² исслСдуСмой Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅.

Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΡˆΠΈΡ€ΠΎΠΊΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² Ρ€Π°Π·Π½Ρ‹Ρ… областях чСловСчСского знания: Π² Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠΈ, психологии, ΠΌΠ΅Π΄ΠΈΡ†ΠΈΠ½Π΅, Ρ…ΠΈΠΌΠΈΠΈ, ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³Π΅, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ ΠΈ ΠΌΠ½ΠΎΠ³ΠΈΡ… Π΄Ρ€ΡƒΠ³ΠΈΡ… дисциплинах.

Рассмотрим, Π±ΠΎΠ»Π΅Π΅ Π΄Π΅Ρ‚Π°Π»ΡŒΠ½ΠΎ, Ρ‡Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚ Π°Π½Π°Π»ΠΈΠ· кластСрный. ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· (Π°Π½Π³Π». cluster analysis) β€” статистичСская многомСрная ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π°, которая выполняСт сбор Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ содСрТат ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Π²Ρ‹Π±ΠΎΡ€Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΈ ΠΏΠΎΡ‚ΠΎΠΌ ΡƒΠΏΠΎΡ€ΡΠ΄ΠΎΡ‡ΠΈΠ²Π°ΡŽΡ‰Π°Ρ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Π΅ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π³Ρ€ΡƒΠΏΠΏΡ‹. Π—Π°Π΄Π°Ρ‡Ρƒ кластСризации относят ΠΊ статистичСской ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΈ ΠΊ ΡˆΠΈΡ€ΠΎΠΊΠΎΠΌΡƒ классу Π·Π°Π΄Π°Ρ‡ обучСния Π±Π΅Π· учитСля.

Π‘ΠΎΠ»ΡŒΡˆΠ°Ρ Ρ‡Π°ΡΡ‚ΡŒ исслСдоватСлСй склоняСтся ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ «кластСрный Π°Π½Π°Π»ΠΈΠ·Β» (Π°Π½Π³Π». cluster β€” Π³Ρ€ΠΎΠ·Π΄ΡŒ, сгусток, ΠΏΡƒΡ‡ΠΎΠΊ) Π²ΠΏΠ΅Ρ€Π²Ρ‹Π΅ Π±Ρ‹Π» ΠΏΡ€Π΅Π΄Π»ΠΎΠΆΠ΅Π½ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΎΠΌ Π’Ρ€ΠΈΠΎΠ½ΠΎΠΌ Π . Π’ появился ряд Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ принято Π² настоящСС врСмя ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ синонимами Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° «кластСрный Π°Π½Π°Π»ΠΈΠ·Β»: ботриология, автоматичСская классификация.

Π‘ΠΏΠ΅ΠΊΡ‚Ρ€ использований кластСрного Π°Π½Π°Π»ΠΈΠ·Π° вСсьма ΡˆΠΈΡ€ΠΎΠΊ: Π΅Π³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ Π² ΠΌΠ΅Π΄ΠΈΡ†ΠΈΠ½Π΅, Π°Ρ€Ρ…Π΅ΠΎΠ»ΠΎΠ³ΠΈΠΈ, Ρ…ΠΈΠΌΠΈΠΈ, психологии, государствСнном ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠΈ, Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠΈ, Π°Π½Ρ‚Ρ€ΠΎΠΏΠΎΠ»ΠΎΠ³ΠΈΠΈ, Ρ„ΠΈΠ»ΠΎΠ»ΠΎΠ³ΠΈΠΈ, социологии, ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³Π΅ ΠΈ ΠΏΡ€ΠΎΡ‡ΠΈΡ… дисциплинах. Но ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ использования Π²Ρ‹Π·Π²Π°Π»Π° появлСниС большоС количСство нСсовмСстимых ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ², Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ², ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π·Π°Ρ‚Ρ€ΡƒΠ΄Π½ΡΡŽΡ‚ ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΈ Π½Π΅ΠΏΡ€ΠΎΡ‚ΠΈΠ²ΠΎΡ€Π΅Ρ‡ΠΈΠ²ΡƒΡŽ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΡŽ кластСрного Π°Π½Π°Π»ΠΈΠ·Π°.

Условия ΠΈ Π·Π°Π΄Π°Ρ‡ΠΈ

ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· исполняСт Ρ‚Π°ΠΊΠΈΠ΅ Π³Π»Π°Π²Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ:

  • Π˜Π·ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… схСм группирования ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².
  • Π Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° классификации ΠΈΠ»ΠΈ Ρ‚ΠΈΠΏΠΎΠ»ΠΎΠ³ΠΈΠΈ.
  • ΠŸΠΎΡ€ΠΎΠΆΠ΄Π΅Π½ΠΈΠ΅ Π³ΠΈΠΏΠΎΡ‚Π΅Π· Π½Π° основании исслСдования Π΄Π°Π½Π½Ρ‹Ρ….
  • ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° исслСдования ΠΈΠ»ΠΈ Π³ΠΈΠΏΠΎΡ‚Π΅Π· для опрСдСлСния, Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π»ΠΈ Π³Ρ€ΡƒΠΏΠΏΡ‹ (Ρ‚ΠΈΠΏΡ‹), Π²Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ ΠΊΠ°ΠΊΠΈΠΌ-Π»ΠΈΠ±ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ, Π΅ΡΡ‚ΡŒ Π² ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ Π΄Π°Π½Π½Ρ‹Ρ….

Π’Π½Π΅ зависимости ΠΎΡ‚ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π° изучСния использованиС кластСрного Π°Π½Π°Π»ΠΈΠ·Π° прСдусматриваСт ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ стадии:

  • ΠžΡ‚Π±ΠΎΡ€ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ для кластСризации. ΠŸΠΎΠ½ΠΈΠΌΠ°Π΅Ρ‚ΡΡ, Ρ‡Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ смысл ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ лишь количСствСнныС Π΄Π°Π½Π½Ρ‹Π΅.
  • ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ…, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ пространство.
  • ВычислСниС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ ΠΌΠ΅Ρ€Ρ‹ различия ΠΈΠ»ΠΈ сходства ΠΌΠ΅ΠΆ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ.
  • ИспользованиС способа кластСрного Π°Π½Π°Π»ΠΈΠ·Π° для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Π³Ρ€ΡƒΠΏΠΏΡ‹ сходных ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ².
  • ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° достовСрности ΠΈΡ‚ΠΎΠ³ΠΎΠ² кластСрного Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ.

МоТно Π²ΡΡ‚Ρ€Π΅Ρ‚ΠΈΡ‚ΡŒ описаниС Π΄Π²ΡƒΡ… Ρ„ΡƒΠ½Π΄Π°ΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€Π΅Π΄ΡŠΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΊ Π΄Π°Π½Π½Ρ‹ΠΌ β€” ΠΏΠΎΠ»Π½ΠΎΡ‚Π° ΠΈ ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΡΡ‚ΡŒ . ΠžΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½ΠΎΡΡ‚ΡŒ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚, Ρ‡Ρ‚ΠΎΠ±Ρ‹ всС кластСризуСмыС сущности Π±Ρ‹Π»ΠΈ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎΠΉ ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹, ΠΎΠΏΠΈΡΡ‹Π²Π°Ρ‚ΡŒΡΡ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π°Π±ΠΎΡ€ΠΎΠΌ свойств. Когда кластСрному Π°Π½Π°Π»ΠΈΠ·Ρƒ ΠΏΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²ΡƒΠ΅Ρ‚ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·, Ρ‚ΠΎ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π² Β«Ρ€Π΅ΠΌΠΎΠ½Ρ‚Π΅Β» Π½Π΅ нуТдаСтся β€” ΠΈΠ·Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Π΅ трСбования ΠΈΡΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ автоматичСски нСпосрСдствСнно ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€ΠΎΠΉ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ модСлирования (Π΅ΡΡ‚ΡŒ Π΅Ρ‰Ρ‘ ΠΎΠ΄Π½ΠΎ достоинство β€” z-стандартизация Π±Π΅Π· ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… послСдствий для Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ; Ссли Π΅Ρ‘ нСпосрСдствСнно ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ для кластСрного Π°Π½Π°Π»ΠΈΠ·Π°, ΠΎΠ½Π° ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π° собой ΠΏΠΎΠ²Π»Π΅Ρ‡ΡŒ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ чёткости раздСлСния Π³Ρ€ΡƒΠΏΠΏ). Π˜Π½Π°Ρ‡Π΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ.

Випология Π·Π°Π΄Π°Ρ‡ кластСризации

Π’ΠΈΠ΄Ρ‹ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…

  • ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ описаниС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΎΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ Π½Π°Π±ΠΎΡ€ΠΎΠΌ собствСнных характСристик, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌΠΈ. ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ нСчисловыми ΠΈΠ»ΠΈ числовыми.
  • ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° расстояний ΠΌΠ΅ΠΆ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΎΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ расстояниями Π΄ΠΎ всСх Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² мСтричСского пространства.
  • ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° сходства ΠΌΠ΅ΠΆ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. Π£Ρ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‚ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ сходства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° с ΠΏΡ€ΠΎΡ‡ΠΈΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π² мСтричСском пространствС. Бходство Ρ‚ΡƒΡ‚ дополняСт Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠ΅ (расстояниС) ΠΌΠ΅ΠΆ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ Π΄ΠΎ 1.

Π’ соврСмСнной Π½Π°ΡƒΠΊΠ΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ нСсколько Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ для Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Анализ ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ сравнСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², учитывая ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, (Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ распространённый Π² биологичСских Π½Π°ΡƒΠΊΠ°Ρ…) называСтся Q-Π²ΠΈΠ΄ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π°, Π° ΠΏΡ€ΠΈ сравнСнии ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Π½Π° основании ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² β€” R-Π²ΠΈΠ΄ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π°. Π•ΡΡ‚ΡŒ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ Ρ‚ΠΈΠΏΡ‹ Π°Π½Π°Π»ΠΈΠ·Π° (ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, RQ-Π°Π½Π°Π»ΠΈΠ·), Π½ΠΎ эта мСтодология Π΅Ρ‰Ρ‘ Π½Π΅ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° Π΄ΠΎΠ»ΠΆΠ½Ρ‹ΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

Π¦Π΅Π»ΠΈ кластСризации

  • ПониманиС Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ выявлСния кластСрной структуры. Π Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΡƒΠΏΡ€ΠΎΡΡ‚ΠΈΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² дальнСйшСм ΠΈ принятиС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ, ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ кластСру примСняя собствСнный ΠΌΠ΅Ρ‚ΠΎΠ΄ Π°Π½Π°Π»ΠΈΠ·Π° (стратСгия «раздСляй ΠΈ властвуй»).
  • Π‘ΠΆΠ°Ρ‚ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ…. Когда исходная Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° сильно большая, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Π΅Ρ‘ ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ, оставив ΠΎΡ‚ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ самому Ρ‚ΠΈΠΏΠΈΡ‡Π½ΠΎΠΌΡƒ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŽ.
  • ΠžΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Π½ΠΎΠ²ΠΈΠ·Π½Ρ‹ (Π°Π½Π³Π». novelty detection). Π’Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ Π½Π΅Ρ‚ΠΈΠΏΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ получаСтся Π½ΠΈ ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· кластСров ΠΏΡ€ΠΈΡΠΎΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ.

Число кластСров Π² ΠΏΠ΅Ρ€Π²ΠΎΠΌ случаС ΡΡ‚Π°Ρ€Π°ΡŽΡ‚ΡΡ Π΄Π΅Π»Π°Ρ‚ΡŒ помСньшС. Π’ΠΎ Π²Ρ‚ΠΎΡ€ΠΎΠΌ случаС Π±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΡ‚ΡŒ Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ сходства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΌ кластСрС, Π° кластСров ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ сколько ΡƒΠ³ΠΎΠ΄Π½ΠΎ. Наибольший интСрСс Π² Ρ‚Ρ€Π΅Ρ‚ΡŒΠ΅ΠΌ случаС ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ Π²ΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ΡΡ Π½ΠΈ Π² ΠΎΠ΄ΠΈΠ½ ΠΈΠ· кластСров.

Π’ΠΎ всСх Π΄Π°Π½Π½Ρ‹Ρ… ситуациях ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ иСрархичСская кластСризация, ΠΊΠΎΠ³Π΄Π° большиС кластСры дробят Π½Π° Π±ΠΎΠ»Π΅Π΅ ΠΌΠ΅Π»ΠΊΠΈΠ΅, Ρ‚Π΅ дробятся Π² свою ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ Π΅Ρ‰Ρ‘ ΠΌΠ΅Π»ΡŒΡ‡Π΅, ΠΈ Ρ‚Π°ΠΊ Π΄Π°Π»Π΅Π΅. Π’Π°ΠΊΠΈΠ΅ Π·Π°Π΄Π°Ρ‡ΠΈ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Π·Π°Π΄Π°Ρ‡Π°ΠΌΠΈ таксономии. Π˜Ρ‚ΠΎΠ³ таксономии β€” иСрархичСская дрСвообразная структура. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΏΡ€ΠΈ этом характСризуСтся пСрСчислСниСм кластСров, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΠΎΠ½ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚, ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½ΠΎΠ³ΠΎ ΠΊ ΠΌΠ΅Π»ΠΊΠΎΠΌΡƒ.

Бпособы кластСризации

ΠžΠ±Ρ‰Π΅ΠΏΡ€ΠΈΠ½ΡΡ‚ΠΎΠΉ классификации способов кластСризации Π½Π΅Ρ‚, ΠΎΠ΄Π½Π°ΠΊΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠ² (Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ способы Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ отнСсти сразу ΠΊ нСскольким Π³Ρ€ΡƒΠΏΠΏΠ°ΠΌ ΠΈ ΠΏΠΎΡ‚ΠΎΠΌΡƒ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ эту Ρ‚ΠΈΠΏΠΈΠ·Π°Ρ†ΠΈΡŽ Π² качСствС Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ приблиТСния ΠΊ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ классификации способов кластСризации):

  1. ВСроятностный ΠΏΠΎΠ΄Ρ…ΠΎΠ΄. ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ рассматриваСмый ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ относят ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΈΠ· k классов. НСкоторыС Π°Π²Ρ‚ΠΎΡ€Ρ‹ (ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, А. Π˜. ΠžΡ€Π»ΠΎΠ²) ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚, Ρ‡Ρ‚ΠΎ эта Π³Ρ€ΡƒΠΏΠΏΠ° совсСм Π½Π΅ относится ΠΊ кластСризации ΠΈ ΠΏΡ€ΠΎΡ‚ΠΈΠ²ΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π΅Ρ‘ «дискриминации», Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€Ρƒ отнСсСния ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΊ ΠΎΠ΄Π½ΠΎΠΉ извСстной Π³Ρ€ΡƒΠΏΠΏΠ΅ (ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΌ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ°ΠΌ).
    • Дискриминантный Π°Π½Π°Π»ΠΈΠ·
    • K-medians
    • K-срСдних (K-means)
    • Алгоритмы сСмСйства FOREL
    • EM-Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ
  2. ΠŸΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ Π½Π° основании систСм искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π°: условная Π³Ρ€ΡƒΠΏΠΏΠ°, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ способов вСсьма ΠΌΠ½ΠΎΠ³ΠΎ ΠΈ ΠΎΠ½ΠΈ вСсьма Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ мСтодичСски.
    • ГСнСтичСский Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ
    • НСйронная ΡΠ΅Ρ‚ΡŒ ΠšΠΎΡ…ΠΎΠ½Π΅Π½Π°
    • ΠœΠ΅Ρ‚ΠΎΠ΄ Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ кластСризации C-срСдних
  3. ЛогичСский ΠΏΠΎΠ΄Ρ…ΠΎΠ΄. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ Π΄Π΅Π½Π΄Ρ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ производится ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ Π΄Π΅Ρ€Π΅Π²Π° Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ.
  4. Π’Π΅ΠΎΡ€Π΅Ρ‚ΠΈΠΊΠΎ-Π³Ρ€Π°Ρ„ΠΎΠ²Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄.
    • Π“Ρ€Π°Ρ„ΠΎΠ²Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ кластСризации
  5. Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄. ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Π²Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Π³Ρ€ΡƒΠΏΠΏ (кластСров Ρ€Π°Π·Π½ΠΎΠ³ΠΎ порядка). Π’ свою ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‚ΡΡ Π½Π° ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ (Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅) ΠΈ Ρ€Π°Π·Π΄Π΅Π»ΡΡŽΡ‰ΠΈΠ΅ (Π΄ΠΈΠ²ΠΈΠ·ΠΈΠ²Π½Ρ‹Π΅). По числу ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΏΠΎΡ€ΠΎΠΉ Π²Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ политСтичСскиС ΠΈ монотСтичСскиС способы классификации.
    • Ваксономия ΠΈΠ»ΠΈ дивизивная иСрархичСская кластСризация. Π—Π°Π΄Π°Ρ‡ΠΈ кластСризации Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ Π² числовой таксономии.
  6. ΠŸΡ€ΠΎΡ‡ΠΈΠ΅ способы, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ вошли Π² ΠΏΡ€ΠΎΡˆΠ»Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹.
    • Ансамбль кластСризаторов
    • БтатистичСскиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ кластСризации
    • Алгоритм, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ основан Π½Π° способС просСивания
    • Алгоритмы сСмСйства KRAB
    • DBSCAN ΠΈ Π΄Ρ€.

ΠŸΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ 4 ΠΈ 5 ΠΏΠΎΡ€ΠΎΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ гСомСтричСского ΠΈΠ»ΠΈ структурного ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±Π»Π°Π΄Π°Π΅Ρ‚ большСй Ρ„ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½ΠΎΡΡ‚ΡŒΡŽ понятия близости. НСвзирая Π½Π° большиС различия ΠΌΠ΅ΠΆ пСрСчислСнными способами всС ΠΎΠ½ΠΈ ΠΎΠΏΠΈΡ€Π°ΡŽΡ‚ΡΡ Π½Π° Π½Π°Ρ‡Π°Π»ΡŒΠ½ΡƒΡŽ Β«Π³ΠΈΠΏΠΎΡ‚Π΅Π·Ρƒ компактности»: Π² пространствС ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² всС Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ относятся ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру, Π° всС Ρ€Π°Π·Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ соотвСтствСнно Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ Π² Ρ€Π°Π·Π½Ρ‹Ρ… кластСрах.

Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Π°Ρ постановка Π·Π°Π΄Π°Ρ‡ΠΈ кластСризации

ΠŸΡƒΡΡ‚ΡŒ Ρ…  β€” мноТСство ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², Π½ΠΎΠΌΠ΅Ρ€ΠΎΠ² (ΠΌΠ΅Ρ‚ΠΎΠΊ, ΠΈΠΌΡ‘Π½) кластСров. Π—Π°Π΄Π°Π½Π° функция расстояния ΠΌΠ΅ΠΆ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ. Π•ΡΡ‚ΡŒ конСчная ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². НСобходимо Ρ€Π°Π·Π±ΠΈΡ‚ΡŒ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ Π½Π° Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ подмноТСства, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ кластСрами, Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ кластСр Π²ΠΊΠ»ΡŽΡ‡Π°Π» Π² сСбя ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, Π±Π»ΠΈΠ·ΠΊΠΈΠ΅ ΠΏΠΎ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ΅, Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… кластСров Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΡ‚Π»ΠΈΡ‡Π°Π»ΠΈΡΡŒ. ΠšΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ ΠΏΡ€ΠΈ этом ΠΏΡ€ΠΈΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ Π½ΠΎΠΌΠ΅Ρ€ кластСра.

Алгоритм кластСризации β€” функция, которая ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ Π² соотвСтствиС ставит Π½ΠΎΠΌΠ΅Ρ€ кластСра. ΠœΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случаях Π·Π°Ρ€Π°Π½Π΅Π΅ извСстно, Π½ΠΎ Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ ставится Π·Π°Π΄Π°Ρ‡Π° ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ количСство кластСров, с Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ критСрия качСства кластСризации.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ (ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π±Π΅Π· учитСля) ΠΎΡ‚ классификации (обучСния с ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ) отличаСтся Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΊΠΈ исходных ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π²Π½Π°Ρ‡Π°Π»Π΅ Π½Π΅ Π·Π°Π΄Π°Π½Ρ‹, ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π΄Π°ΠΆΠ΅ нСизвСстно нСпосрСдствСнно мноТСство .

РСшСниС Π·Π°Π΄Π°Ρ‡ΠΈ кластСризации Π½Π΅ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½ΠΎ, ΠΈ Ρ‚ΠΎΠΌΡƒ Π΅ΡΡ‚ΡŒ нСсколько ΠΏΡ€ΠΈΡ‡ΠΈΠ½ (ΠΊΠ°ΠΊ ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅):

  • Π½Π΅ сущСствуСт ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½ΠΎ Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ критСрия качСства кластСризации. Π˜Π·Π²Π΅ΡΡ‚Π΅Π½ ряд эвристичСских ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π² ΠΈ ряд Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Π½ΠΎΠ³ΠΎ Ρ‡Ρ‘Ρ‚ΠΊΠΎ критСрия, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΎΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΡŽΡ‰ΠΈΡ… довольно Ρ€Π°Π·ΡƒΠΌΠ½ΡƒΡŽ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Β«ΠΏΠΎ ΠΏΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΡŽΒ». ВсС ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π΄Π°Ρ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹. Π‘Π»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, для Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ качСство кластСризации Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌ экспСрт ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ смоТСт ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ ΠΎΡΠΌΡ‹ΡΠ»Π΅Π½Π½ΠΎΡΡ‚ΡŒ процСсса выдСлСния кластСров.
  • количСство кластСров ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Π·Π°Ρ€Π°Π½Π΅Π΅ нСизвСстно ΠΈ устанавливаСтся соотвСтствСнно с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌΠΈ критСриями. Π­Ρ‚ΠΎ справСдливо лишь для способов дискриминации, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π² способах кластСризации Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ кластСров происходит Π·Π° счёт Ρ„ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° Π½Π° основании ΠΌΠ΅Ρ€ близости.
  • Π˜Ρ‚ΠΎΠ³ кластСризации Π² Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ стСпСни зависит ΠΎΡ‚ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ, Π²Ρ‹Π±ΠΎΡ€ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚ΠΈΠ²Π΅Π½ ΠΈ Π΅Π³ΠΎ опрСдСляСт экспСрт. Но Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΊ Π²Ρ‹Π±ΠΎΡ€Ρƒ ΠΌΠ΅Ρ€ близости для Ρ€Π°Π·Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡.

ИспользованиС

Π’ Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠΈ

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π² Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π² самых Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… областях. К ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, Π² Π±ΠΈΠΎΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΏΡ€ΠΈ Π΅Π΅ ΠΏΠΎΠΌΠΎΡ‰ΠΈ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ΡΡ слоТныС сСти Π²Π·Π°ΠΈΠΌΠΎΠ΄Π΅ΠΉΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π³Π΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ состоят ΠΏΠΎΡ€ΠΎΠΉ ΠΈΠ· тысяч элСмСнтов. ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ ΡƒΠ·ΠΊΠΈΠ΅ мСста, подсСти, ΠΊΠΎΠ½Ρ†Π΅Π½Ρ‚Ρ€Π°Ρ‚ΠΎΡ€Ρ‹ ΠΈ ΠΏΡ€ΠΎΡ‡ΠΈΠ΅ скрытыС свойства ΠΈΠ·ΡƒΡ‡Π°Π΅ΠΌΠΎΠΉ систСмы, Ρ‡Ρ‚ΠΎ Π² ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠΌ счСтС Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΡƒΠ·Π½Π°Ρ‚ΡŒ Π²ΠΊΠ»Π°Π΄ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π³Π΅Π½Π° Π² ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΠ·ΡƒΡ‡Π°Π΅ΠΌΠΎΠ³ΠΎ Ρ„Π΅Π½ΠΎΠΌΠ΅Π½Π°.

Π’ сфСрС экологии ΡˆΠΈΡ€ΠΎΠΊΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ для выдСлСния ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Ρ… пространствСнно Π³Ρ€ΡƒΠΏΠΏ сообщСств, ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΌΠΎΠ² ΠΈ Ρ‚Π°ΠΊ Π΄Π°Π»Π΅Π΅. Π Π΅ΠΆΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ кластСрного Π°Π½Π°Π»ΠΈΠ·Π° ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ для исслСдования Π²ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ сообщСств. Π“Π΅Ρ‚Π΅Ρ€ΠΎΠ³Π΅Π½Π½ΠΎΡΡ‚ΡŒ структуры сообщСств Π²Ρ‹Π·Ρ‹Π²Π°Π΅Ρ‚ появлСниС Π½Π΅Ρ‚Ρ€ΠΈΠ²ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² кластСрного Π°Π½Π°Π»ΠΈΠ·Π° (ΠΊ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρƒ, ΠΌΠ΅Ρ‚ΠΎΠ΄ ЧСкановского).

Π’ ΠΎΠ±Ρ‰Π΅ΠΌ, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ историчСски Ρ‚Π°ΠΊ слоТилось, Ρ‡Ρ‚ΠΎ Π² Π±ΠΈΠΎΠ»ΠΎΠ³ΠΈΠΈ Π² качСствС ΠΌΠ΅Ρ€ близости Ρ‡Π°Ρ‰Π΅ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ€Ρ‹ сходства, Π° Π½Π΅ расстояния (различия).

Π’ социологии

Анализируя Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ социологичСских исслСдований совСтуСтся ΠΎΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΡ‚ΡŒ Π°Π½Π°Π»ΠΈΠ· способами Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠ³ΠΎ иСрархичСского сСмСйства, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ способом Π£ΠΎΡ€Π΄Π°, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π² кластСрах ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ Π΄ΠΈΡΠΏΠ΅Ρ€ΡΠΈΡŽ, Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΡΠΎΠ·Π΄Π°ΡŽΡ‚ΡΡ кластСры ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹Ρ… Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠ². Бпособ Π£ΠΎΡ€Π΄Π° Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΡƒΠ΄Π°Ρ‡Π½Ρ‹ΠΌ являСтся для Π°Π½Π°Π»ΠΈΠ·Π° социологичСских Π΄Π°Π½Π½Ρ‹Ρ…. Как ΠΌΠ΅Ρ€Π° отличия Π»ΡƒΡ‡ΡˆΠ΅ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠ΅ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ Π΄Π°Π΅Ρ‚ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ ΠΊΠΎΠ½Ρ‚Ρ€Π°ΡΡ‚Π½ΠΎΡΡ‚ΡŒ кластСров. Π“Π»Π°Π²Π½Ρ‹ΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ иСрархичСского кластСрного Π°Π½Π°Π»ΠΈΠ·Π° являСтся Β«ΡΠΎΡΡƒΠ»ΡŒΡ‡Π°Ρ‚Π°Ρ Π΄ΠΈΠ°Π³Ρ€Π°ΠΌΠΌΠ°Β» ΠΈΠ»ΠΈ Π΄Π΅Π½Π΄Ρ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°. Π˜ΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΠΈ ΠΏΡ€ΠΈ Π΅Ρ‘ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°ΡŽΡ‚ΡΡ с ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½ΠΎΠ³ΠΎ Ρ€ΠΎΠ΄Π°, Ρ‡Ρ‚ΠΎ ΠΈ Ρ‚ΠΎΠ»ΠΊΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΡ‚ΠΎΠ³ΠΎΠ² Ρ„Π°ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° β€” отсутствиС ΠΎΠ΄Π½ΠΎΠ·Π½Π°Ρ‡Π½Ρ‹Ρ… ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π² для выдСлСния кластСров. Как Π³Π»Π°Π²Π½Ρ‹Π΅, рСкомСндуСтся ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ Π΄Π²Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° β€” Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π΅Π½Π΄Ρ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ ΠΈ сравнСниС ΠΈΡ‚ΠΎΠ³ΠΎΠ² кластСризации, которая Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½Π° Ρ€Π°Π·Π½Ρ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ.

Π’ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π΅Π½Π΄Ρ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ прСдусматриваСт Β«ΠΎΠ±Ρ€Π΅Π·Π°Π½ΠΈΠ΅Β» Π΄Π΅Ρ€Π΅Π²Π° Π½Π° ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅ сходства элСмСнтов Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. Β«Π’ΠΈΠ½ΠΎΠ³Ρ€Π°Π΄Π½ΡƒΡŽ Π²Π΅Ρ‚Π²ΡŒΒ» (тСрминология ΠžΠ»Π΄Π΅Π½Π΄Π΅Ρ€Ρ„Π΅Ρ€Π° М. Π‘. ΠΈ Π‘Π»ΡΡˆΡ„ΠΈΠ»Π΄Π° Π . К.) цСлСсообразно Β«ΠΎΠ±Ρ€Π΅Π·Π°Ρ‚ΡŒΒ» Π½Π° ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΊΠ΅ 5 ΡˆΠΊΠ°Π»Ρ‹ Rescaled Distance Cluster Combine, Ρ‚ΠΎΠ³Π΄Π° Π±ΡƒΠ΄Π΅Ρ‚ достигнут 80 % ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ сходства. Когда Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ кластСров ΠΏΠΎ Π΄Π°Π½Π½ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΊΠ΅ затрудняСтся (Π½Π° Π½Π΅ΠΉ происходит слияниС Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΌΠ°Π»Π΅Π½ΡŒΠΊΠΈΡ… кластСров Π² ΠΎΠ΄ΠΈΠ½ большой), Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Π΄Ρ€ΡƒΠ³ΡƒΡŽ ΠΌΠ΅Ρ‚ΠΊΡƒ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ. Π’Π°ΠΊΡƒΡŽ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΡƒ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠžΠ»Π΄Π΅Π½Π΄Π΅Ρ€Ρ„Π΅Ρ€ ΠΈ Π‘Π»ΡΡˆΡ„ΠΈΠ»Π΄.

Π’ΠΎΠ³Π΄Π° появляСтся вопрос устойчивости принятого кластСрного Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. По сути, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ устойчивости кластСризации сводят ΠΊ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ΅ Π΅Ρ‘ достовСрности. Π’ΡƒΡ‚ Π΅ΡΡ‚ΡŒ эмпиричСскоС ΠΏΡ€Π°Π²ΠΈΠ»ΠΎ β€” устойчивая типология сбСрСгаСтся ΠΏΡ€ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΈ способов кластСризации. Π˜Ρ‚ΠΎΠ³ΠΈ кластСрного иСрархичСскогоанализа Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΡΡ‚ΡŒ кластСрным ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΌ Π°Π½Π°Π»ΠΈΠ·ΠΎΠΌ ΠΏΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ k-срСдних. Когда сравниваСмыС классификации Π³Ρ€ΡƒΠΏΠΏ рСспондСнтов ΠΈΠΌΠ΅ΡŽΡ‚ долю совпадСний большС 70 % (большС 2/3 совпадСний), кластСрноС Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°ΡŽΡ‚.

ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ Π°Π΄Π΅ΠΊΠ²Π°Ρ‚Π½ΠΎΡΡ‚ΡŒ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ, Π½Π΅ вызывая ΠΏΠΎΠΌΠΎΡ‰ΡŒ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ Ρ‚ΠΈΠΏΠ° Π°Π½Π°Π»ΠΈΠ·Π°, нСльзя. Π’ тСорСтичСском ΠΏΠ»Π°Π½Π΅, ΠΏΠΎ ΠΊΡ€Π°ΠΉΠ½Π΅ΠΉ ΠΌΠ΅Ρ€Π΅, данная ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π½Π΅ Ρ€Π΅ΡˆΠ΅Π½Π°. Π’ классичСской Ρ€Π°Π±ΠΎΡ‚Π΅ Π‘Π»ΡΡˆΡ„ΠΈΠ»Π΄Π° ΠΈ ΠžΠ»Π΄Π΅Π½Π΄Π΅Ρ€Ρ„Π΅Ρ€Π° Β«ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ·Β» Π΄Π΅Ρ‚Π°Π»ΡŒΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°ΡŽΡ‚ΡΡ ΠΈ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΎΡ‚Π²Π΅Ρ€Π³Π°ΡŽΡ‚ΡΡ Π΄ΠΎΠ±Π°Π²ΠΎΡ‡Π½Ρ‹Π΅ ΠΏΡΡ‚ΡŒ способов ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ устойчивости:

  1. ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠœΠΎΠ½Ρ‚Π΅-ΠšΠ°Ρ€Π»ΠΎ вСсьма слоТны ΠΈ доступны лишь ΠΎΠΏΡ‹Ρ‚Π½Ρ‹ΠΌ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ°ΠΌ;
  2. тСсты значимости (диспСрсионный Π°Π½Π°Π»ΠΈΠ·) β€” Π΄Π°ΡŽΡ‚ всСгда Π·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚;
  3. кофСнСтичСская коррСляция β€” Π½Π΅ совСтуСтся ΠΈ Π² использовании ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Π°;
  4. тСсты значимости для Π²Π½Π΅ΡˆΠ½ΠΈΡ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΠΏΡ€ΠΈΠ³ΠΎΠ΄Π½Ρ‹ΠΌΠΈ лишь для ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ;
  5. ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° случайных (ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Ρ…) Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ, Ρ‡Ρ‚ΠΎ всё-Ρ‚Π°ΠΊΠΈ Π½Π΅ Π΄ΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ ΠΎΠ±ΠΎΡΠ½ΠΎΠ²Π°Π½Π½ΠΎΡΡ‚ΡŒ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ.

Π’ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠΊΠ΅

  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΡ‚ΠΎΠ³ΠΎΠ² поиска β€” примСняСтся для Β«ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉΒ» Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΈΡ‚ΠΎΠ³ΠΎΠ² ΠΏΡ€ΠΈ поискС Π²Π΅Π±-сайтов, Ρ„Π°ΠΉΠ»ΠΎΠ², ΠΏΡ€ΠΎΡ‡ΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², прСдоставляя ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ для быстрой Π½Π°Π²ΠΈΠ³Π°Ρ†ΠΈΠΈ, ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ Π·Π°Π²Π΅Π΄ΠΎΠΌΠΎ ΠΌΠ΅Π½Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΠ³ΠΎ подмноТСства ΠΈ Π²Ρ‹Π±ΠΎΡ€Π° Π±ΠΎΠ»Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΠ³ΠΎ β€” Ρ‡Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ ΡŽΠ·Π°Π±ΠΈΠ»ΠΈΡ‚ΠΈ интСрфСйса Π² сравнСнии с Π²Ρ‹Π²ΠΎΠ΄ΠΎΠΌ Π² Π²ΠΈΠ΄Π΅ простого списка, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ сортируСтся ΠΏΠΎ рСлСвантности.
    • Clusty β€” поисковая ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‰Π°Ρ машина ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ VivΓ­simo
    • Nigma β€” поисковая российская систСма с автоматичСской кластСризациСй ΠΈΡ‚ΠΎΠ³ΠΎΠ²
    • Quintura β€” Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ кластСризация, ΠΊΠ°ΠΊ ΠΎΠ±Π»Π°ΠΊΠ° ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов
  • БСгмСнтация ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ β€” ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для разбиСния Ρ†ΠΈΡ„Ρ€ΠΎΠ²ΠΎΠ³ΠΎ изобраТСния Π½Π° ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ области для распознавания ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈ обнаруТСния Π³Ρ€Π°Π½ΠΈΡ†.
  • Π˜Π½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… β€” кластСризация Π² Data Mining ΠΈΠΌΠ΅Π΅Ρ‚ Ρ†Π΅Π½Π½ΠΎΡΡ‚ΡŒ Ρ‚ΠΎΠ³Π΄Π°, ΠΊΠΎΠ³Π΄Π° ΠΎΠ½Π° выступаСт ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· стадий Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, построСния Π·Π°Π²Π΅Ρ€ΡˆΠΈΠ²ΡˆΠ΅Π³ΠΎΡΡ аналитичСского Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. Аналитику Π·Π°Ρ‡Π°ΡΡ‚ΡƒΡŽ Π»Π΅Π³Ρ‡Π΅ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΈΡ… особСнности ΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΡƒΡŽ модСль, Π½Π΅ΠΆΠ΅Π»ΠΈ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ для всСх Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ΄Π½Ρƒ ΠΎΠ±Ρ‰ΡƒΡŽ модСль. Π’Π°ΠΊΠΈΠΌ ΠΏΡ€ΠΈΠ΅ΠΌΠΎΠΌ ΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ постоянно Π² ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³Π΅, выдСляя Π³Ρ€ΡƒΠΏΠΏΡ‹ Ρ‚ΠΎΠ²Π°Ρ€ΠΎΠ², ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»Π΅ΠΉ, ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ разрабатывая ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΡƒΡŽ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· Π½ΠΈΡ….

ΠœΡ‹ надССмся, Ρ‡Ρ‚ΠΎ Π΄Π°Π»ΠΈ Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ»Π½ΠΎΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΈ понятиС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π° Π°Π½Π°Π»ΠΈΠ· кластСрный, раскрыли Π΅Π³ΠΎ использованиС. ΠžΡΡ‚Π°Π²Π»ΡΠΉΡ‚Π΅ свои ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΈ ΠΈΠ»ΠΈ дополнСния ΠΊ ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Ρƒ

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация Π² Data Mining?

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ β€” это Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠ° ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° основС ΠΈΡ… характСристик, Π°Π³Ρ€Π΅Π³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΡ… Π² соотвСтствии с ΠΈΡ… сходством. Π§Ρ‚ΠΎ касаСтся ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, эта мСтодология раздСляСт Π΄Π°Π½Π½Ρ‹Π΅ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° соСдинСния, Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ подходящСго для Π°Π½Π°Π»ΠΈΠ·Π° Ρ‚Ρ€Π΅Π±ΡƒΠ΅ΠΌΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ.

Π­Ρ‚ΠΎΡ‚ кластСризационный Π°Π½Π°Π»ΠΈΠ· позволяСт ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ Π½Π΅ Π±Ρ‹Ρ‚ΡŒ Ρ‡Π°ΡΡ‚ΡŒΡŽ кластСра ΠΈΠ»ΠΈ строго ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ Π΅ΠΌΡƒ, вызывая этот Ρ‚ΠΈΠΏ Π³Ρ€ΡƒΠΏΠΏΠΎΠ²ΠΎΠ³ΠΎ ТСсткого раздСлСния.Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, мягкоС Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ стСпСни ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ кластСру. Π‘ΠΎΠ»Π΅Π΅ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Π΅ подраздСлСния ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ для создания ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΡ… нСскольким кластСрам, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π·Π°ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΡƒΡ‡Π°ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² ΠΎΠ΄Π½ΠΎΠΌ кластСрС ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ иСрархичСскиС Π΄Π΅Ρ€Π΅Π²ΡŒΡ Π½Π° Π³Ρ€ΡƒΠΏΠΏΠΎΠ²Ρ‹Ρ… ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡΡ….

БущСствуСт нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… способов Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ этого раздСлСния Π½Π° основС Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π Π°Π·Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, диффСрСнцируя Π΅Π΅ свойства ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.Π­Ρ‚ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ своСй ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ ΠΈ Ρ‚ΠΈΠΏΠΎΠΌ ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ. НаиболСС Π²Π°ΠΆΠ½Ρ‹ΠΌΠΈ ΠΈΠ· Π½ΠΈΡ… ΡΠ²Π»ΡΡŽΡ‚ΡΡ:

β€” Ρ†Π΅Π½Ρ‚Ρ€Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ β€” ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ кластСр прСдставлСн ΠΎΠ΄Π½ΠΈΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½Ρ‹ΠΌ срСдним, ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° сравниваСтся с этими срСдними значСниями
β€” распрСдСлСнный β€” кластСр построСн с использованиСм статистичСских распрСдСлСний
β€” ΠΏΠΎΠ΄ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ β€” ΠΎΠ½ связан Π² этих модСлях Π½Π° основС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ элСмСнтами
β€” Π³Ρ€ΡƒΠΏΠΏΠ° β€” Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΠΈΠΌΠ΅ΡŽΡ‚ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π³Ρ€ΡƒΠΏΠΏΠΎΠ²ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ
β€” Π³Ρ€Π°Ρ„ΠΈΠΊ β€” организация кластСра ΠΈ взаимосвязь ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‡Π»Π΅Π½Π°ΠΌΠΈ опрСдСляСтся структурой, связанной с Π³Ρ€Π°Ρ„ΠΎΠΌ
β€” ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ β€” Ρ‡Π»Π΅Π½Ρ‹ кластСра сгруппированы ΠΏΠΎ Ρ€Π΅Π³ΠΈΠΎΠ½Π°ΠΌ, Π³Π΄Π΅ наблюдСния ΠΏΠ»ΠΎΡ‚Π½Ρ‹ ΠΈ схоТи.

Алгоритмы кластСризации Π² ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π΅ Π΄Π°Π½Π½Ρ‹Ρ…

На основС Π½Π΅Π΄Π°Π²Π½ΠΎ описанных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ кластСров сущСствуСт ΠΌΠ½ΠΎΠ³ΠΎ кластСров, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ ΠΊ Π½Π°Π±ΠΎΡ€Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² порядкС: Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ.Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ ΠΊΡ€Π°Ρ‚ΠΊΠΎ опишСм Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Π΅ ΠΈΠ· Π½ΠΈΡ…. Π’Π°ΠΆΠ½ΠΎ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΈΠΌΠ΅Π΅Ρ‚ свои прСимущСства ΠΈ нСдостатки. Π’Ρ‹Π±ΠΎΡ€ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° всСгда Π±ΡƒΠ΄Π΅Ρ‚ Π·Π°Π²ΠΈΡΠ΅Ρ‚ΡŒ ΠΎΡ‚ характСристик Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ с Π½ΠΈΠΌ Π΄Π΅Π»Π°Ρ‚ΡŒ.

На базС Centroid

Π’ этом ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ Ρ‚ΠΈΠΏΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π²Π΅ΠΊΡ‚ΠΎΡ€ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ являСтся Ρ‡Π°ΡΡ‚ΡŒΡŽ кластСра, Ρ€Π°Π·Π½ΠΈΡ†Π° Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ минимальна ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ кластСрами. ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ кластСров Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π±Ρ‹Ρ‚ΡŒ Π·Π°Ρ€Π°Π½Π΅Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΎ, ΠΈ это самая большая ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ€ΠΎΠ΄Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ².Π­Ρ‚Π° мСтодология Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π±Π»ΠΈΠ·ΠΊΠ° ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Ρƒ классификации ΠΈ ΡˆΠΈΡ€ΠΎΠΊΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для Π·Π°Π΄Π°Ρ‡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ.

РаспрСдСлСнная Π½Π° основС

ΠžΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… статистичСских ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, распрСдСлСнная мСтодология ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹, значСния ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ ΠΎΠ΄Π½ΠΎΠΌΡƒ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΡŽ. Из-Π·Π° своСй случайной ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ этот процСсс нуТдаСтся Π² Ρ‡Π΅Ρ‚ΠΊΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΉ ΠΈ слоТной ΠΌΠΎΠ΄Π΅Π»ΠΈ для Π»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ взаимодСйствия с Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ. Π’Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, эти процСссы ΠΌΠΎΠ³ΡƒΡ‚ Π΄ΠΎΡΡ‚ΠΈΡ‡ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΈ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ коррСляции ΠΈ зависимости.

На основС ΠΏΠΎΠ΄ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ

Π’ этом Ρ‚ΠΈΠΏΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ связан со своими сосСдями, Π² зависимости ΠΎΡ‚ стСпСни этого ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡ Π½Π° расстоянии ΠΌΠ΅ΠΆΠ΄Ρƒ Π½ΠΈΠΌΠΈ. Π˜ΡΡ…ΠΎΠ΄Ρ ΠΈΠ· этого прСдполоТСния, кластСры ΡΠΎΠ·Π΄Π°ΡŽΡ‚ΡΡ с Π±Π»ΠΈΠ·Π»Π΅ΠΆΠ°Ρ‰ΠΈΠΌΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ описаны ΠΊΠ°ΠΊ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠ΅ максимального расстояния. Π‘ этими ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡΠΌΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‡Π»Π΅Π½Π°ΠΌΠΈ, эти кластСры ΠΈΠΌΠ΅ΡŽΡ‚ иСрархичСскиС прСдставлСния. Ѐункция расстояния зависит ΠΎΡ‚ Ρ†Π΅Π»Π΅ΠΉ Π°Π½Π°Π»ΠΈΠ·Π°.

ΠŸΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒ Π½Π° основС

Π­Ρ‚ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ ΡΠΎΠ·Π΄Π°ΡŽΡ‚ кластСры Π² соотвСтствии с высокой ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ Ρ‡Π»Π΅Π½ΠΎΠ² Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌ мСстС.Он ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ понятиС расстояния Π΄ΠΎ стандартного уровня плотности для Ρ‡Π»Π΅Π½ΠΎΠ² Π³Ρ€ΡƒΠΏΠΏΡ‹ Π² кластСрах. ΠŸΡ€ΠΎΡ†Π΅ΡΡΡ‹ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ‚ΠΈΠΏΠ° ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΌΠ΅Π½ΡŒΡˆΡƒΡŽ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΏΡ€ΠΈ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠΈ ΠΏΡ€Π΅Π΄Π΅Π»ΡŒΠ½Ρ‹Ρ… областСй Π³Ρ€ΡƒΠΏΠΏΡ‹.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½Ρ‹ΠΉ Π°Π½Π°Π»ΠΈΠ· основныС прилоТСния

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ это ΠΎΡ‡Π΅Π½ΡŒ Ρ†Π΅Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΠ½ ΠΈΠΌΠ΅Π΅Ρ‚ нСсколько Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π² ΠΌΠΈΡ€Π΅ Π½Π°ΡƒΠΊ. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ большой Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Π½ этим Π²ΠΈΠ΄ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π°, Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ с мноТСством Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ….

Одно ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ связано с ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΎΠΉ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ. ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄ΠΎΠ² рисунка Π² Π΄Π°Π½Π½Ρ‹Ρ… изобраТСния. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‡Π΅Π½ΡŒ эффСктивным Π² биологичСских исслСдованиях, Ρ€Π°Π·Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈ выявлСнии закономСрностСй. Π”Ρ€ΡƒΠ³ΠΎΠ΅ использованиС β€” классификация мСдицинских экзамСнов.

ΠŸΠ΅Ρ€ΡΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π² сочСтании с ΠΏΠΎΠΊΡƒΠΏΠΊΠ°ΠΌΠΈ, мСстополоТСниСм, интСрСсами, дСйствиями ΠΈ бСсконСчным количСством ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Ρ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ этой ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ»ΠΎΠ³ΠΈΠΈ, прСдоставляя ΠΎΡ‡Π΅Π½ΡŒ Π²Π°ΠΆΠ½ΡƒΡŽ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΈ Ρ‚Π΅Π½Π΄Π΅Π½Ρ†ΠΈΠΈ. ΠŸΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ этого ΡΠ²Π»ΡΡŽΡ‚ΡΡ исслСдования Ρ€Ρ‹Π½ΠΊΠ°, ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΈΠ½Π³ΠΎΠ²Ρ‹Π΅ стратСгии, Π²Π΅Π±-Π°Π½Π°Π»ΠΈΡ‚ΠΈΠΊΠ° ΠΈ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ Π΄Ρ€ΡƒΠ³ΠΈΠ΅.

Π”Ρ€ΡƒΠ³ΠΈΠ΅ Ρ‚ΠΈΠΏΡ‹ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, основанныС Π½Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… кластСризации, β€” это климатология, Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΡ‚Π΅Ρ…Π½ΠΈΠΊΠ°, Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ систСмы, матСматичСский ΠΈ статистичСский Π°Π½Π°Π»ΠΈΠ·, ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΠ²Π°ΡŽΡ‰ΠΈΠ΅ ΡˆΠΈΡ€ΠΎΠΊΠΈΠΉ спСктр использования.

Π­Ρ‚Π° ΡΡ‚Π°Ρ‚ΡŒΡ ΠΏΠ΅Ρ€Π²ΠΎΠ½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ появилась здСсь. ΠŸΠ΅Ρ€Π΅ΠΈΠ·Π΄Π°Π½ΠΎ с Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ. ΠŸΠΎΠ΄Π°Π²Π°ΠΉΡ‚Π΅ ΠΆΠ°Π»ΠΎΠ±Ρ‹ Π½Π° Π½Π°Ρ€ΡƒΡˆΠ΅Π½ΠΈΠ΅ авторских ΠΏΡ€Π°Π² здСсь.

.ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ
Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ β€” Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΡƒΡ‡Π΅Π½Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚

Π–Π΅Π»Π°Π΅Ρ‚Π΅ Π»ΠΈ Π²Ρ‹ ΠΏΡ€ΠΎΠ΄Π²ΠΈΠ³Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Ρ‹ своСго ΠΊΠ»ΠΈΠ΅Π½Ρ‚Π° Π»ΡƒΡ‡ΡˆΠ΅ для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ Π°ΡƒΠ΄ΠΈΡ‚ΠΎΡ€ΠΈΠΈ? Если Π΄Π°, Ρ‚ΠΎ кластСризация для вас. Π― имСю Π² Π²ΠΈΠ΄Ρƒ, Ρ‡Ρ‚ΠΎ Π²Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ Π»ΡƒΡ‡ΡˆΠ΅ ΠΏΠΎΠ½ΡΡ‚ΡŒ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΡŽ обучСния Π±Π΅Π· контроля ΠΈ кластСризации Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ. Π§Ρ‚ΠΎ это Π»ΡƒΡ‡ΡˆΠΈΠΉ способ? Π˜Π·ΡƒΡ‡ΠΈΡ‚Π΅ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΈ Π΅Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ. БСгодня Π² этом ΡƒΡ€ΠΎΠΊΠ΅ ΠΏΠΎ кластСрному ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΌΡ‹ обсудим Ρ‚ΠΎ ΠΆΠ΅ самоС.ΠšΡ€Π°Ρ‚ΠΊΠΎΠ΅ содСрТаниС этого ΡƒΡ€ΠΎΠΊΠ° β€”

  • Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация?
  • ΠŸΠΎΡ‡Π΅ΠΌΡƒ кластСризация Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ?
  • Π’ΠΈΠΏΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ
  • ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ кластСризации
  • ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΡ кластСризации

Π˜Ρ‚Π°ΠΊ, ΠΏΠ΅Ρ€Π΅Π΄ Ρ‚Π΅ΠΌ, ΠΊΠ°ΠΊ ΠΌΡ‹ Π½Π°Ρ‡Π½Π΅ΠΌ ΡƒΡ‡Π΅Π±Π½ΠΎΠ΅ пособиС ΠΏΠΎ кластСризации, я Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽ Π²Π°ΠΌ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ Ρ‚ΠΈΠΏΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² машин ,

what is clustering

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация?

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ β€” это Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ популярный ΠΌΠ΅Ρ‚ΠΎΠ΄ обучСния Π±Π΅Π· учитСля, ΠΊΠΎΠ³Π΄Π° Π΄Π°Π½Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π½Π° основС сходства Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ….ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΠΌΠ΅Π΅Ρ‚ ΠΌΠ½ΠΎΠ³ΠΎ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, Π³Π΄Π΅ ΠΎΠ½Π° ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ситуациях.

ΠžΡΠ½ΠΎΠ²Π½Ρ‹ΠΌ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΎΠΌ кластСра являСтся распрСдСлСниС Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π½Π°Π±ΠΎΡ€Π° наблюдСний ΠΏΠΎ ΠΏΠΎΠ΄Π³Ρ€ΡƒΠΏΠΏΠ°ΠΌ ΠΈΠ»ΠΈ кластСрам Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ наблюдСния, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ Π² ΠΎΠ΄Π½ΠΎΠΌ кластСрС, ΠΈΠΌΠ΅Π»ΠΈ ΡΡ‚Π΅ΠΏΠ΅Π½ΡŒ сходства. Π­Ρ‚ΠΎ рСализация ΠΏΠΎΠ·Π½Π°Π²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ способности Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ° Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π½Π° основС ΠΈΡ… ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹. НапримСр, , ΠΊΠΎΠ³Π΄Π° Π²Ρ‹ ΠΎΡ‚ΠΏΡ€Π°Π²Π»ΡΠ΅Ρ‚Π΅ΡΡŒ Π² ΠΌΠ°Π³Π°Π·ΠΈΠ½ Π·Π° ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚Π°ΠΌΠΈ, Π²Ρ‹ Π»Π΅Π³ΠΊΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π°Π΅Ρ‚Π΅ яблоки ΠΈ Π°ΠΏΠ΅Π»ΡŒΡΠΈΠ½Ρ‹ Π² Π΄Π°Π½Π½ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π΅, содСрТащСм ΠΈΡ… ΠΎΠ±ΠΎΠΈΡ….Π’Ρ‹ Ρ€Π°Π·Π»ΠΈΡ‡Π°Π΅Ρ‚Π΅ эти Π΄Π²Π° ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π½Π° основС ΠΈΡ… Ρ†Π²Π΅Ρ‚Π°, тСкстуры ΠΈ Π΄Ρ€ΡƒΠ³ΠΎΠΉ сСнсорной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, которая обрабатываСтся вашим ΠΌΠΎΠ·Π³ΠΎΠΌ. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ являСтся эмуляциСй этого процСсса, Ρ‚Π°ΠΊ Ρ‡Ρ‚ΠΎ ΠΌΠ°ΡˆΠΈΠ½Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒ Ρ€Π°Π·Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹.

Π­Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄ обучСния Π±Π΅Π· учитСля, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΊ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ Π½Π΅ ΠΏΡ€ΠΈΠΊΡ€Π΅ΠΏΠ»Π΅Π½Π° внСшняя ΠΌΠ΅Ρ‚ΠΊΠ°. Машина Π΄ΠΎΠ»ΠΆΠ½Π° ΡΠ°ΠΌΠΎΡΡ‚ΠΎΡΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ особСнности ΠΈ ΡˆΠ°Π±Π»ΠΎΠ½Ρ‹ Π±Π΅Π· ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Π»ΠΈΠ±ΠΎ Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ отобраТСния Π²Π²ΠΎΠ΄Π°-Π²Ρ‹Π²ΠΎΠ΄Π°. Алгоритм способСн ΠΈΠ·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄Ρ‹ ΠΈΠ· ΠΏΡ€ΠΈΡ€ΠΎΠ΄Ρ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, Π° Π·Π°Ρ‚Π΅ΠΌ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ классы для ΠΈΡ… ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΉ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ.

ΠŸΡ€ΠΈ кластСрном машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π΄Π΅Π»ΠΈΡ‚ ΡΠΎΠ²ΠΎΠΊΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ Π½Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹ Ρ‚Π°ΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ каТдая Ρ‚ΠΎΡ‡ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… Π±Ρ‹Π»Π° ΠΏΠΎΡ…ΠΎΠΆΠ° Π½Π° Ρ‚ΠΎΡ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠ΄Π½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅ ΠΈ ΠΎΡ‚Π»ΠΈΡ‡Π°Π»Π°ΡΡŒ ΠΎΡ‚ Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ… Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… Π³Ρ€ΡƒΠΏΠΏΠ°Ρ…. На основС сходства ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠΉ ΠΎΠ½ Π·Π°Ρ‚Π΅ΠΌ Π½Π°Π·Π½Π°Ρ‡Π°Π΅Ρ‚ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρƒ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΡƒΡŽ ΠΏΠΎΠ΄Π³Ρ€ΡƒΠΏΠΏΡƒ.

Если Π²Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎ быстро ΠΏΠ΅Ρ€Π΅ΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΊΠ°ΠΊΡƒΡŽ-Π»ΠΈΠ±ΠΎ Ρ‚Π΅ΠΌΡƒ машинного обучСния, Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΎΠ±Ρ€Π°Ρ‚ΠΈΡ‚ΡŒΡΡ ΠΊ этой бСсплатной ΡƒΡ‡Π΅Π±Π½ΠΎΠΉ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ΅ ΠΏΠΎ ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ.

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ кластСризации β€” Π’ΠΎΡ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ сгруппированы вмСстС, находятся Π² Π³Ρ€ΡƒΠΏΠΏΠ°Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ содСрТат сходныС Π΄Π°Π½Π½Ρ‹Π΅.Π—Π°Ρ‚Π΅ΠΌ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π΄Π°Π»Π΅Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒ эти кластСры посрСдством ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Ρ‚Ρ€Π΅Ρ… кластСров, ΠΊΠ°ΠΊ ΠΏΠΎΠΊΠ°Π·Π°Π½ΠΎ Π½ΠΈΠΆΠ΅ β€”

Clustering tutorial in ML

ΠœΡ‹ выполняСм ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ с основным понятиСм, Ρ‡Ρ‚ΠΎ Ρ‚ΠΎΡ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… находятся Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° Ρ†Π΅Π½Ρ‚Ρ€Π° кластСра. ΠœΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ нСсколько дистанционных ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² ΠΈ Ρ‚Π΅Ρ…Π½ΠΈΠΊ для расчСта выбросов.

ΠŸΠΎΡ‡Π΅ΠΌΡƒ кластСризация?

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ являСтся Π²Π°ΠΆΠ½ΠΎΠΉ Ρ‚Π΅Ρ…Π½ΠΈΠΊΠΎΠΉ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ½Π° опрСдСляСт Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΡŽΡŽ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΡƒ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π±Π΅Π· ΠΌΠ΅Ρ‚ΠΎΠΊ.Π’ кластСризации Π½Π΅Ρ‚ стандартных ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π². ВсС это зависит ΠΎΡ‚ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Ρ ΠΈ подходящих ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠ΅Π², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‚ Π΅Π³ΠΎ потрСбностям ΠΈ трСбованиям. НапримСр, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΠΉΡ‚ΠΈ ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Π΅ Π³Ρ€ΡƒΠΏΠΏΡ‹, ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ прСдставитСлСй ΠΏΡƒΡ‚Π΅ΠΌ Ρ€Π΅Π΄ΡƒΠΊΡ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΎΠΏΠΈΡΠ°Ρ‚ΡŒ ΠΈΡ… подходящиС свойства. МоТно Ρ‚Π°ΠΊΠΆΠ΅ Π½Π°ΠΉΡ‚ΠΈ Π½Π΅ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… для обнаруТСния выбросов. Π—Π°Ρ‚Π΅ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ опрСдСляСт, ΠΊΠ°ΠΊΠΎΠ΅ сходство Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ прСдполоТСния.

ΠŸΠΎΠ΄ΠΎΠΆΠ΄ΠΈΡ‚Π΅! Π’Ρ‹ провСряли Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ прилоТСния машинного обучСния?

Π’ΠΈΠΏΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации

ВсСго сущСствуСт ΠΏΡΡ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ² Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации.Они прСдставлСны ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π½Π° основС сСкционирования
  • Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠ°Ρ кластСризация
  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π½Π° основС ΠΌΠΎΠ΄Π΅Π»ΠΈ
  • ΠŸΠ»ΠΎΡ‚Π½Π°Ρ кластСризация
  • НСчСткая кластСризация

what is clustering in machine learning

Π’ΠΈΠΏ кластСризации Алгоритм подраздСляСт Π΄Π°Π½Π½Ρ‹Π΅ Π½Π° подмноТСство ΠΈΠ· k Π³Ρ€ΡƒΠΏΠΏ. Π­Ρ‚ΠΈ k Π³Ρ€ΡƒΠΏΠΏ ΠΈΠ»ΠΈ кластСров Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Ρ‹. Он раздСляСт Π΄Π°Π½Π½Ρ‹Π΅ Π½Π° кластСры, удовлСтворяя этим Π΄Π²ΡƒΠΌ трСбованиям. Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, каТдая Π³Ρ€ΡƒΠΏΠΏΠ° Π΄ΠΎΠ»ΠΆΠ½Π° ΡΠΎΡΡ‚ΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ ΠΈΠ· ΠΎΠ΄Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ.Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, каТдая Ρ‚ΠΎΡ‡ΠΊΠ° Π΄ΠΎΠ»ΠΆΠ½Π° ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ Ρ€ΠΎΠ²Π½ΠΎ ΠΎΠ΄Π½ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅. K-Means Clustering β€” самый популярный ΠΌΠ΅Ρ‚ΠΎΠ΄ кластСризации с Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ΠΌ.

2. Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠ°Ρ кластСризация

Основная идСя кластСризации этого Ρ‚ΠΈΠΏΠ° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² создании ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ кластСров. Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ кластСризации с Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ΠΌ, ΠΎΠ½Π° Π½Π΅ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ опрСдСлСния кластСров, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π΄ΠΎΠ»ΠΆΠ½Π° ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒΡΡ модСль. Π•ΡΡ‚ΡŒ Π΄Π²Π° способа Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ. ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ β€” это ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ снизу Π²Π²Π΅Ρ€Ρ…, Ρ‚Π°ΠΊΠΆΠ΅ извСстный ΠΊΠ°ΠΊ Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, Π° Π²Ρ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ β€” Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Ρ‰Π°Π΅Ρ‚ ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΡŽ кластСров Π² нисходящСм ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π΅.Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ‚Π°ΠΊΠΎΠ³ΠΎ Ρ‚ΠΈΠΏΠ° кластСризации ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π΄Ρ€Π΅Π²ΠΎΠ²ΠΈΠ΄Π½ΠΎΠ΅ прСдставлСниС, извСстноС ΠΊΠ°ΠΊ Π΄Π΅Π½Π΄ΠΎΠ³Ρ€Π°ΠΌΠΌΠ°.

3. МодСли Π½Π° основС плотности

Π’ кластСрах этого Ρ‚ΠΈΠΏΠ° Π² пространствС Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ ΠΏΠ»ΠΎΡ‚Π½Ρ‹Π΅ области, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ‚Π΄Π΅Π»Π΅Π½Ρ‹ Π΄Ρ€ΡƒΠ³ ΠΎΡ‚ Π΄Ρ€ΡƒΠ³Π° Π±ΠΎΠ»Π΅Π΅ Ρ€Π΅Π΄ΠΊΠΈΠΌΠΈ областями. Π­Ρ‚ΠΎΡ‚ Ρ‚ΠΈΠΏ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации ΠΈΠ³Ρ€Π°Π΅Ρ‚ Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΡƒΡŽ Ρ€ΠΎΠ»ΡŒ Π² ΠΎΡ†Π΅Π½ΠΊΠ΅ ΠΈ Π½Π°Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΈ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… структур Ρ„ΠΎΡ€ΠΌΡ‹ Π½Π° основС плотности. НаиболСС популярным Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠΌ Π½Π° основС плотности являСтся DBSCAn, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ позволяСт ΠΏΡ€ΠΎΡΡ‚Ρ€Π°Π½ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ Π΄Π°Π½Π½Ρ‹Ρ… с ΡˆΡƒΠΌΠΎΠΌ.Он ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π΄Π²Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ β€” Π΄ΠΎΡΡ‚ΡƒΠΏΠ½ΠΎΡΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΏΠΎΠ΄ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ….

4. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π½Π° основС ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

ΠŸΡ€ΠΈ Ρ‚Π°ΠΊΠΎΠΌ способС кластСризации Π½Π°Π±Π»ΡŽΠ΄Π°Π΅ΠΌΡ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡŽΡ‚ ΠΈΠ· распрСдСлСния, состоящСго ΠΈΠ· смСси Π΄Π²ΡƒΡ… ΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ² кластСра. ΠšΡ€ΠΎΠΌΠ΅ Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π½Ρ‹ΠΉ кластСр ΠΈΠΌΠ΅Π΅Ρ‚ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΡŽ плотности, ΡΠ²ΡΠ·Π°Π½Π½ΡƒΡŽ с Π²Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈΠ»ΠΈ вСсом Π² этой смСси.

5. НСчСткая кластСризация

Π’ этом Ρ‚ΠΈΠΏΠ΅ кластСризации Ρ‚ΠΎΡ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру.ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ Π² кластСрС, ΠΈΠΌΠ΅Π΅Ρ‚ коэффициСнт принадлСТности, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ соотвСтствуСт стСпСни присутствия Π² этом кластСрС. ΠœΠ΅Ρ‚ΠΎΠ΄ Π½Π΅Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ кластСризации Ρ‚Π°ΠΊΠΆΠ΅ извСстСн ΠΊΠ°ΠΊ мягкий ΠΌΠ΅Ρ‚ΠΎΠ΄ кластСризации.

ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ обучСния Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ²Ρ‹ΠΌ машинам β€” БСгмСнтация ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² с использованиСм ML

ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΡ кластСризации

НСкоторыС ΠΈΠ· популярных ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ кластСризации Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ β€”

1. Алгоритм кластСризации для ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Ρ€Π°ΠΊΠΎΠ²Ρ‹Ρ… ΠΊΠ»Π΅Ρ‚ΠΎΠΊ

Наборы Ρ€Π°ΠΊΠΎΠ²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½ с использованиСм Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации.Π’ сочСтании Π΄Π°Π½Π½Ρ‹Ρ…, состоящих ΠΊΠ°ΠΊ ΠΈΠ· Ρ€Π°ΠΊΠΎΠ²Ρ‹Ρ…, Ρ‚Π°ΠΊ ΠΈ Π½Π΅ Ρ€Π°ΠΊΠΎΠ²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ кластСризации ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ Π² Π΄Π°Π½Π½Ρ‹Ρ…, Π½Π° основС ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ½ΠΈ ΡΠΎΠ·Π΄Π°ΡŽΡ‚ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ кластСры. ΠŸΠΎΡΡ€Π΅Π΄ΡΡ‚Π²ΠΎΠΌ экспСримСнтов ΠΌΡ‹ наблюдаСм, Ρ‡Ρ‚ΠΎ Π½Π°Π±ΠΎΡ€ Ρ€Π°ΠΊΠΎΠ²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Π΄Π°Π΅Ρ‚ Π½Π°ΠΌ Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, ΠΊΠΎΠ³Π΄Π° прСдоставляСтся модСль Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ кластСризации Π±Π΅Π· присмотра.

2. Алгоритм кластСризации Π² поисковых систСмах

ΠŸΡ€ΠΈ поискС Ρ‡Π΅Π³ΠΎ-Ρ‚ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ³ΠΎ Π² Google Π²Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚Π΅ Π½Π°Π±ΠΎΡ€ ΠΏΠΎΡ…ΠΎΠΆΠΈΡ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‚ Π²Π°ΡˆΠ΅ΠΌΡƒ исходному запросу.Π­Ρ‚ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ кластСризации, которая Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΠ΅Ρ‚ ΠΏΠΎΠ΄ΠΎΠ±Π½Ρ‹Π΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² ΠΎΠ΄Π½ΠΎΠΌ кластСрС ΠΈ прСдоставляСт это Π²Π°ΠΌ. На основС блиТайшСго ΠΏΠΎΠ΄ΠΎΠ±Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΡ€ΠΈΡΠ²Π°ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π΅Π΄ΠΈΠ½ΠΎΠΌΡƒ кластСру, прСдоставляя ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŽ ΠΏΠΎΠ»Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ².

3. Алгоритм кластСризации Π² бСспроводных сСтях

Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации Π½Π° бСспроводных ΡƒΠ·Π»Π°Ρ…, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠΊΠΎΠ½ΠΎΠΌΠΈΡ‚ΡŒ ΡΠ½Π΅Ρ€Π³ΠΈΡŽ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡƒΡŽ бСспроводными Π΄Π°Ρ‚Ρ‡ΠΈΠΊΠ°ΠΌΠΈ. Π‘ΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π½Π° основС кластСризации Π² бСспроводных сСтях для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΈΡ… энСргопотрСблСния ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡ΠΈ Π΄Π°Π½Π½Ρ‹Ρ….

4. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ для сСгмСнтации ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ²

Одним ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ популярных ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ кластСризации являСтся сСгмСнтация ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². На основС Π°Π½Π°Π»ΠΈΠ·Π° ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΎΠΉ Π±Π°Π·Ρ‹ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹ΡΠ²Π»ΡΡ‚ΡŒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΎΠ³ΡƒΡ‚ ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌΠΈ ΠΈΡ… ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ услуг. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ позволяСт ΠΈΠΌ ΡΠ΅Π³ΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π½Π° нСсколько кластСров, Π½Π° основС ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ стратСгии для обращСния ΠΊ своСй клиСнтской Π±Π°Π·Π΅. Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ кластСризации Ρ‡Π΅Ρ€Π΅Π· Π»ΡƒΡ‡ΡˆΠΈΠΉ Π² истории ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ машинного обучСния ΠΈΠ· БСгмСнтация ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² с использованиСм машинного обучСния .

РСзюмС

Π’ этой ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ рассмотрСли ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΈ Ρ‚ΠΎ, ΠΊΠ°ΠΊ кластСризация привнСсла ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Π°Π½Π°Π»ΠΈΠ·Π° Π΄Π°Π½Π½Ρ‹Ρ… Π² Π½Π΅ΠΌΠ°Ρ€ΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ Π½Π°Π±ΠΎΡ€Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ…. ΠœΡ‹ рассмотрСли Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ‚ΠΈΠΏΡ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации. НаконСц, ΠΌΡ‹ рассмотрСли прилоТСния кластСризации ΠΈ ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… сцСнариях. НадСюсь, Ρ‡Ρ‚ΠΎ наш ΡƒΡ‡Π΅Π±Π½ΠΈΠΊ ΠΏΠΎ кластСрному ΠΌΠ°ΡˆΠΈΠ½Π½ΠΎΠΌΡƒ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ ΠΏΠΎΠΌΠΎΠ³ Π²Π°ΠΌ ΠΏΡ€ΠΎΡΡΠ½ΠΈΡ‚ΡŒ ваши ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ кластСризации.

Π’Π°ΠΌ ΠΏΠΎΠ½Ρ€Π°Π²ΠΈΠ»Π°ΡΡŒ ΡΡ‚Π°Ρ‚ΡŒΡ? ΠŸΠΎΠ΄Π΅Π»ΠΈΡ‚Π΅ΡΡŒ своим ΠΌΠ½Π΅Π½ΠΈΠ΅ΠΌ с Π½Π°ΠΌΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΈ.

ПониманиС кластСризации K-срСдних с ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ

K-Means β€” ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π²Π°ΠΆΠ½Π΅ΠΉΡˆΠΈΡ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² МашинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ БСртификация ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ . Π’ этом Π±Π»ΠΎΠ³Π΅ ΠΌΡ‹ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации K-Means с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ².

Π‘Π΅Ρ‚ΡŒ Π±ΠΎΠ»ΡŒΠ½ΠΈΡ‡Π½Ρ‹Ρ… ΡƒΡ‡Ρ€Π΅ΠΆΠ΄Π΅Π½ΠΈΠΉ Ρ…ΠΎΡ‡Π΅Ρ‚ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΡŒ ряд ΠΎΡ‚Π΄Π΅Π»Π΅Π½ΠΈΠΉ Π½Π΅ΠΎΡ‚Π»ΠΎΠΆΠ½ΠΎΠΉ ΠΏΠΎΠΌΠΎΡ‰ΠΈ Π² ΠΏΡ€Π΅Π΄Π΅Π»Π°Ρ… Ρ€Π΅Π³ΠΈΠΎΠ½Π°. ΠœΡ‹ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π±ΠΎΠ»ΡŒΠ½ΠΈΡ†Π° Π·Π½Π°Π΅Ρ‚ мСстонахоТдСниС всСх Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Π²Π΅Ρ€ΠΆΠ΅Π½Π½Ρ‹Ρ… нСсчастным случаям областСй Π² Ρ€Π΅Π³ΠΈΠΎΠ½Π΅. Они Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ количСство Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π±Ρ‹Ρ‚ΡŒ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹, ΠΈ мСстонахоТдСниС этих Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ всС Π·ΠΎΠ½Ρ‹, ΠΏΠΎΠ΄Π²Π΅Ρ€ΠΆΠ΅Π½Π½Ρ‹Π΅ авариям, Π±Ρ‹Π»ΠΈ ΠΏΠΎΠΊΡ€Ρ‹Ρ‚Ρ‹ Π²Π±Π»ΠΈΠ·ΠΈ этих Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠΉ.

Π—Π°Π΄Π°Ρ‡Π° состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ мСстополоТСниС этих Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Ρ… ΠΏΠΎΠ΄Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠΉ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΡ…Π²Π°Ρ‚ΠΈΡ‚ΡŒ вСсь Ρ€Π΅Π³ΠΈΠΎΠ½. Π’ΠΎΡ‚ ΠΊΠΎΠ³Π΄Π° Π½Π° ΠΏΠΎΠΌΠΎΡ‰ΡŒ ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΡ‚ K-ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ Clustering!

ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΏΠ΅Ρ€Π΅ΠΉΡ‚ΠΈ ΠΊ кластСризации K-срСдних, Π΄Π°Π²Π°ΠΉΡ‚Π΅ сначала разбСрСмся, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ относится ΠΊ нСбольшой Π³Ρ€ΡƒΠΏΠΏΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΠ΅Ρ‚ эти ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² кластСры. Π§Ρ‚ΠΎΠ±Ρ‹ Π½Π°ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ кластСризации, Π²Π°ΠΆΠ½ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ сцСнарии, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ приводят ΠΊ кластСризации Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ². Π”Π°Π²Π°ΠΉΡ‚Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠΌ нСсколько ΠΈΠ· Π½ΠΈΡ….

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация?

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ β€” это Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° ΠΎΠ΄Π½ΠΎΡ€ΠΎΠ΄Π½Ρ‹Π΅ классы ΠΈΠ»ΠΈ кластСры:

  • Π’ΠΎΡ‡ΠΊΠΈ Π² ΠΎΠ΄Π½ΠΎΠΉ ΠΈ Ρ‚ΠΎΠΉ ΠΆΠ΅ Π³Ρ€ΡƒΠΏΠΏΠ΅ Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠΎΡ…ΠΎΠΆΠΈ, насколько это Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ
  • Π’ΠΎΡ‡ΠΊΠΈ Π² Π΄Ρ€ΡƒΠ³ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΠ΅ Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹, насколько это Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ

Когда Π·Π°Π΄Π°Π½Π° коллСкция ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², ΠΌΡ‹ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚ΡŒ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Π² Π³Ρ€ΡƒΠΏΠΏΡƒ Π½Π° основС сходства.

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ кластСризации:

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ практичСски Π²ΠΎ всСх областях. Из ΠŸΡ€ΠΈΠΌΠ΅Ρ€Π° 1 Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΡ€ΠΈΠΉΡ‚ΠΈ ΠΊ Π²Ρ‹Π²ΠΎΠ΄Ρƒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π½Π°ΠΉΡ‚ΠΈ мноТСство кластСризованных ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, с ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ Π²Ρ‹ ΡΡ‚ΠΎΠ»ΠΊΠ½ΡƒΠ»ΠΈΡΡŒ.

Π—Π΄Π΅ΡΡŒ пСрСчислСны Π΅Ρ‰Π΅ нСсколько ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ добавят ΠΊ Ρ‚ΠΎΠΌΡƒ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ ΡƒΠ·Π½Π°Π»ΠΈ.

  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΠΌΠ°Ρ€ΠΊΠ΅Ρ‚ΠΎΠ»ΠΎΠ³Π°ΠΌ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ свою ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΡΠΊΡƒΡŽ Π±Π°Π·Ρƒ ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Π² Ρ†Π΅Π»Π΅Π²Ρ‹Ρ… областях. Он ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ людСй (Π² соотвСтствии с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ критСриями, Ρ‚Π°ΠΊΠΈΠΌΠΈ ΠΊΠ°ΠΊ Π³ΠΎΡ‚ΠΎΠ²Π½ΠΎΡΡ‚ΡŒ, ΠΏΠΎΠΊΡƒΠΏΠ°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒ ΠΈ Ρ‚. Π”.), ΠžΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° ΠΈΡ… сходствС Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡΡ…, связанных с рассматриваСмым ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚ΠΎΠΌ.
  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ Π² ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π³Ρ€ΡƒΠΏΠΏ Π΄ΠΎΠΌΠΎΠ² Π½Π° основС ΠΈΡ… стоимости, Ρ‚ΠΈΠΏΠ° ΠΈ гСографичСского мСстополоТСния.
  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для изучСния зСмлСтрясСния. На основС областСй, ΠΏΠΎΡΡ‚Ρ€Π°Π΄Π°Π²ΡˆΠΈΡ… ΠΎΡ‚ зСмлСтрясСния Π² Ρ€Π΅Π³ΠΈΠΎΠ½Π΅, кластСризация ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΌΠΎΡ‡ΡŒ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅Π΅ вСроятноС мСсто, Π³Π΄Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·ΠΎΠΉΡ‚ΠΈ зСмлСтрясСниС.

Алгоритмы кластСризации:

Алгоритм кластСризации пытаСтся Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ СстСствСнныС Π³Ρ€ΡƒΠΏΠΏΡ‹ Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° основС Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ сходства. Находит Ρ†Π΅Π½Ρ‚Ρ€ тяТСсти Π³Ρ€ΡƒΠΏΠΏΡ‹ Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ…. Для эффСктивной кластСризации Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π΅Ρ‚ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΎΠΉ ΠΎΡ‚ Ρ†Π΅Π½Ρ‚Ρ€Π° тяТСсти кластСра.

ЦСлью кластСризации являСтся ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅ΠΉ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ Π² Π½Π°Π±ΠΎΡ€Π΅ Π½Π΅ΠΌΠ°Ρ€ΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ….

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация K-срСдних?

K-means (Macqueen, 1967) β€” ΠΎΠ΄ΠΈΠ½ ΠΈΠ· самых простых Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² обучСния Π±Π΅Π· контроля, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Ρ€Π΅ΡˆΠ°Π΅Ρ‚ ΠΈΠ·Π²Π΅ΡΡ‚Π½ΡƒΡŽ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ кластСризации. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ K-срСдних β€” это ΠΌΠ΅Ρ‚ΠΎΠ΄ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ квантования, ΠΈΠ·Π½Π°Ρ‡Π°Π»ΡŒΠ½ΠΎ основанный Π½Π° ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ сигналов, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ популярСн для кластСрного Π°Π½Π°Π»ΠΈΠ·Π° Π² ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΌ Π°Π½Π°Π»ΠΈΠ·Π΅ Π΄Π°Π½Π½Ρ‹Ρ….

K-ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ кластСризация β€” ΠŸΡ€ΠΈΠΌΠ΅Ρ€ 1:

Π‘Π΅Ρ‚ΡŒ ΠΏΠΈΡ†Ρ†Π΅Ρ€ΠΈΠΉ Ρ…ΠΎΡ‡Π΅Ρ‚ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΡŒ свои Ρ†Π΅Π½Ρ‚Ρ€Ρ‹ доставки ΠΏΠΎ всСму Π³ΠΎΡ€ΠΎΠ΄Ρƒ.Как Π²Ρ‹ Π΄ΡƒΠΌΠ°Π΅Ρ‚Π΅, Π±ΡƒΠ΄ΡƒΡ‚ Π»ΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹Π΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹?

  • Им Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ мСста, ΠΎΡ‚ΠΊΡƒΠ΄Π° часто Π·Π°ΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ ΠΏΠΈΡ†Ρ†Ρƒ.
  • Они Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ, сколько ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ² ΠΏΠΈΡ†Ρ†Ρ‹ Π½ΡƒΠΆΠ½ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠΊΡ€Ρ‹Ρ‚ΡŒ доставку Π² этом Ρ€Π°ΠΉΠΎΠ½Π΅.
  • Они Π΄ΠΎΠ»ΠΆΠ½Ρ‹ Π²Ρ‹ΡΡΠ½ΠΈΡ‚ΡŒ располоТСниС ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ² ΠΏΠΈΡ†Ρ†Ρ‹ Π²ΠΎ всСх этих областях, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ минимальноС расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠΌ ΠΈ Ρ‚ΠΎΡ‡ΠΊΠ°ΠΌΠΈ доставки.

РСшСниС этих Π·Π°Π΄Π°Ρ‡ Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя ΠΌΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° ΠΈ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ.Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ ΡƒΠ·Π½Π°Π΅ΠΌ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ кластСризация ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΡ‚ΡŒ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹ΠΉ ΠΈ простой ΠΌΠ΅Ρ‚ΠΎΠ΄ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Ρ‚Π°ΠΊΠΈΡ… Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΆΠΈΠ·Π½Π΅Π½Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡. ΠŸΠ΅Ρ€Π΅Π΄ этим посмотрим, Ρ‡Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ кластСризация.

ΠœΠ΅Ρ‚ΠΎΠ΄ кластСризации K-срСдних:

Если Π·Π°Π΄Π°Π½ΠΎ k, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ K-срСдних ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… ΡˆΠ°Π³Π°Ρ…:

  • Π Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π½Π° k нСпустых подмноТСств
  • Π˜Π΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠ² кластСра (срСднСС Ρ‚ΠΎΡ‡ΠΊΠ°) Ρ‚Π΅ΠΊΡƒΡ‰Π΅Π³ΠΎ Ρ€Π°Π·Π΄Π΅Π»Π°.
  • НазначСниС ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠΌΡƒ кластСру
  • Π’Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚ΡŒ расстояния ΠΎΡ‚ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΈ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Ρ‚ΠΎΡ‡ΠΊΠΈ для кластСра, Π³Π΄Π΅ расстояниС ΠΎΡ‚ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° минимально.
  • ПослС пСрСраспрСдСлСния Ρ‚ΠΎΡ‡Π΅ΠΊ Π½Π°ΠΉΠ΄ΠΈΡ‚Π΅ Ρ†Π΅Π½Ρ‚Ρ€ тяТСсти Π½ΠΎΠ²ΠΎΠ³ΠΎ кластСра.

ΠŸΠΎΡˆΠ°Π³ΠΎΠ²Ρ‹ΠΉ процСсс:

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Π΄Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ Π² ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ 1 ΠΈ посмотрим, ΠΊΠ°ΠΊ ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠΎΠΌΠΎΡ‡ΡŒ Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠ΅ ΠΏΠΈΡ†Ρ†Ρ‹ Π² создании Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² Π½Π° основС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° K-срСдних.

K β€” Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации | K ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ Π² Python | Алгоритмы машинного обучСния | Edureka

Π’ Π²ΠΈΠ΄Π΅ΠΎ Π²Ρ‹ ΡƒΠ·Π½Π°Π΅Ρ‚Π΅ ΠΎ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ кластСризации K-Means ΠΈ Π΅Π΅ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ с использованиСм Python.

Аналогично, для открытия Π±ΠΎΠ»ΡŒΠ½ΠΈΡ‡Π½Ρ‹Ρ… ΠΎΡ‚Π΄Π΅Π»Π΅Π½ΠΈΠΉ:

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ K-срСдних Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΠ΅Ρ‚ эти мСста с ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ количСством ΠΏΠΎΠ΄Π²Π΅Ρ€ΠΆΠ΅Π½Π½Ρ‹Ρ… областСй Π² кластСры ΠΈ опрСдСляСт Ρ†Π΅Π½Ρ‚Ρ€ кластСра для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ Π±ΡƒΠ΄Π΅Ρ‚ мСстом, Π³Π΄Π΅ Π±ΡƒΠ΄ΡƒΡ‚ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Ρ‚ΡŒΡΡ Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Π΅ подраздСлСния. Π­Ρ‚ΠΈ кластСрныС Ρ†Π΅Π½Ρ‚Ρ€Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π°ΠΌΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра ΠΈ находятся Π½Π° минимальном расстоянии ΠΎΡ‚ всСх Ρ‚ΠΎΡ‡Π΅ΠΊ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ кластСра, поэтому ΠΎΡ‚Π½Ρ‹Π½Π΅ Π°Π²Π°Ρ€ΠΈΠΉΠ½Ρ‹Π΅ подраздСлСния Π±ΡƒΠ΄ΡƒΡ‚ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ Π½Π° минимальном расстоянии ΠΎΡ‚ всСх ΠΏΠΎΠ΄Π²Π΅Ρ€ΠΆΠ΅Π½Π½Ρ‹Ρ… авариям областСй Π²Π½ΡƒΡ‚Ρ€ΠΈ кластСра.

Π’ΠΎΡ‚ Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ для вас, ΠΏΠΎΠΏΡ€ΠΎΠ±ΡƒΠΉΡ‚Π΅ Π½Π°ΠΉΡ‚ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅, основанноС Π½Π° вашСм ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ кластСризации K-срСдних.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ K-срСдних β€” ΠŸΡ€ΠΈΠΌΠ΅Ρ€ 2:

Π”Π°Π²Π°ΠΉΡ‚Π΅ рассмотрим Π΄Π°Π½Π½Ρ‹Π΅ ΠΎ прСступлСниях, связанных с Π½Π°Ρ€ΠΊΠΎΡ‚ΠΈΠΊΠ°ΠΌΠΈ Π² КанадС. Π”Π°Π½Π½Ρ‹Π΅ состоят ΠΈΠ· прСступлСний ΠΈΠ·-Π·Π° Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π½Π°Ρ€ΠΊΠΎΡ‚ΠΈΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‚ Π³Π΅Ρ€ΠΎΠΈΠ½, ΠΊΠΎΠΊΠ°ΠΈΠ½ Π² отпускаСмыС ΠΏΠΎ Ρ€Π΅Ρ†Π΅ΠΏΡ‚Ρƒ лСкарства, особСнно Π½Π΅ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½Π½ΠΎΠ»Π΅Ρ‚Π½ΠΈΠΌΠΈ людьми. ΠŸΡ€Π΅ΡΡ‚ΡƒΠΏΠ»Π΅Π½ΠΈΡ, Π²Ρ‹Π·Π²Π°Π½Π½Ρ‹Π΅ Π·Π»ΠΎΡƒΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠ΅ΠΌ психоактивными вСщСствами, ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π²Ρ‹Π·Π²Π°Π½Ρ‹ созданиСм Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² ΠΏΠΎ Π±ΠΎΡ€ΡŒΠ±Π΅ с Π½Π°Ρ€ΠΊΠΎΠΌΠ°Π½ΠΈΠ΅ΠΉ Π² Ρ€Π°ΠΉΠΎΠ½Π°Ρ…, Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ ΠΏΠΎΡΡ‚Ρ€Π°Π΄Π°Π²ΡˆΠΈΡ… ΠΎΡ‚ этого Π²ΠΈΠ΄Π° прСступлСний.ИмСя доступныС Π΄Π°Π½Π½Ρ‹Π΅, ΠΌΠΎΠΆΠ½ΠΎ ΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Ρ€Π°Π·Π½Ρ‹Π΅ Ρ†Π΅Π»ΠΈ. Π­Ρ‚ΠΎ:

  • ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ прСступлСния Π½Π° основС злоупотрСблСния вСщСством для выявлСния основной ΠΏΡ€ΠΈΡ‡ΠΈΠ½Ρ‹.
  • ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ прСступлСния ΠΏΠΎ возрастным Π³Ρ€ΡƒΠΏΠΏΠ°ΠΌ.
  • ΠŸΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠΉΡ‚Π΅ Π΄Π°Π½Π½Ρ‹Π΅, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, ΠΊΠ°ΠΊΠΈΠ΅ Π²ΠΈΠ΄Ρ‹ Ρ†Π΅Π½Ρ‚Ρ€Π° ΠΏΠΎ Π±ΠΎΡ€ΡŒΠ±Π΅ с Π½Π°Ρ€ΠΊΠΎΠΌΠ°Π½ΠΈΠ΅ΠΉ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹.
  • Π£Π·Π½Π°ΠΉΡ‚Π΅, сколько Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² ΠΏΠΎ Π±ΠΎΡ€ΡŒΠ±Π΅ с Π½Π°Ρ€ΠΊΠΎΠΌΠ°Π½ΠΈΠ΅ΠΉ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ для сниТСния уровня прСступности, связанной с Π½Π°Ρ€ΠΊΠΎΡ‚ΠΈΠΊΠ°ΠΌΠΈ.

Алгоритм K-срСдних ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для опрСдСлСния любого ΠΈΠ· Π²Ρ‹ΡˆΠ΅ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹Ρ… сцСнариСв ΠΏΡƒΡ‚Π΅ΠΌ Π°Π½Π°Π»ΠΈΠ·Π° доступных Π΄Π°Π½Π½Ρ‹Ρ….

БлСдуя ΠΌΠ΅Ρ‚ΠΎΠ΄Ρƒ кластСризации K-срСдних, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ использовался Π² ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°Ρ‡Π°Ρ‚ΡŒ с Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ k, Π° Π·Π°Ρ‚Π΅ΠΌ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ K-срСдних.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠ°Ρ Ρ„ΠΎΡ€ΠΌΡƒΠ»ΠΈΡ€ΠΎΠ²ΠΊΠ° для Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° K-срСдних:

D = { x 1 , x 2 ,…, x i ,…, x m } Γ  Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… m записСй

x i = (x i1 , x i2 ,…, x Π² ) Γ  каТдая запись являСтся n-ΠΌΠ΅Ρ€Π½Ρ‹ΠΌ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ

Поиск Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠ² кластСров, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‚ искаТСния:

РСшСниС ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ, Π·Π°Π΄Π°Π² Ρ‡Π°ΡΡ‚Π½ΡƒΡŽ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½ΡƒΡŽ искаТСния w.ΠΊ.Ρ‚. ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ†Π΅Π½Ρ‚Ρ€ кластСра ΠΊ Π½ΡƒΠ»ΡŽ.

Для Π»ΡŽΠ±Ρ‹Ρ… k кластСров Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ k Π΄ΠΎΠ»ΠΆΠ½ΠΎ Π±Ρ‹Ρ‚ΡŒ Ρ‚Π°ΠΊΠΈΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π΄Π°ΠΆΠ΅ ΠΏΡ€ΠΈ ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠΈ значСния k послС Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΡƒΡ€ΠΎΠ²Π½Π΅ΠΉ кластСризации искаТСниС ΠΎΡΡ‚Π°Π²Π°Π»ΠΎΡΡŒ постоянным. Достигнутая Ρ‚ΠΎΡ‡ΠΊΠ° называСтся Β«Π›ΠΎΠΊΠΎΡ‚ΡŒΒ».

Π­Ρ‚ΠΎ идСальноС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ k для созданных кластСров.

Related Post:

ΠŸΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ кластСризации Π² Π½Π°ΡƒΠΊΠ΅ ΠΎ Π΄Π°Π½Π½Ρ‹Ρ… ИспользованиС ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

кластСров ясно объяснил. ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ кластСризации ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ … | Pawan Jain

Π˜Π½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ понятноС ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ‚ΠΈΠ²Π½ΠΎΠ΅ руководство ΠΏΠΎ кластСризации ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌ кластСризации

Pawan Jain

Π’Ρ‹ ΡΡ‚Π°Π»ΠΊΠΈΠ²Π°Π»ΠΈΡΡŒ с ситуациСй, ΠΊΠΎΠ³Π΄Π° ваш Π΄Ρ€ΡƒΠ³ Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ Π²Π°ΠΌ: Β«ΠŸΠΎΠΌΠΎΠ³ΠΈΡ‚Π΅ ΠΌΠ½Π΅ ΠΏΠΎΠ½ΡΡ‚ΡŒ Π½Π°ΡˆΠΈΡ… Π΄Ρ€ΡƒΠ·Π΅ΠΉ Π² ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠΉ сСти, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΌΡ‹ ΠΌΠΎΠ³Π»ΠΈ ΠΏΠΎΠ½ΡΡ‚ΡŒ Π½Π°ΡˆΠΈΡ… Π»ΡƒΡ‡ΡˆΠΈΡ… Π΄Ρ€ΡƒΠ·Π΅ΠΉ!Β»

А Ρ‚Ρ‹ Π±ΡƒΠ΄Π΅ΡˆΡŒ ΠΊΠ°ΠΊ «ПодоТди, Ρ‡Ρ‚ΠΎ это ΠΈ Π·Π°Ρ‡Π΅ΠΌ Π½Π°ΠΌ это Π΄Π΅Π»Π°Ρ‚ΡŒ?Β»

Β«Π­Ρ‚ΠΎ кластСризация, ΠΈ ΠΎΠ½Π° станСт ΠΌΠΎΠ΅ΠΉ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰Π΅ΠΉ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅ΠΉΒ», β€” ΠΎΡ‚Π²Π΅Ρ‚ΠΈΠ» Π΄Ρ€ΡƒΠ³ ΠΈ Π½Π°Ρ‡Π°Π» ΠΎΠ±ΡŠΡΡΠ½ΡΡ‚ΡŒ ΠΎ кластСризации.

ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ кластСризации ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ «процСссом ΠΎΡ€Π³Π°Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π² Π³Ρ€ΡƒΠΏΠΏΡ‹, Ρ‡Π»Π΅Π½Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Ρ€ΠΎΠ΄Π΅ ΠΏΠΎΡ…ΠΎΠΆΠΈΒ».

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΈΠΌΠ΅Π΅Ρ‚ Ρ€Π΅ΡˆΠ°ΡŽΡ‰Π΅Π΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΠ½Π° опрСдСляСт Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΡŽΡŽ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΡƒ срСди ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π½Π΅ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Они Π΄Π΅Π»Π°ΡŽΡ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ прСдполоТСния ΠΎ Ρ‚ΠΎΡ‡ΠΊΠ°Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ ΠΈΡ… сходство. КаТдая Π³ΠΈΠΏΠΎΡ‚Π΅Π·Π° Π±ΡƒΠ΄Π΅Ρ‚ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Ρ€Π°Π·Π½Ρ‹Π΅, Π½ΠΎ ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΠΎ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ кластСры.

Π‘ ΡƒΡ‡Π΅Ρ‚ΠΎΠΌ Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π²Ρ‹ Π½ΠΈΡ‡Π΅Π³ΠΎ Π½Π΅ Π·Π½Π°Π΅Ρ‚Π΅, Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Ρ‚ΡŒ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ², Π³Π΄Π΅ срСдниС расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‡Π»Π΅Π½Π°ΠΌΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра Π±Π»ΠΈΠΆΠ΅, Ρ‡Π΅ΠΌ ΠΊ элСмСнтам Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… кластСрах, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€:

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ кластСризации

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ Π Π°Π·Π½ΠΈΡ†Π° ΠΌΠ΅ΠΆΠ΄Ρƒ кластСризациСй ΠΈ классификациСй

  • ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ являСтся Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ обучСния ΠΏΠΎΠ΄ наблюдСниСм , ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ сущСствуСт извСстная ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅, Ρ‡Ρ‚ΠΎΠ±Ρ‹ систСма Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»Π°.

НапримСр, Ссли Π²Ρ‹ построили классификатор Ρ„Ρ€ΡƒΠΊΡ‚ΠΎΠ², ΠΎΠ½ сказал Π±Ρ‹: Β«Π­Ρ‚ΠΎ апСльсин, это яблоко», Π½Π° основании Ρ‚ΠΎΠ³ΠΎ, Ρ‡Ρ‚ΠΎ Π²Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ Π΅ΠΌΡƒ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ яблок ΠΈ апСльсинов.

  • ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ являСтся Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ обучСния Π±Π΅Π· контроля , Ρ‡Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π²Ρ‹ Π²ΠΈΠ΄Π΅Π»ΠΈ ΠΌΠ½ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ², Π½ΠΎ Ρƒ вас Π½Π΅Ρ‚ ярлыков.

Π’ этом случаС кластСризация ΠΌΠΎΠΆΠ΅Ρ‚ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Ρ‚ΡŒΡΡ с Β«Ρ„Ρ€ΡƒΠΊΡ‚Π°ΠΌΠΈ с мягкой ΠΊΠΎΠΆΠ΅ΠΉ ΠΈ мноТСством ямочСк», Β«Ρ„Ρ€ΡƒΠΊΡ‚Π°ΠΌΠΈ с блСстящСй Ρ‚Π²Π΅Ρ€Π΄ΠΎΠΉ ΠΊΠΎΠΆΠ΅ΠΉΒ» ΠΈ «вытянутыми ΠΆΠ΅Π»Ρ‚Ρ‹ΠΌΠΈ Ρ„Ρ€ΡƒΠΊΡ‚Π°ΠΌΠΈΒ», основанными Π½Π΅ просто Π½Π° Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΌΠ½ΠΎΠ³ΠΎ Ρ„Ρ€ΡƒΠΊΡ‚ΠΎΠ² систСмС, Π½ΠΎ Π½Π΅ Π½Π° выявлСнии названия Ρ€Π°Π·Π½Ρ‹Ρ… Π²ΠΈΠ΄ΠΎΠ² Ρ„Ρ€ΡƒΠΊΡ‚ΠΎΠ².Π‘ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΠ³ΠΎ, ΠΎΠ½ΠΈ Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ кластСрами

. ОбъяснСниС Ρ€Π°Π·Π»ΠΈΡ‡ΠΈΠΉ ΠΌΠ΅ΠΆΠ΄Ρƒ кластСризациСй ΠΈ классификациСй.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Π° Π½Π° Π΄Π²Π΅ ΠΏΠΎΠ΄Π³Ρ€ΡƒΠΏΠΏΡ‹:

  • ЖСсткая кластСризация: Π­Ρ‚ΠΎ , ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π½ΠΎΠ΅ для Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ элСмСнтов Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ назначаСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄Π½ΠΎΠΌΡƒ кластСру. , НапримСр, ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ ΠΏΡ€ΠΎΡ‡ΠΈΡ‚Π°Π» всС Ρ‚Π²ΠΈΡ‚Ρ‹ ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ», являСтся Π»ΠΈ Ρ‚Π²ΠΈΡ‚ ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ ΠΈΠ»ΠΈ ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ Ρ‚Π²ΠΈΡ‚ΠΎΠΌ.
  • Soft Clustering : Иногда Π½Π°ΠΌ Π½Π΅ Π½ΡƒΠΆΠ΅Π½ Π΄Π²ΠΎΠΈΡ‡Π½Ρ‹ΠΉ ΠΎΡ‚Π²Π΅Ρ‚.Мягкая кластСризация Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ элСмСнтов Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ ΠΌΠΎΠ³ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ Π² Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… кластСрах.

НиТС ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ формирования кластСров

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ DBSCAN

На основС плотности

Π’ этой ΠΌΠΎΠ΄Π΅Π»ΠΈ кластСризации Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒΡΡ поиск пространства Π΄Π°Π½Π½Ρ‹Ρ… для областСй с Ρ€Π°Π·Π»ΠΈΡ‡Π½ΠΎΠΉ ΠΏΠ»ΠΎΡ‚Π½ΠΎΡΡ‚ΡŒΡŽ Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ… Π² пространствС Π΄Π°Π½Π½Ρ‹Ρ…. Он ΠΈΠ·ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ области плотности Π½Π° основС Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… плотностСй, ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² пространствС Π΄Π°Π½Π½Ρ‹Ρ….

Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠ°Ρ основа

Π’ этих ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… ΠΌΡ‹ строим кластСры ΠΊΠ°ΠΊ Π΄Ρ€Π΅Π²ΠΎΠ²ΠΈΠ΄Π½ΡƒΡŽ структуру Π½Π° основС ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ.Π£ Π½ΠΈΡ… Π΅ΡΡ‚ΡŒ Π΄Π²Π΅ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ: Π°Π³Π»ΠΎΠΌΠ΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΉ (восходящий ΠΏΠΎΠ΄Ρ…ΠΎΠ΄) ΠΈ Π΄Π΅Π»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ (нисходящий ΠΏΠΎΠ΄Ρ…ΠΎΠ΄). Ex. ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ с использованиСм прСдставитСлСй (CURE), Ббалансированная итСративная рСдукционная кластСризация с использованиСм ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΉ (BIRCH) ΠΈ Ρ‚. Π”.

ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ K-Means

На базС Centroid

На Π±Π°Π·Π΅ Centroid являСтся ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ кластСризации, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ кластСры Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΡŽΡ‚ΡΡ ΠΈΠ·-Π·Π° близости Π΄Π°Π½Π½Ρ‹Ρ… ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π½Π° Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ кластСров. Π—Π΄Π΅ΡΡŒ Ρ†Π΅Π½Ρ‚Ρ€ кластСра, Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ , сконструирован Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ расстояниС Ρ‚ΠΎΡ‡Π΅ΠΊ Π΄Π°Π½Π½Ρ‹Ρ… Π±Ρ‹Π»ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΌ с Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΌ

Π½Π° основС сСтки,

Π’ этих способах кластСры ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ ΡΠ΅Ρ‚Ρ‡Π°Ρ‚ΡƒΡŽ структуру.ΠŸΡ€Π΅ΠΈΠΌΡƒΡ‰Π΅ΡΡ‚Π²ΠΎ этих ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎ всС ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ кластСризации, выполняСмыС Π² этих сСтках, Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ быстро ΠΈ Π½Π΅ зависят ΠΎΡ‚ количСства ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…. Ex. Π‘Π΅Ρ‚ΠΊΠ° статистичСской ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ (STING), кластСризация Π² квСстС (CLIQUE).

Одним ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Ρ… сообраТСний, ΠΊΠ°ΡΠ°ΡŽΡ‰ΠΈΡ…ΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ML, являСтся ΠΎΡ†Π΅Π½ΠΊΠ° Π΅Π΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, ΠΈΠ»ΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, качСство ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π’ случаС ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² обучСния ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ качСство нашСй ΠΌΠΎΠ΄Π΅Π»ΠΈ Π»Π΅Π³ΠΊΠΎ, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ Ρƒ нас ΡƒΠΆΠ΅ Π΅ΡΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΊΠΈ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°.

Π‘ Π΄Ρ€ΡƒΠ³ΠΎΠΉ стороны, Π² случаС Π½Π΅ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² обучСния ΠΌΡ‹ Π½Π΅ Ρ‚Π°ΠΊ счастливы, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ ΠΈΠΌΠ΅Π΅ΠΌ Π΄Π΅Π»ΠΎ с Π½Π΅ΠΌΠ°Ρ€ΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ. Но, Ρ‚Π΅ΠΌ Π½Π΅ ΠΌΠ΅Π½Π΅Π΅, Ρƒ нас Π΅ΡΡ‚ΡŒ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π΄Π°ΡŽΡ‚ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΡƒΡŽΡ‰ΠΈΠΌ спСциалистам ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ происходящих ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π² кластСрах Π² зависимости ΠΎΡ‚ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°.

ΠšΠ°ΠΊΠΎΠ²Ρ‹ ΠΊΡ€ΠΈΡ‚Π΅Ρ€ΠΈΠΈ сравнСния Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² кластСризации

Π’Π΅ΠΏΠ΅Ρ€ΡŒ Ρ…ΠΎΡ€ΠΎΡˆΠΈΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ Π½Π° созданиС кластСров, Ρ‡ΡŒΠΈ:

  • Π‘Ρ…ΠΎΠΆΠ΅ΡΡ‚ΡŒ Π²Π½ΡƒΡ‚Ρ€ΠΈ кластСра (Π΄Π°Π½Π½Ρ‹Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΈΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‚ Π²Π½ΡƒΡ‚Ρ€ΠΈ кластСра, ΠΏΠΎΡ…ΠΎΠΆΠΈ Π΄Ρ€ΡƒΠ³ Π½Π° Π΄Ρ€ΡƒΠ³Π°)
  • ΠœΠ΅ΠΆΠΊΠ»Π°ΡΡ‚Π΅Ρ€Π½ΠΎΠ΅ сходство мСньшС (ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ кластСр содСрТит ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ, которая Π½Π΅ ΠΏΠΎΡ…ΠΎΠΆΠ° Π½Π° Π΄Ρ€ΡƒΠ³ΡƒΡŽ)

ΠŸΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ ΠΌΡ‹ углубимся Π² Ρ‚Π°ΠΊΠΈΠ΅ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ, ΠΌΡ‹ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ эти ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΡ†Π΅Π½ΠΈΠ²Π°ΡŽΡ‚ ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π΄Ρ€ΡƒΠ³ ΠΏΡ€ΠΎΡ‚ΠΈΠ² Π΄Ρ€ΡƒΠ³Π°, Π° Π½Π΅ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ достовСрности ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Анализ силуэта

Анализ силуэта ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для изучСния расстояния разноса ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΌΠΈ кластСрами.

Билуэт-Π³Ρ€Π°Ρ„ΠΈΠΊ ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ ΠΌΠ΅Ρ€Ρƒ Ρ‚ΠΎΠ³ΠΎ, насколько Π±Π»ΠΈΠ·ΠΊΠΎ каТдая Ρ‚ΠΎΡ‡ΠΊΠ° Π² ΠΎΠ΄Π½ΠΎΠΌ кластСрС находится ΠΊ позициям Π² сосСдних кластСрах, ΠΈ, Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, прСдоставляСт способ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΎΡ†Π΅Π½ΠΊΠΈ Ρ‚Π°ΠΊΠΈΡ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², ΠΊΠ°ΠΊ количСство кластСров.

Анализ силуэта

ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΠΌ, Ρƒ вас Π΅ΡΡ‚ΡŒ Π½Π°Π±ΠΎΡ€ Ρ‚ΠΎΡ‡Π΅ΠΊ; ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· Π½ΠΈΡ… прСдставляСт Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ класса. НапримСр, Π²Ρ‹ Ρ‚ΠΎΡ‡Π½ΠΎ Π·Π½Π°Π΅Ρ‚Π΅, Ρ‡Ρ‚ΠΎ это Β«ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π½Ρ‹ΠΉ вопрос», Β«Π½Π°ΡƒΡ‡Π½Ρ‹ΠΉ вопрос», «философский вопрос».Но Π²Ρ‹ Π½Π΅ Π·Π½Π°Π΅Ρ‚Π΅, Ρ‡Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ Ρ‡Ρ‚ΠΎ, ΠΈ Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ ярлыки для Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… Π² Ρ€Π°Π·ΡƒΠΌΠ½Ρ‹Π΅ сроки.

Π˜Ρ‚Π°ΠΊ, Π²Ρ‹ запускаСтС k-срСдних (Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации) с k = 3 (для числа классов), ΠΈ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Π²Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚Π΅:

  • Π’Ρ€ΠΈ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра (Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ являСтся Ρ‚ΠΎΡ‡ΠΊΠΎΠΉ, которая прСдставляСт собой ΠΈΠ΄Π΅Π°Π»ΡŒΠ½Ρ‹ΠΉ элСмСнт кластСра)
  • Π’Ρ€ΠΈ подмноТСства исходного Π½Π°Π±ΠΎΡ€Π°, ΠΊΠ°ΠΆΠ΄ΠΎΠ΅ подмноТСство соотвСтствуСт своСму кластСру

Π’Ρ‹ Π΄ΠΎ сих ΠΏΠΎΡ€ Π½Π΅ Π·Π½Π°Π΅Ρ‚Π΅, ΠΊΠ°ΠΊΠΎΠΉ кластСр являСтся ΠΊΠ°ΠΊΠΈΠΌ классом, ΠΈ ΠΈΠΌΠ΅ΡŽΡ‚ Π»ΠΈ ΠΎΠ½ΠΈ Π²ΠΎΠΎΠ±Ρ‰Π΅ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ смысл.Π’ этом случаС Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ свои Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΡƒΡ‚Π΅ΠΌ простой Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ ΠΈΠ· кластСров ΠΈ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ качСства классификации. Если вопросы Ρ€Π°Π·Π΄Π΅Π»Π΅Π½Ρ‹ Ρ€Π°Π·ΡƒΠΌΠ½ΠΎ, Π²Ρ‹ ΠΌΠΎΠΆΠ΅Ρ‚Π΅ Π·Π°Ρ€Π΅Π³ΠΈΡΡ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅Ρ‚ΠΊΡƒ для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ кластСра ΠΈ Π»ΠΈΠ±ΠΎ ΠΏΠΎΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ вСсь Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ…, ΠΎΠ±ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡƒΡŽ модСль ΠΈΠ»ΠΈ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΡ‚ΡŒ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ кластСр k-срСдних, сохраняя ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊΠΎΠΉ кластСр соотвСтствуСт ΠΊΠ°ΠΊΠΎΠΌΡƒ классу.

ΠœΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°ΠΉΡ‚ΠΈ ΠΊΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΠΉ Π² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… областях:

БСгмСнтация ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² : Π Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π½Π° Π³Ρ€ΡƒΠΏΠΏΡ‹ / сСгмСнты Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ сСгмСнт ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² состоит ΠΈΠ· ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² с ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌΠΈ характСристиками Ρ€Ρ‹Π½ΠΊΠ° β€” Ρ†Π΅Π½ΠΎΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠ΅, Π»ΠΎΡΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ, ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ расходов ΠΈ Ρ‚. Π”.НСкоторыС ΠΈΠ· ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… сСгмСнтации ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, количСство ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚ΠΎΠ², ΠΊΡƒΠΏΠ»Π΅Π½Π½Ρ‹Ρ… Π½Π° ΠΏΡ€ΠΎΠ΄Π°ΠΆΡƒ, срСдняя ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Ρ‚Ρ€Π°Π½Π·Π°ΠΊΡ†ΠΈΠΈ, ΠΎΠ±Ρ‰Π΅Π΅ количСство Ρ‚Ρ€Π°Π½Π·Π°ΠΊΡ†ΠΈΠΉ.

Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ NewsFeeds : K-срСдства ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ для Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΠΎΠ²ΠΊΠΈ статСй ΠΏΠΎ ΠΈΡ… сходству β€” ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ Ρ€Π°Π·Π΄Π΅Π»ΡΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ Π½Π° Π½Π΅ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°ΡŽΡ‰ΠΈΠ΅ΡΡ кластСры.

Π‘Ρ€Π΅Π΄Π° ΠΎΠ±Π»Π°Ρ‡Π½Ρ‹Ρ… вычислСний : ΠšΠ»Π°ΡΡ‚Π΅Ρ€Π½ΠΎΠ΅ Ρ…Ρ€Π°Π½ΠΈΠ»ΠΈΡ‰Π΅ для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Смкости ΠΈΠ»ΠΈ надСТности β€” кластСризация распрСдСляСт Ρ€Π°Π±ΠΎΡ‡ΠΈΠ΅ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π½Π° ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ сСрвСр, управляСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… Π½Π°Π³Ρ€ΡƒΠ·ΠΎΠΊ ΠΌΠ΅ΠΆΠ΄Ρƒ сСрвСрами ΠΈ обСспСчиваСт доступ ΠΊΠΎ всСм Ρ„Π°ΠΉΠ»Π°ΠΌ с любого сСрвСра нСзависимо ΠΎΡ‚ физичСского располоТСния Π΄Π°Π½Π½Ρ‹Ρ….

ЭкологичСскиС риски : K-срСдства ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для Π°Π½Π°Π»ΠΈΠ·Π° экологичСского риска Π² Π·ΠΎΠ½Π΅ β€” Π·ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ экологичСского риска химичСской ΠΏΡ€ΠΎΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΎΠΉ Π·ΠΎΠ½Ρ‹.

РаспознаваниС ΠΎΠ±Ρ€Π°Π·ΠΎΠ² Π½Π° изобраТСниях : НапримСр, для автоматичСского обнаруТСния Π·Π°Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹Ρ… Ρ„Ρ€ΡƒΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ для сСгмСнтации ΠΊΠ»Π΅Ρ‚ΠΎΠΊ ΠΊΡ€ΠΎΠ²ΠΈ для выявлСния Π»Π΅ΠΉΠΊΠ΅ΠΌΠΈΠΈ.

Анализ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠΉ сСти

ΠžΠ±Π½Π°Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π² динамичСских Π΄Π°Π½Π½Ρ‹Ρ… β€” ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для обнаруТСния Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ² Π² динамичСских Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΡƒΡ‚Π΅ΠΌ создания Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… кластСров схоТих Ρ‚Ρ€Π΅Π½Π΄ΠΎΠ².

Анализ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… сСтСй β€” ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π² Π°Π½Π°Π»ΠΈΠ·Π΅ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Ρ… сСтСй. ΠŸΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΡŽΡ‚ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π² изобраТСниях, Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ»ΠΈ Π°ΡƒΠ΄ΠΈΠΎ, ΠΈ этот ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… областях.

Анализ биологичСских Π΄Π°Π½Π½Ρ‹Ρ… β€” ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ Ρ‚Π°ΠΊΠΆΠ΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для создания кластСров ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Π²ΠΈΠ΄Π΅ΠΎ; ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, это ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π² Π°Π½Π°Π»ΠΈΠ·Π΅ биологичСских Π΄Π°Π½Π½Ρ‹Ρ….

Π”Ρ€ΡƒΠ³ΠΈΠ΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ кластСризации для изучСния

Π”Π°, ΠΌΡ‹ вошли Π²ΠΎ вступлСниС ΠΊ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡƒ кластСризации.Π― надСюсь, Ρ‡Ρ‚ΠΎ Π²Ρ‹ поняли ΠΎΡΠ½ΠΎΠ²Π½ΡƒΡŽ идСю ΠΎΠ± этом.

Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΠΈΠ·ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹ΠΉ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ кластСризации.

  *  Для понимания кластСризации DBSCAN:  Π›ΡƒΡ‡ΡˆΠΈΠ΅ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ кластСризации DBSCAN   *  Для ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ кластСризации BIRCH :   ΠšΠ»Π°ΡΡ‚Π΅Ρ€ΠΈΠ·Π°Ρ†ΠΈΡ BIRCH ясно объяснСно   *  Для ΠΈΠ΅Ρ€Π°Ρ€Ρ…ΠΈΠΈ Heirarchial:  Π˜Π΅Ρ€Π°Ρ€Ρ…ΠΈΡ‡Π΅ΡΠΊΠ°Ρ кластСризация  * для GME Ясно Π›ΡƒΡ‡ΡˆΠΈΠ΅ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ :   Π›ΡƒΡ‡ΡˆΠΈΠ΅ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ кластСризации: модСль гауссовой смСси (GMM)  

Бпасибо Π·Π° Ρ‡Ρ‚Π΅Π½ΠΈΠ΅.НС ΡΡ‚Π΅ΡΠ½ΡΠΉΡ‚Π΅ΡΡŒ ΠΎΡΡ‚Π°Π²Π°Ρ‚ΡŒΡΡ Π½Π° связи для большСго!

.

Π”ΠΎΠ±Π°Π²ΠΈΡ‚ΡŒ ΠΊΠΎΠΌΠΌΠ΅Π½Ρ‚Π°Ρ€ΠΈΠΉ

Π’Π°Ρˆ адрСс email Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½. ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ поля ΠΏΠΎΠΌΠ΅Ρ‡Π΅Π½Ρ‹ *