Виды и классификация: Классификация — это… Что такое Классификация?

Содержание

Классификация — это… Что такое Классификация?

Классификация (классифицирование) (от лат. classis — разряд и лат. facere — делать) — «особый случай применения логической операции деления объема понятия, представляющий собой некоторую совокупность делений (деление некоторого класса на виды, деление этих видов и т. д.)»[1].

«Классификация — это осмысленный порядок вещей, явлений, разделение их на разновидности согласно каким-либо важным признакам.»[2]

Классификация предназначена для постоянного использования в какой-либо науке или области практической деятельности (например, классификация животных и растений). Обычно в качестве основания деления в классификации выбирают признаки, существенные для данных предметов. В этом случае классификация (называемая естественной) выявляет существенные сходства и различия между предметами и имеет познавательное значение. В других случаях, когда цель классификации состоит лишь в систематизации предметов, в качестве основания выбираются признаки, удобные для этой цели, но несущественные для самих предметов (например, алфавитные каталоги). Такие классификации называют искусственными.

Наиболее ценными являются классификации, основанные на познании законов связи между видами, перехода от одного вида к другому в процессе развития (такова, например, классификация химических элементов, созданная Менделеевым).

Классификация по существенным признакам называется типологией; она основана на понятии типа, как единицы расчленения изучаемой реальности, конкретной идеальной модели исторически развивающихся объектов (биологические, языковые и т. п. типологии).

Всякая классификация является результатом некоторого огрубления действительных граней между видами, ибо они всегда условны и относительны. С развитием знаний происходит уточнение и изменение классификаций.

Делением называется раскрытие объема известного понятия; оно происходит путем перечисления всех видов (то есть меньших по объему понятий), входящих в состав делимого понятия. Отсюда ясно, что разделены могут быть только общие понятия, охватывающие собой различные части; ясно также, что для деления необходимо иметь основание или принцип (principium divisionis), делающий возможным правильное перечисление полученных благодаря делению членов его (parles divisionis).

От правильного деления требуется:

  1. полнота деления: все члены деления должны быть перечислены;
  2. чистота: члены деления не являются пересекающимися понятиями.

Основанием для деления может служить любой признак делимого понятия. Пользуясь признаком как принципом деления можно, при посредстве закона противоречия, всегда получить чистое двухчленное деление (дихотомию), например делить предметы на неорганические и органические, и т. д. Все сказанное имеет полное применение к классификации.

Когда исследователь имеет перед собой сложный ряд однородных явлений, то он:

  1. должен их расположить в известном порядке, удобном для исследования;
  2. должен сгруппировать сходные явления и отличить их от тех, которые только кажутся сходными с ними, в действительности же отличны от них;
  3. должен расположить эти группы в таком порядке, чтобы степень сродства их и взаимной зависимости выражались бы в самом расположении.

Классифицируя явления, их можно делить на группы, эти группы вновь подразделять и т. д.; например, понятие царства (хотя бы животных) можно разделить на классы, классы на роды, роды на виды, виды на подвиды и т. д. Исследователь, производя это деление, может иметь в виду различные цели, объективные или субъективные, причем и характер классификации зависит от ее цели.

Примеры классификаций

Правила классифицирования (деления объёма понятия)

  • В одной и той же классификации необходимо применять одно основание.
  • Объём членов классификации должен равняться объёму классифицируемого класса.
  • Члены классификации должны взаимно исключать друг друга.
  • Подразделение на подклассы должно быть непрерывным
    [3]
    .

См. также

Ссылки

Примечания

Классификация — Гуманитарный портал

Классификация — это общенаучный метод систематизации знания, направленный на организацию некоторой совокупности (множества) изучаемых объектов различных областей действительности, знания и деятельности, в систему соподчинённых групп (классов), по которым эти объекты распределены на основании их сходства в определённых сущностных свойствах. Класс — это конечная или бесконечная совокупность объектов, выделенная по некоторому общему для них признаку (свойству или отношению), мыслимая как нечто целое. Объекты, составляющие класс, называются его элементами. Основной принцип классификации состоит в том, что каждый элемент совокупности объектов, которую она охватывает, должен попасть в то или иное подмножество. Тем самым, главная цель классификации заключается в определении места в системе любого объекта и установлении между ними наличия некоторых связей, что определяет дальнейшее нормативно-мерное упорядочивание множества, которое разбивается на гетерономные друг по отношению к другу, но гомогенные внутри себя по какому-либо признаку, отделённые друг от друга подмножества. Субъект, владеющий ключом (критерием) классификации, получает возможность ориентироваться в многообразии объектов. Классификация всегда отражает имеющийся на данный момент времени уровень знания, суммирует его, задаёт его «топологическую карту». С другой стороны, классификация позволяет обнаруживать пробелы в существующем знании, служить основанием для диагностических и прогностических процедур. В так называемой описательной науке классификация выступала итогом (целью) познания (например, систематика в биологии, попытки по разным основаниям классифицировать науки и так далее), а дальнейшее развитие представлялось как её усовершенствование или предложение новой классификации. Таким образом, термин «классификация» используется как для обозначения указанной процедуры, так и для обозначения её результата.

Классификация призвана решать две основные задачи: представлять в надёжном и удобном для обозрения и распознавания виде всю изучаемую область и заключать в себе максимально полную информацию о её объектах. Различают естественные и искусственные классификации в зависимости от существенности признака, который кладётся в её основу. Естественные классификации предполагают нахождение значимого критерия различения, искусственные могут быть в принципе построены на основании любого признака. Вариантом искусственных классификаций являются различные вспомогательные классификации типа алфавитных, технических и тому подобных указателей. Разные классификации по-разному справляются со своими задачами. Так, искусственная классификация, в которой группировка осуществляется на основании лишь отдельных, произвольно выбранных и удобно различимых свойств объектов, может решить только первую из указанных задач. В естественной классификации группировка происходит на основании комплекса свойств объектов, выражающих их природу, и таким образом объединяет их в естественные группы, а сами группы в единую систему. В такой классификации число свойств классифицируемых объектов, поставленных в соответствие с их положением в системе, является наибольшим по сравнению с любой другой группировкой этих объектов. Естественная классификация, в отличие от искусственной, основываясь на полноте понимания содержания классифицируемых объектов, является не просто описательно-распознавательной, а пояснительной, объясняющей причины общности свойств классификационных групп, равно как и характер отношений между группами. Известными примерами естественной классификации в науках (см. Наука) являются: периодическая система химических элементов, классификация кристаллов на основе фёдоровских групп преобразований, филогенетические систематики в биологии, генеалогическая и морфологическая классификации языков. В отличие от искусственной классификации, зачастую строящейся на прагматических основаниях, естественная классификация возникает на основе материала наблюдений и массива опытных данных той или иной области знания в результате синтеза эмпирических обобщений и теоретических представлений. В целом, естественная классификация всегда в той или иной степени является содержательно-обоснованной типологией (см. Типология), способной решать содержательные задачи и прогнозировать новые результаты.

Наряду с естественными и искусственными, различают теоретические и эмпирические классификации. Существуют и иные деления классификаций, например на общие и частные (специальные). Общие классификации содержат обзор всей области объектов определённого рода, группируют их на основании свойств, выражающих их природную общность самих по себе, и несут информацию о причине этой общности, то есть о некоторой естественной закономерности. Общие классификации имеют место в фундаментальных науках, главная задача которых состоит в объективном познании действительности через выявление доминирующих в ней законов. Тогда как частные, или специальные, классификации характерны, прежде всего, для прикладных, практических отраслей знания, целью которых является обеспечение деятельности. Предметная область частных, или специальных, классификаций более узкая, чем у общих классификаций. Они также исходят из объективных и зачастую немаловажных свойств классифицируемых объектов, но вся группировка в целом осуществляется здесь в целях удовлетворения определённых прагматических запросов. В целом, специальные классификации дополняют и расширяют то знание, которое дают общие классификации.

В логике (см. Логика) классификация является частным случаем деления — логической операции над понятиями. Деление — это распределение на группы тех предметов, которые мыслятся в исходном понятии. Получаемые в результате деления группы называются членами деления. Признак, по которому производится деление, именуется основанием деления. В каждом логическом делении имеются, таким образом, делимое понятие, основание деления и члены деления.

По своей структуре, то есть типу отношений, в которых находятся составляющие её понятия, а именно отношений субординации и координации, классификация отличается от других форм систематизации знания (см. Систематика), например характерных для математизированного естествознания параметрических систем, где понятия соотносятся своими количественными показателями. В то же время, классификация может осуществляться не только по качественным, но и по параметрическим особенностям изучаемых объектов, имея своим основанием и результатом количественные показатели. Такая группировка широко используется, в частности, в статистике, составляя базу статистических методов, которые, как известно, применяются только к количественно выраженным данным. В таких случаях группировки производятся на основании признаков, поддающихся измерению и поэтому имеющих те или иные численные значения, а весь порядок так образованных групп наводит на некоторое распределение численностей или функциональную зависимость. Когда имеется множество (сотни или тысячи) просто зарегистрированных значений какого-нибудь количественного признака, ум не в состоянии охватить подлинный смысл изучаемого явления. Для того чтобы выявить его характерные черты, необходимо каким-то образом сжато выразить имеющиеся данные, уплотнить их посредством группировки. При этом группировка должна быть такой, при которой была бы не утрачена и не искажена значительная часть собранных данных и в итоге получена достаточно точная картина исследуемого явления. Качественные и количественные классификации не перекрывают друг друга. Даже имея своим предметом одни и те же объекты, они рассматривают их разные аспекты и сосуществуют в общем комплексе исследований этих объектов.

Классификации обычно представляются в форме деревьев или таблиц, которые в конечном итоге могут быть сведены к структуре древообразного иерархического порядка (см. Рис. № 1).

Рис. № 1. Дерево классификации.

Дерево классификации выглядит как множество точек (вершин), соединённых линиями (рёбрами). Каждая вершина представляет некоторый класс предметов (объёмов понятий), обладающих одинаковыми признаками. Эти классы называют таксонами (таксономическими единицами — см. Таксономия). Рёбра же показывают, на какие подвиды разбиваются данные таксоны. Вершина K0 называется корнем дерева. Она репрезентирует (представляет) исходное множество предметов. Таксоны группируются по ярусам. В каждом ярусе собраны таксоны, полученные в результате применения одинакового числа операций деления к исходному понятию. Те таксоны, которые в данной классификации уже далее не делятся на свои виды, называются концевыми таксонами. Предельной является такая классификация, все концевые таксоны которой представляют собой единичные понятия. Однако в зависимости от целей, которые преследуются при построении классификации, концевые таксоны могут и не быть единичными понятиями.

Логической основой построения различного рода классификаций является операция деления понятий, а потому при классифицировании предметов должны выполняться все правила деления, специфицированные относительно классификации. Так, требование, чтобы деление осуществлялось по одному основанию, сохраняется, но теперь разрешается, чтобы каждый акт деления осуществлялся по собственному основанию, отличному от оснований, которые использовались в других актах деления. Сохраняется и требование, чтобы члены деления исключали друг друга, но теперь это относится только к таксонам одного и того же яруса (ясно, что таксоны разных ярусов этому требованию удовлетворять не могут). Дополнительно вводится ещё одно требование — классификация должна быть соразмерной, то есть она должна быть непрерывной, без скачков (пропусков ярусов).

При построении классификации используются обе разновидности деления — дихотомия и по видоизменению основания. Примером дихотомии может служить так называемое «древо Порфирия», в котором греческий философ Порфирий представил содержание философского понятия субстанции (см. Рис. № 2).

Рис. № 2. «Древо Порфирия», в котором представлено содержание философского понятия субстанции.

Всякая добротная классификация требует разработки соответствующей ей номенклатуры — системы однозначных наименований для всех классификационных групп. При этом номенклатура должна отличаться уникальностью, то есть каждое наименование должно быть единственным и отличным от других; универсальностью, то есть являть единый набор наименований, принятый всеми специалистами в противовес названиям тех же групп в обычных народных языках; стабильностью, исключающей произвольные изменения наименований, и вместе с тем гибкостью, допускающей неизбежные изменения названий в связи с изменениями в классификации. Проблема создания номенклатуры выступает как специальная научная задача, которая (как это имеет место, например, в биологии), может регламентироваться специальными международными кодексами. Примеры тщательно разработанных и совершенных номенклатур дают химия, ботаника, зоология.

Развитие науки показывает, что становление классификации проходит ряд этапов: от искусственных систем к выделению естественных групп и далее к установлению системы естественной классификации. Так, химические элементы первоначально группировались искусственным образом по отдельным физическим свойствам. Затем сходные элементы объединялись уже в естественные группы на основании многих и разнообразных чисто химических свойств. Открытие Д. И. Менделеевым периодической зависимости свойств химических элементов от их атомного веса позволило упорядочить сами группы в целостной системе естественной классификации. В дальнейшем система Менделеева, которая была глубоким, но всё же эмпирическим обобщением, подверглась теоретической обработке на основе учения о строении атома. Периодичность изменения свойств элементов в зависимости от их порядкового номера в системе была объяснена периодическим изменением числа электронов в наружном слое атомов. Искусственными были и первые группировки в биологии.

Аристотель опирался на качественную классификацию физических тел, которые он делил согласно различию их «природы», определяющей способы их действия. Аристотель был пионером и в деле описания и классификации видов животных на основании систематического рассмотрения их разнообразных отличительных свойств, которые он усматривал не только в строении частей тела животных, но и в их образе жизни и поведении. Правда, таксономическая терминология Аристотеля ограничивалась лишь терминами «вид» и «род». Первый он связывал с конкретными живыми организмами, а вторым обозначал различные степени общности между видами, в связи с чем он говорил о «малых» и «больших» родах. Аристотель разработал и классификацию форм государственного правления. В зависимости от того, кто властвует — один, немногие или большинство и какие цели правления преследуются, он различал три правильные формы правления и три искажённые. В том случае, если властвующие имеют в виду общественную пользу, будут иметь место: монархия, аристократия и полития; если же правители преследуют только своё личное благо, эти три правильные формы власти превращаются в три искажённые: тиранию, олигархию и демократию. В научно-познавательной деятельности Аристотеля метод приведения вида к роду, то есть классификация, приобретал значение универсального метода исследования, и он философски обобщил этот метод, создав теорию классификации, каковой явилась его силлогистическая логика. Классификаторскую деятельность Аристотеля продолжил его ученик Теофраст, с именем которого связаны первая систематика растений, классификация камней, а также описание и определение различных человеческих характеров.

В целом, Аристотелевская традиция и концепция классификации в тех или иных проявлениях дожила до XVIII века и завершилась развёрнутой системой К. Линнея. В «Системе природы» Линнея предлагались описательные систематики всех трёх царств природы — минералов, растений и животных, которые он стремился строить в строгом соответствии с принципами аристотелевской логики. Линней создал целостную, чёткую, практически удобную для ориентировки в многообразии растительных форм, но, как он сам считал, искусственную классификацию. К этому времени в целом ряде областей естествознания — кристаллографии, минералогии, ботанике, зоологии — был собран огромный эмпирический материал, настоятельно нуждавшийся в систематизации. Эволюционная теория Ч. Дарвина, указавшая, что причина сходства живых организмов лежит в общности их происхождения, положила начало естественной, филогенетической систематике, в которой расположение классификационных групп соответствует путям эволюционного развития. Со второй половины XIX века эволюционизм проникает в различные сферы знания и становится почти обязательным компонентом научных воззрений. Это способствует разработке генеалогических и историко-генетических классификаций и в других науках, помимо биологии, и таким классификациям придаётся более высокий научный статус, чем описательным морфологическим систематикам. Вместе с тем, этот род классификаций сразу выводит их из сферы сугубо эмпирического знания и показывает решающее значение для научной систематизации теоретического начала.

В XX веке задачи построения генетических и генеалогических классификаций, а также обращение к глубинным структурным началам как факторам, объясняющим эмпирические общности в химической, кристаллографической, минералогической классификациях, привлекли внимание к теоретическим аспектам классификации, а в последние десятилетия среди специалистов различных отраслей знания стал обсуждаться вопрос о создании теории классификации, долженствующей обеспечить эффективность классификационной работы в науке. При этом одни видели свою задачу в разработке частных теорий классификации, ориентированных на те или иные конкретные области естествознания, другие же задались целью построить общую теорию классификации, приложимую ко всем его областям. Задача первых вписывается в компетенцию тех конкретных наук, классификациями которых они занимаются, цель же вторых измеряется общеметодологическим масштабом (см. Методология) и представляет собой феномен методологии науки (см. Методология науки).

Классификация товаров: понятие, виды

Ассортимент потребительских товаров, к которым относятся медицинские и фармацевтические товары, насчитывает десятки тысяч самых различных видов и разновидностей товаров, которые невозможно достаточно полно изучить, если не сгруппировать и не упорядочить их каким-либо образом. Этим целям служит классификация товаров, которая способствует систематизированному изучению товаров, рациональной организации торговли, дает возможность эффективно проводить работу по контролю качества, изучать и формировать структуру ассортимента.

Классификация товаров рассматривается как составная часть товароведения, для которой существуют общие принципы и правила, а также специфические особенности в зависимости от вида товаров.

Большое значение уделяется классификации в настоящее время в связи с функционированием автоматизированных систем управления и обработкой экономической информации на ЭВМ.

Термин «классификация» происходит от слова классифицировать (лат. classis — разряд, facere — делать), т. е. распределять множество объектов на классы (разряды, группы) в зависимости от общих признаков.

Классификация — это система распределения объектов, в которой все части взаимосвязаны и определенным образом соподчинены.

В соответствии с Отраслевым стандартом 91500.01.0003-2000 «Принципы и порядок построения классификаторов в здравоохранении. Общие положения» определение классификации дается следующим образом:

Классификация — это разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами.

Каждая составная часть классификации в свою очередь представляет собой комплекс сходных объектов, имеющих хотя бы один общий признак.

Классификация товаров необходима в целях:

— автоматизированной обработки информации о товарах;

— изучения потребительских свойств и качества товаров;

— учета и планирования товарооборота;

— составления прейскурантов, каталогов;

— совершенствования системы стандартизации;

— размещения товаров для хранения;

— сертификации продукции;

— проведения маркетинговых исследований товаров;

— статистического анализа реализации продукции. Существующие виды классификаций представлены на

 Основные виды классификаций

 Основные виды классификаций

Иерархическая классификация (слово греческого происхождения, означает расположение в порядке от высшего к низшему) — это последовательное разделение множества объектов на подчиненные классификационные группировки (подмножества вместе представляют единое целое). Каждое последующее звено в ней должно конкретизировать признак вышестоящего звена. Для обозначения звеньев классификации используются термины: класс, подкласс, вид, разновидность, группа, подгруппа, подвид. Примером иерархической классификации является таблица Д. И. Менделеева.

Фасетная классификация (от фр.facette — грань отшлифованного камня) представляет параллельное разделение множества объектов на независимые классификационные группировки (подмножества). Например, в отношении медицинских товаров — это классификация по назначению (предметы ухода за больными, предметы санитарии и гигиены и др.).

Иерархические классификации, как правило, громоздки, многоступенчаты, создают много трудностей при разработке. Однако они отличаются большей стройностью, чем фасетныс, и возможностью группировки объектов по всем признакам, характеризующим ту или иную группу товаров.

Фасетная классификация отличается большой гибкостью и удобством пользования, позволяет в каждом отдельном случае ограничивать группу множества товаров лишь несколькими фасетами, представляющими интерес в данном случае. Такие классификации во многих случаях лежат в основе составления классификаторов и кодирования объектов классификации.

Естественные классификации основываются на существенном признаке, характеризующем внутренную общность предметов каждой группы, их природу (например, распределение ЛС по фармакологическим группам — антибиотики, сульфаниламиды, гормоны и т. п.).

Вспомогательные классификации опираются на внешние, часто несущественные признаки и применяются, как правило, для придания множеству товаров определенного порядка (например, ЛС, применяющиеся для лечения сердечно-сосудистых заболеваний, проти-воинфекционные и т. п.).

Существуют определенные принципы и правила классификаций, от соблюдения которых зависит систематичность и целостность полученной системы. В основе же любой классификации лежит цель, которая дает возможность подобрать классификационный метод, номенклатуру, число признаков, порядок их использования и т.д. Как правило, более систематичными могут быть классификации, имеющие одну цель. Таким образом, классификацией товаров называют распределение их множества на отдельные группы по определенным признакам.

Для товароведения первостепенное значение имеют три классификации товаров: общегосударственная, торговая и учебная.

В 1994 г. введен в действие общероссийский классификатор продукции ОК 005-93 (утвержден постановлением Госстандарта РФ от 30 декабря 1993 г. №301). Он разработан взамен Общесоюзного классификатора промышленной и сельскохозяйственной продукции. Основное предназначение общероссийского классификатора продуции (ОКП) заключается в обеспечении достоверности, сопоставимости и автоматизированной обработки информации о продукции в различных сферах деятельности (стандартизация, статистика, экономика и др.).

ОКП представляет собой систематизированный свод кодов и наименований группировок продукции, построеннных по иерархиче-ской системе классификации._

ОКП используется при каталогизации, сертификации, реализации продукции на различных уровнях (региональном, отраслевом и т. п.), а также структуризации промышленно-экономической информации с целью осуществления снабженческо-сбытовых операций и проведения маркетинговых исследований.

Согласно ОКП всю продукцию объединяют в классы (с 01 по 98) по отраслевому принципу и виду исходного сырья. Деление продукции проводят по десятичной системе. Каждый класс делят на 10 подклассов, подкласс — на 10 групп, группу на 10 подгрупп, подгруппу — на 10 видов. Эти пять категорий составляют высшие классификационные группировки. Затем вид подразделяют на разновидности: подвиды, марки, модели и др. На основе ОКП проводят кодирование товаров.

Таким образом, в ОКП предусмотрена пятиступенчатая иерархическая классификация с цифровой десятичной системой кодирования.

На первой ступени классификации располагаются классы продукции:

XX 0000

На второй ступени — подклассы: XX Х000

Среди подклассов на уровне 2 выделяют следующие:

1000

Препараты химико-фармацевтические с общей химической структурой и полупродукты для производства медикаментов

2000

Препараты химико-фармацевтические фармакотерапевтического действия

3000

Препараты химико-фармацевтические химиотерапевтического действия

4000

Антибиотики (без кормовых)

5000

Витамины, коферменты, ферменты, аминокислоты, органопрепараты (эндокринные препараты)

6000

Препараты фармацевтические из природного сырья и пр.

7000

Сырье и продукты лекарственные растительные и животные

8000

Препараты биологические

9000

Материалы, средства медицинские и продукция медицинского назначения, пр.

OK 005-93 положен в основу общегосударственной классификации.

При наличии различных видов продукции (типы, марки, модели и др.) создаются отраслевые классификаторы продукции, в которых в качестве первых шести знаков должны использоваться коды из ОКП.

Торговая классификация предназначена только для товаров широкого потребления. Она основывается на распределении товаров на группы в соответствии с прейскурантами цен.

Учебная классификация (торговый ассортимент) предназначена для изучения ассортимента товаров широкого потребления, представленного в оптовой и розничной торговле.

Виды и классификация канатов

Стальные канаты – это проволочные изделия, изготавливаемые навивкой. Трос это часть такелажа, воспринимающего массу груза. Такие изделия применяют в судостроении, водном/автомобильном транспорте, энергетике, добыче угля, руды, нефти и т.д. В зависимости от выполняемых задач производится множество разновидностей канатов.

По структуре троса
  • Одинарные – состоят из отдельных проволок, сплетенных в виде спираликонцентрическими слоями (один либо более). Канат из круглых нитей в один слой называют спиральным или прядью. Из профильной (Z-/омегообразное, клиновидное сечение) проволоки – закрытого типа.
  • Двойные – составлены из прядей, свитых послойно. Эти тросы используются самостоятельно или служат деталью для более прочных канатов – стренг.
  • Тройные – набраны из нескольких стренг, спирально свитых в один слой.

Пряди, в зависимости от конфигурации поперечного сечения, бывают круглыми и фасоннопрядными (плоскими или трехгранными). Последние разновидности отличаются большей площадью контакта с поверхностью шкива.

В зависимости от типа плетения
  • ТК – точечный контакт проволок между слоями.
  • ЛК – линейный контакт проволоки в соседних слоях.
  • ЛК-О – линейное касание проволок между слоями, если нити в пряди одинакового сечения.
  • ЛК-Р – контакт проволоки между слоями линейный при различном диаметре нитей во внешнем ряду пряди.
  • ЛК-З – линейное касание нитей между слоями пряди и проволокой заполнения.
  • ЛК-РО – контакт по линии проволоки между слоями, внутри которых присутствуют ряды нитей одинакового и разного диаметра.
  • ТЛК – комбинация точечного и линейного контакта проволок внутри одной пряди.

Типы наиболее распространенных спиральных канатов или прядей:

  • а, б – ЛК-О;
  • в – ЛК-Р;
  • г – ЛК-З;
  • д – ЛК-РО;
  • е, ж – ТК;
  • з – ТЛК-О

В зависимости от материала, для сердечника:
  • ОС – органический, когда в центр троса либо его прядей помещено синтетическое/натуральное волокно. Здесь применяют хлопчатобумажную пряжу, пеньку, сизаль, полипропилен, полиэтилен, капрон, вискозу, лавсан, асбест.
  • МС – металлический. Используется трос сдвоенного плетения, состоящий из 7-и прядей или прядь того же строения, что и повив. Сердечник повышает структурную прочность канатов, снижает их удлинение при растяжении либо росте температуры воздуха.

Канаты с органическими сердечниками:

а, б – из натуральных материалов; в – полимерный

Канаты с металлическими сердечниками:

а – однородный; б и в – многопрядные

По навивке

Бывают нераскручивающимися (Н) и раскручивающимися. В первом случае после удаления завязки с конца троса его нити и пряди сохранят свое местоположение или легко сплетаются руками. Этому помогает деформация проволок и прядей перед их навивкой. У раскручивающегося каната его составляющие перед плетением не деформируют. Поэтому пряди и стальные нити раскручиваются вследствие снятия связки.

а – обыкновенный раскручивающийся;

б – нераскручивающийся

По уравновешенности:

Различают рихтованные канаты (обозначение Р), которые сохраняют прямолинейность с заданным допуском. Причина – напряжения в нитях и прядях после навивки снимают рихтовкой. Если эта операция не сделана, оконечность не рихтованного троса скручивается кольцом.

Направление, по которому навивают трос, бывает правым или левым (Л). Это определяется тем, как навит внешний ряд нитей у спирального каната; прядей у изделий двойной навивки или стренг для каната тройного плетения.

В зависимости от направления навивки каната и положения его составных частей различают тросы
  • С крестовым плетением, когда пряди и стренг навиты в направлении, противоположном такому же для каната.
  • Односторонние (О). В этом случае направленность навивки троса, его прядей и стренг совпадают.
  • Комбинированные (К). Это характерно при одновременном использовании для изготовления каната прядей с левой и правой навивкой.

а — левая, б — правая;

1 — односторонняя, 2 — крестовая;

В зависимости от степени закрутки канаты бывают:
  • Крутящиеся. Когда направление навивки прядей концентрических слоев троса совпадает. Это характерно для 6-ти и 8-прядных изделий, имеющих сердечник.
  • Мало крутящиеся (МК). Пряди в слоях сплетены в противоположных направлениях (тросы с одинарной навивкой, многослойные и многопрядные). Из-за правильного выбора направлений навивки нитей и прядей исключено осевое вращение каната со свободно подвешенным грузом.

Тросы бывают разного качества это зависит от механических свойств используемой проволоки:
  • высокого (ВК)
  • повышенного (В)
  • нормального (1)

Канаты могут отличаться по покрытию поверхности проволоки, когда защитного слоя нет либо нити покрыты цинком. В последнем случае известны три группы оцинковки (по условиям эксплуатации):

  • С (средне агрессивные)
  • Ж (жесткие)
  • ОЖ (особо жесткие)

Тросы предназначены для:
  • перемещения груза/людей (грузо-людские ГЛ)
  • либо исключительно грузоподъемных операций (Г)

Канаты в зависимости от качества изготовления разделены на изделия нормальной и повышенной (Т) точности.

Тросы маркируются по прочности и отличаются временным сопротивлением разрыву в пределах от 1370 (140) до 2160 (220) Н/мм2 (кГ/мм2).

Классификация и виды погрузчиков | Автобау

Машины, способные поднимать и перемещать грузы различной тяжести на ту или иную высоту, имеют наименование погрузчики. Они имеют огромное количество модификаций и форм, являются незаменимыми механизмами на стройке, складе и производстве и в зависимости от задач, привода и подъемного механизма делятся на несколько видов.
 Погрузчики классифицируют по трем большим группам:
 1. Машины с периодическим действием делятся на:
 — вилочные – при работе со штучными грузами;
 — ковшовые – используются для перемещения сыпучих материалов;
 — платформенные – применяются при монтаже и демонтаже конструкций, прекрасно справляется с функциями тягача;
 — манипуляторы – привычные для всех подъёмные краны;
 — сельскохозяйственные погрузчики-копновозы.
 2. Машины циклического действия бывают следующие:
 — транспортеры – ленточные погрузчики – перемещают грузы на нужную высоту;
 — скребковые погрузчики – применяются в сельском хозяйстве в качестве сборщиков зерна;
 — шнековые погрузчики – также используются в сельскохозяйственной отрасли;
 — многоковшовые погрузчики – используются в огромных промышленных карьерах и для снятия грунта со дна водоемов, на железобетонном производстве;
 — роторные погрузчики – прекрасно справляются с уборкой снега.
 3. Штабелеры. Применяются в сфере торговли, незаменимы для организации работы склада. Они делятся на:
 — ручные штабелеры – работа выполняется при непосредственном участии оператора механизма в подъеме груза;
 — полуэлектрические штабелеры – имеют электрический привод, облегчающий работу оператора;
 — самоходные электроштабелеры – значительно уменьшают усилия персонала склада по подъему и транспортировке грузов.
 По типу привода различают автопогрузчики и электропогрузчики. Первые оснащены двигателем внутреннего сгорания, вторые – электродвигателем.
 По типу ходовой части погрузчики бывают колесные и гусеничные.
 Большое распространение получили вилочные и ковшовые погрузчики.
 Вилочные погрузчики, как понятно из названия, оснащены прочными металлическими вилами, изогнутыми под углом 90 градусов, на которых можно поднимать, опускать и перемещать штучные грузы за счет работы специального гидравлического механизма.
 Вилочные погрузчики бывают:
 — фронтальные – вилы располагаются спереди;
 — боковые – вилы располагаются сбоку.
 В зависимости от типа используемого двигателя их разделяют на:
 — бензиновые;
 — дизельные;
 — газовые;
 — газ-бензиновые.
 Передвигаются вилочные погрузчики с помощью колесного шасси.
 Ковшовые погрузчики приобрели большую популярность на производствах, где основными грузами для перемещения являются сыпучие материалы. Ковшовые погрузчики делятся на:
 1. Одноковшовые. Подъемная система таких машин представляет собой маневровую стрелу с одним большим ковшом на конце. Их основная задача – погрузка на грузовой транспорт сыпучих материалов – грунта, угля, песка, гравия и т. д.
 По грузоподъемности и объему ковша они бывают:
 — легкие – с возможностью поднятия до 2 тонн;
 — средние – с возможностью поднятия до 4 тонн;
 — тяжелые – с возможностью поднятия до 10 тонн;
 — большегрузные с возможностью поднятия от 10 тонн и выше.
 По загрузке на транспорт одноковшовые погрузчики делятся на 3 категории:
 — задняя загрузка;
 — фронтальная загрузка;
 — боковая загрузка.
 2. Многоковшовые погрузчики – машины цикличного действия, где рабочая стрела имеет замкнутый тип в виде ленты или цепи, на которых ковши установлены на равноудаленном друг от друга расстоянии. Используются для перемещения сыпучих грузов больших объемов.

Виды и классификация станков плазм | IngTech-SMC

Станки плазменной резки применяются на различных производствах для раскроя металла, для получения заготовок, либо геометрически сложных по форме изделия из листового металлопроката.  Станок, оснащенный блоком ЧПУ, позволяет нарезать любой материал токопроводящего типа по требуемому контуру, причем именно ЧПУ практически полностью автоматизирует процесс резки.

 

  Плазменные станки по способу применения и общей конструкции делят на 2 типа:

  • Переносные — используется по большей части в капитальном строительстве и 
    художественной обработке металла. При резке перемещаются по направляющим, циркульному устройству или разметке.

  — портальные. Особенность портальных станков в том, что лист размещается не на столе, а под ходовой частью каретки. Резаки двигаются в поперечном направлении, а сам портал — в продольном.

  — портально-консольные. Такие станки для резки металла отличаются расположением листа под консольной частью машины, а на самом портале установлено копирующее устройство с ЧПУ.

  — шарнирные –раскрой ведется строго вертикально. Под шарнирной рамой крепится  лист металла для обработки. Рама с резаком установлена на вертикальной колонне.

 

Также, разделяют по типу движения и системе  управления перемещением резака:

  • линейные – прямолинейный раскрой;

  • фотокопировальные (фотоэлектронные) – фигурный рез по чертежу, где качество раскроя зависит от качества чертежа.

  • магнитно-копировальные (электромагнитные) – фигурная обработка по образцу или копиру;

  • установки с ЧПУ – позволяет задавать работу на основе электронных карт раскроя, написанных либо сохраненных программ.

 

По объему работ  станки плазменной  резки классифицируют на:

 

  • станки для обработки одного листа;

  • станки, производящие единовременно несколько резов (полосовой прокат) или же с одним резаком.

 

 

 

По виду обрабатываемого материала:

 

 

 

Конечно, время не стоит на месте, и попытаться разделить станки на более менее четкие категории будет сложно, поскольку, постоянно появляются новые конструкторские предложения от ведущих компаний по производству станков.

К примеру, наш станок последнего поколения FICEP GEMINI, помимо плазменно-кислородной резки, одновременно может похвастаться наличием шпинделя со съемным инструментом, позволяющим проводить достаточно точную мех-обработку (сверление, фрезерование, нарезку резьбы и даже гравировку).

Классификация брендов: виды и особенности | BrandHub

Термин «бренд» происходит от древненорвежского слова ««brandr», которым называли тавро для клеймения предметов обихода и скота. Современное значение бренда возникло в XIX веке. Причиной его появления стал рост производства. С увеличением конкуренции производители не могли позволить себе оставаться безымянными, поэтому стали отмечать товары уникальным знаком. А чуть позже к нему добавились фирменные цвета, форма упаковки, особое начертание названия и другие атрибуты бренда.

Важно отметить, что бренд — это не только визуальные элементы, формирующие узнаваемый образ. Понятие намного шире и включает в себя все ассоциации, чувства и эмоции, возникающие у потребителя при использовании, упоминании или виде продукта. По сути, бренд — это то, что думают покупатели о вашей компании или товаре.

Основные функции бренда

По статистике около 90% компаний уходят с рынка через два-три года после открытия. Чтобы избежать этой участи, нужно позаботиться о создании эффективного бренда. Именно он обеспечивает объективные конкурентные преимущества и помогает завоевать сердца потребителей.

  • Бренд выполняет идентифицирующую функцию и делает продукт узнаваемым. Цвет, форма, фирменный персонаж — эти и другие элементы помогают выделиться на фоне конкурентов и запомниться покупателям.
  • Бренд создает целостный и логичный образ, а также унифицирует коммуникации. Для компании это означает упрощение работы с имиджем и репутацией. А покупатель получает возможность выбирать продукт с добавочной ценностью.
  • Бренд обеспечивает компании дополнительную прибыль. Согласно опросам, покупая товар известного бренда с положительной репутацией, потребитель готов заплатить на 15-20% больше. Чтобы не ходить далеко за примером, вспомните iPhone.
  • Бренд стимулирует потребителя на совершение повторных покупок. Однажды купив товар и получив положительный опыт использования, при повторной покупке пользователь с большей вероятностью выберет продукт этой же марки, а не аналог.
  • Бренд помогает удержаться наплаву в кризис и быстрее восстановиться после него. Имея лояльную аудиторию, компания приобретает некоторый запас прочности, который позволяет с меньшими потерями перенести экономические трудности.
  • Бренд облегчает вывод на рынок новых продуктов. Потребители с большей охотой выбирают товары известных им брендов. К примеру, если человек покупает молоко марки «Коровка» и доволен его качеством, то при выборе творога он почти наверняка возьмет с полки упаковку с таким же названием, а не продукцию конкурента.

Обратите внимание! Все вышесказанное относится как к товарным, так и к иным видам брендов. А какими они бывают, сейчас расскажем.

Основные виды брендов: классификация по направленности

По этому критерию все бренды можно разделить на шесть основных категорий. Рассмотрим их чуть подробнее:

  • Товарные бренды. Именно они являются наиболее старым и распространенным видом. Что такое товарный бренд? Это совокупность представлений, мнений, эмоций и ценностных характеристик, имеющих отношение к определенному продукту или группе товаров. В рамках данной категории существует дополнительное деление. В частности, различают бренды FMCG, food, non-food и др.
    Примеры товарных брендов: Coca-Cola, Levi’s, Ford, «Добрый», «Ласка».
  • Сервисные бренды. Это бренды, работающие в сфере услуг. В последние десятилетия их количество постоянно растет. Нужно отметить, что в отличие от товарных брендов сервисные не имеют под собой предметной основы. Как следствие, работа с ними строится немного по-другому. Например, здесь нет осязаемой упаковки, которую можно потрогать, повертеть в руках, рассмотреть. Но есть непосредственный контакт потребителя с представителем бренда. Именно поэтому особую важность приобретает соблюдение единых стандартов обслуживания.
    Примеры сервисных брендов: «Аэрофлот», Visa, «ПЭК», «Сбер», Western Union.
  • Личностный бренд. Стихийно сформировавшийся личностный бренд есть у каждого человека. Например, коллектив считает руководителя дотошным педантом. Это тоже своего рода бренд. При целенаправленной работе с личностными брендами ставка делается на создание положительной репутации, экспертность в каком-либо вопросе, известность целевой аудитории. Что дает личный бренд? По сути, то же, что и товарный или сервисный — возможность дороже продавать услуги и легче переносить кризисы. Услуги какого адвоката будут стоить дороже — никому неизвестного юриста из районной консультации или Анатолия Кучерены? Ответ очевиден.
    Примеры личностных брендов: Стив Джобс, Леди Гага, Олег Тиньков, Иван Ургант.
  • Бренд организации. Мы уже говорили, что бренд либо формируется стихийно, либо создается специально. Чаще всего, стихийно сформировавшиеся бренды не соответствуют целям и задачам организации. Поэтому пускать дело на самотек — плохая идея. С брендом организации тоже необходимо работать. Только так можно добиться успеха, создать правильный образ, получить положительную репутацию.
    Примеры брендов организации: МГУ, МОК, ЮНЕСКО, UEFA.
  • Событийный бренд. Достаточно часто его путают с событийным маркетингом. На самом деле отличить просто. Событийный бренд — это бренд какого-либо события. Например, Олимпийские игры — это крупнейшие состязания, спортивный праздник, пять разноцветных колец и т.д. Что касается событийного (Event) маркетинга, то он подразумевает организацию какого-либо мероприятия с целью развития и продвижения бренда (товарного, сервисного и т.д.).
    Примеры событийных брендов: Формула-1, Венецианский карнавал, Октоберфест.
  • Территориальный бренд. Конкуренция процветает не только среди производителей, но и среди городов. Им приходится бороться за инвесторов, привлекать квалифицированных специалистов, создавать комфортные условия для жизни и работы. В решении данных задач помогает сильный территориальный бренд. Это понятие было сформулировано Саймоном Анхольтом в 2002 году и с тех пор вызывает все больший интерес. Бренд местности подразумевает разработку визуальных элементов идентификации, создание стратегии позиционирования и развития, формирование общей концепции города или страны. При грамотной реализации эти мероприятия способствуют экономическому развитию, привлечению туристов, улучшению репутации.
    Примеры территориальных брендов: Париж, Нью-Йорк, Санкт-Петербург, Мельбурн.

Основные виды брендов: классификация по дополнительным критериям

Итак, что такое бренд и каким он может быть в зависимости от направления, мы уже рассмотрели. Теперь перейдем к дополнительным классифицирующим признакам.

  • Охват территории

    В соответствии с этим критерием все бренды можно разделить на четыре группы: глобальные, национальные, региональные и локальные.

    Глобальный бренд — это образ, который известен во всем мире. В качестве примера данного вида брендов можно привести такие названия, как Coca-Cola и McDonald’s. Эти имена знакомы почти каждому жителю планеты.

    Национальный бренд известен в пределах одной страны. Если рассматривать Россию, то примерами служат: «Балтика», «Агуша», «Магнит».

    Региональный бренд, как это следует из названия, работает в одном или нескольких регионах. Пример: «У Палыча», «МолкоМ».

    Локальные бренды чаще всего представлены небольшими компаниями, сфера интересов которых ограничивается одной областью. Нужно отметить, что в последние годы они становятся все более популярными. Это связано с тем, что продукция локальных брендов воспринимается как местная, то есть более свежая.

  • Сфера применения

    По этому параметру все бренды принято делить на две группы: потребительские и промышленные.

    К первой категории относят бренды, работающие в сегменте b2c, то есть «бизнес для конечного потребителя». Это очень обширная группа, включающая в себя продукты питания, бытовую химию, мебель, предметы обихода и многое другое. В качестве примера потребительских брендов вспомним: «Черкизово», Persil, Gloria Jeans.

    Что касается промышленных брендов, то основной сферой интересов для них является сегмент b2b или «бизнес для бизнеса». Сюда относят производителей промышленного и торгового оборудования, рекламные агентства, сырьевые компании и т.д. Пример: «Битрикс-24», Depot, «Канмаш».

  • Иерархия

    В зависимости от иерархии различают корпоративные, зонтичные, индивидуальные бренды. Также сюда можно отнести лайн-бренды.

    Корпоративный бренд в основном идентифицирует компанию, но также может пересекаться с товарным или сервисным. Он помогает отстроиться от конкурентов, сформировать положительную деловую репутацию, повысить лояльность потребителей и т.д. Примером корпоративного бренда могут служить: «Мираторг», P&G, «Известия».

    Зонтичный бренд. Его характерной особенностью является выпуск различных товаров под одним именем. Использование общего названия бренда помогает снизить затраты на продвижение новой продуктовой линейки. Чаще всего «зонтики» применяют компании, выпускающие различную бытовую технику, инструменты и т.д. Например, под брендом Makita производятся газонокосилки и генераторы, дрели и шуруповерты, садовый и строительный инструмент.

    Индивидуальный бренд полностью противоположен зонтичному. Если там все товары производятся под одной маркой, то здесь бренд создается для конкретного продукта. К примеру, в 1983 году компания Toyota заявила о разработке нового люксового автомобиля. Чтобы подчеркнуть его превосходство над остальными машинами марки, было принято решение о создании индивидуального бренда Lexus.

    Лайн-бренд подразумевает выпуск однотипной продукции, незначительно отличающейся от товаров основной линейки. Например, производство нового вкуса жвачки или шоколада с другими наполнителями. Основное преимущество лайн-брендов заключается в том, что не нужно придумывать новое позиционирование, стратегию продвижения и т.д. Товары настолько однотипны, что продвигаются по единой схеме. Как следствие, снижаются маркетинговые затраты.

Мы перечислили основные виды брендов, но также существуют и другие классификации. Например, по особенностям рыночной среды, стратегическому назначению, роли в корпоративном портфеле и т.д.

Brand hub — брендинг нового уровня

Вы можете воспользоваться услугами онлайн-сервиса Brand hub для разработки любых брендов. Товарных, сервисных, личных и др. Сочетая в своей работе классический брендинг и современные технологии, мы создаем эффективные бренды, которые работают на благо компаний.

Чтобы получить более подробную информацию или заказать брендинговые услуги, оставьте заявку на сайте, либо позвоните по телефону: +7 (916) 325-42-24

*Все изображение и бренды принадлежат их правообладателям и используются в качестве примеров для демонстрации в образовательных целях.


Тип или классификация — в чем разница?

Английский

Существительное

( ru имя существительное )
  • Группировка на основе общих характеристик; класс.
  • * {{quote-magazine, date = 2012-03
  • , автор = Ли А. Гроут, том = 100, выпуск = 2, страница = 128, журнал = ( American Scientist ) , title = Драгоценные камни , проход = Несмотря на то, что существуют десятки различных видов драгоценных камней , среди самых известных и наиболее важных являются алмаз, рубин и сапфир, изумруд и другие формы драгоценных камней минерального берилла, хризоберилла, танзанита, цаворита, топаза и нефрита.}}
  • Человек, считающийся типичным для своего класса, типичным представителем определенной профессии, окружающей среды и т. Д.
  • * 2002 , Пэт Конрой, Великий Сантини , стр. 4:
  • «Я только что выглянул в ресторан, и там много Navy типа . Мне бы очень не хотелось, чтобы ты попал в беду в твою последнюю ночь в Европе».
  • Человек, представляющий идеал для своего класса; воплощение.
  • * 1872 , Мэри Роуз Годфри, Верный , том 3, страница 116:
  • В целом это был тип низкого хулиганства — такой же скверно выглядящий зверь, как когда-либо джин заяц.
  • (печатный, счетный) Буква или символ, используемые для печати, исторически представляли собой литой или гравированный блок.
  • # (бесчисленное количество) Такие типы вместе или набор типа одного шрифта или размера.
  • # (в основном бесчисленное множество) Текст, напечатанный таким шрифтом или имитирующий его характеристики.
  • Заголовок выделен жирным шрифтом , тип .
  • (биология) Человек считается представителем членов своей таксономической группы.
  • Предпочитаемый вид человека; человек, который привлекает.
  • (биология) Группа крови.
  • (теология) Событие или человек, которые являются прообразом или предвещают более позднее событие — обычно это ветхозаветное событие, связанное с христианскими временами.
  • (теория вычислений) Тег, прикрепленный к переменным и значениям, используемый для определения того, какие типы значений могут использоваться в каких ситуациях; тип данных.
  • (изобразительное искусство) Исходный объект или класс объектов, сцена, лицо или концепция, которые становятся предметом копии; особенно дизайн на лицевой стороне медали или монеты.
  • (химия) Простое соединение, используемое в качестве способа или образца, к которому обычно относят другие соединения и от которого они могут быть фактически или теоретически получены.
  • Основные типы , используемые для выражения простейших и наиболее важных химических отношений, — это соляная кислота, вода, аммиак и метан.
  • (математика) Часть разбиения предметной области логической теории (которая из-за наличия такого разбиения будет называться типизированной теорией). (» Примечание : это к понятию «тип данных» в теории вычислений.)
  • * Типы, теория. В.Н. Гришин (составитель), Математическая энциклопедия .URL: http://www.encyclopediaofmath.org/index.php?title=Types,_theory_of&oldid=14150
  • Логики второго и более высоких порядков можно рассматривать как тип -теоретические системы.
    Категориальная грамматика похожа на комбинацию контекстно-свободной грамматики и типов .

    Синонимы
    * ( группировка на основе общих характеристик ) категория, класс, жанр, группа, род, сорт, племя * ( теория вычислений ) тип данных * ( печать ) сортировать * Смотрите также

    Производные термины
    * прообраз * архетип * группа крови * встроенного типа * составной тип * cotype * идеальный тип * подвижный тип * нормальный тип * примитивный тип * структурированный тип * шрифт * типобезопасный * наборщик * печатная машинка * типография * типология * типология * определяемый пользователем тип

    Глагол

    ( тип )
  • Для нанесения текста на бумагу на пишущей машинке.
  • Для ввода текста или команд в компьютер с помощью клавиатуры.
  • Для определения группы крови.
  • Врач назначил в лабораторию тип пациенту на переливание крови.
  • Для предварительного представления типом, моделью или символом; для прорисовки.
  • Чтобы предоставить выражение или копию; представлять; типизировать.
  • * Теннисон
  • Давайте наберем их сейчас в нашей жизни.

    Связанные термины
    * печатая * машинистка * опечатка

    Потомки
    * Эсперанто: ( l )

    Английский

    Существительное

    ( ru имя существительное )
  • Акт формирования класса или классов; распределение на группы, такие как классы, порядки, семейства и т. д., в соответствии с некоторыми общими отношениями или атрибутами.
  • * {{цитата
  • , год = 1937-1952 , author = Хорхе Луис Борхес , title = Другие инквизиции цитата , пассаж = На тех удаленных страницах написано, что животные делятся на (а) принадлежащих Императору, (б) забальзамированных, (в) дрессированных, (г) поросят, (д) ​​русалок, (f) сказочные, (g) бродячие собаки, (h) те, которые включены в эту классификацию, (i) те, которые дрожат, как если бы они были сумасшедшими, (j) бесчисленные собаки, (k) те, которые запряжены с большим штрафом расческа из верблюжьей шерсти, (l) другие, (m) те, которые только что разбили вазу с цветами, (n) те, которые издалека напоминают мух.}}
  • * 1997 : Крис Хоррокс, Знакомство с Фуко , стр. 69 (Тотемные книги, книги с иконами; ISBN 1840460865)
  • Я использую mathesis ‘- универсальную науку’ » измерения » ‘и’ » порядка » ‘…
    И еще есть’ » таксиномия » ‘принцип’ » » ‘классификация’ » » ‘и упорядоченная’ » табуляция » ‘.
    Знание заменило универсальное сходство конечными различиями. История была арестована и превращена в таблицы …
    Западный разум вступил в эпоху осуждения
    года
    года.

    Производные условия
    * схема классификации

    Связанные термины
    * класс * классический * классифицировать * категория * категоризировать * сегмент

    Внешние ссылки

    * * * —-

    4 типа классификационных задач в машинном обучении

    Последнее обновление 19 августа 2020 г.

    Машинное обучение — это область исследований, которая занимается алгоритмами, которые учатся на примерах.

    Классификация — это задача, которая требует использования алгоритмов машинного обучения, которые учатся назначать метку класса примерам из предметной области.Простой для понимания пример — это классификация писем как « спам » или « не спам ».

    Существует множество различных типов задач классификации, с которыми вы можете столкнуться в машинном обучении, и специальные подходы к моделированию, которые можно использовать для каждой из них.

    В этом руководстве вы познакомитесь с различными типами прогнозного моделирования классификации в машинном обучении.

    После прохождения этого руководства вы будете знать:

    • Классификационное прогнозирующее моделирование включает присвоение метки класса входным примерам.
    • Двоичная классификация относится к предсказанию одного из двух классов, а мультиклассовая классификация предполагает предсказание одного из более чем двух классов.
    • Классификация с несколькими метками включает в себя прогнозирование одного или нескольких классов для каждого примера, а несбалансированная классификация относится к задачам классификации, в которых распределение примеров по классам неодинаково.

    Начните свой проект с моей новой книги «Мастерство машинного обучения с Python», включая пошаговые руководства и файлы исходного кода Python для всех примеров.

    Приступим.

    Типы классификации в машинном обучении
    Фото Рэйчел, некоторые права защищены.

    Обзор учебного пособия

    Это руководство разделено на пять частей; их:

    1. Классификация Прогнозное моделирование
    2. Двоичная классификация
    3. Мультиклассовая классификация
    4. Классификация нескольких этикеток
    5. Несбалансированная классификация

    Классификация Прогнозное моделирование

    В машинном обучении классификация относится к задаче прогнозного моделирования, когда метка класса прогнозируется для данного примера входных данных.

    Примеры проблем классификации:

    • Определите, является ли это спамом, на примере.
    • Дан рукописный символ, классифицируйте его как один из известных символов.
    • С учетом недавнего поведения пользователей, классифицировать как отток или нет.

    С точки зрения моделирования, для классификации требуется обучающий набор данных с множеством примеров входных и выходных данных, из которых можно учиться.

    Модель будет использовать обучающий набор данных и вычислить, как лучше всего сопоставить примеры входных данных с конкретными метками классов.Таким образом, обучающий набор данных должен быть достаточно репрезентативным для проблемы и иметь много примеров каждой метки класса.

    Метки классов часто являются строковыми значениями, например « spam », « not spam » и должны быть сопоставлены с числовыми значениями перед предоставлением алгоритму моделирования. Это часто называют кодированием метки, когда каждой метке класса присваивается уникальное целое число, например « спам » = 0, « без спама » = 1.

    Существует много различных типов алгоритмов классификации для моделирования задач прогнозного моделирования классификации.

    Нет хорошей теории о том, как отображать алгоритмы на типы задач; вместо этого, как правило, рекомендуется, чтобы практикующий проводил контролируемые эксперименты и выяснял, какой алгоритм и его конфигурация дают наилучшие результаты для данной задачи классификации.

    Алгоритмы классификационного прогнозного моделирования оцениваются на основе их результатов. Точность классификации — это популярный показатель, используемый для оценки производительности модели на основе предсказанных меток классов.Точность классификации не идеальна, но это хорошая отправная точка для многих задач классификации.

    Вместо меток классов для некоторых задач может потребоваться прогнозирование вероятности членства в классе для каждого примера. Это обеспечивает дополнительную неопределенность в прогнозе, который затем может интерпретировать приложение или пользователь. Популярной диагностикой для оценки предсказанных вероятностей является кривая ROC.

    Есть, пожалуй, четыре основных типа задач классификации, с которыми вы можете столкнуться; их:

    • Двоичная классификация
    • Мультиклассовая классификация
    • Классификация нескольких этикеток
    • Несбалансированная классификация

    Давайте подробнее рассмотрим каждый по очереди.

    Двоичная классификация

    Двоичная классификация относится к тем задачам классификации, которые имеют две метки класса.

    Примеры включают:

    • Обнаружение спама в электронной почте (спам или нет).
    • Прогноз оттока (отток или нет).
    • Прогноз конверсии (покупать или нет).

    Обычно задачи двоичной классификации включают один класс, который является нормальным состоянием, и другой класс, который является ненормальным состоянием.

    Например, « not spam » — это нормальное состояние, а « spam » — ненормальное состояние.Другой пример: « рак не обнаружен, » — это нормальное состояние задачи, которая включает медицинский тест, а « рак обнаружен, » — ненормальное состояние.

    Классу для нормального состояния присваивается метка класса 0, а классу с ненормальным состоянием назначается метка класса 1.

    Обычно для моделирования задачи двоичной классификации используется модель, которая предсказывает распределение вероятностей Бернулли для каждого примера.

    Распределение Бернулли — это дискретное распределение вероятностей, которое охватывает случай, когда событие будет иметь двоичный исход как 0 или 1.Для классификации это означает, что модель предсказывает вероятность принадлежности примера к классу 1 или ненормальному состоянию.

    Популярные алгоритмы, которые можно использовать для двоичной классификации, включают:

    • Логистическая регрессия
    • k-Ближайшие соседи
    • Деревья решений
    • Машина опорных векторов
    • Наивный Байес

    Некоторые алгоритмы специально разработаны для двоичной классификации и изначально не поддерживают более двух классов; примеры включают логистическую регрессию и машины опорных векторов.

    Далее, давайте внимательнее рассмотрим набор данных, чтобы развить интуицию при решении задач двоичной классификации.

    Мы можем использовать функцию make_blobs () для создания набора данных синтетической двоичной классификации.

    В приведенном ниже примере создается набор данных из 1000 примеров, которые принадлежат одному из двух классов, каждый с двумя входными объектами.

    # пример задачи бинарной классификации из импорта numpy, где из коллекций счетчик импорта из склеарна.наборы данных импортируют make_blobs из matplotlib import pyplot # определить набор данных X, y = make_blobs (n_samples = 1000, центры = 2, random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # рисуем набор данных и раскрашиваем метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] пиплот.разброс (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    # пример задачи двоичной классификации

    из импорта numpy, где

    из импорта коллекций Counter

    из sklearn.datasets import make_blobs

    from matplotlib import pyplot

    # define dataset

    X, y = make_blobs (n_samples = 1000, center = 2, random_state = 1)

    # summarize dataset shape

    print (X.shape). shape)

    # суммировать наблюдения по метке класса

    counter = Counter (y)

    print (counter)

    # суммировать первые несколько примеров

    для i в диапазоне (10):

    print (X [i], y [i])

    # построить набор данных и раскрасить метку по классам

    для метки, _ в счетчике.items ():

    row_ix = where (y == label) [0]

    pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

    pyplot.legend ()

    pyplot.show ()

    При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

    Затем суммируется распределение меток классов, показывая, что экземпляры принадлежат либо классу 0, либо классу 1, и что в каждом классе имеется 500 примеров.

    Затем суммируются первые 10 примеров в наборе данных, показывая, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе.

    (1000, 2) (1000,) Счетчик ({0: 500, 1: 500}) [-3,05837272 4,48825769] 0 [-8.60973869 -3.72714879] 1 [1.37129721 5.23107449] 0 [-9,33

    3 -2,9544469] 1 [-11,57178593 -3,85275513] 1 [-11,42257341 -4,85679127] 1 [-10,44518578 -3,76476563] 1 [-10.44603561 -3,26065964] 1 [-0,61947075 3,48804983] 0 [-10.

    591 -4.5772537] 1

    (1000, 2) (1000,)

    Счетчик ({0: 500, 1: 500})

    [-3.05837272 4.48825769] 0

    [-8.60973869 -3.72714879] 1

    28

    15 [1.3 5,23107449] 0

    [-9,33

    3 -2,9544469] 1

    [-11,57178593 -3,85275513] 1

    [-11,42257341 -4,85679127] 1

    [-10.44518578 -3.76476563] 1

    [-10.44603561 -3.26065964] 1

    [-0.61947075 3.48804983] 0

    [-10.

    591 -4.5772537] 1

    Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

    Мы видим два различных кластера, которые, как мы могли ожидать, легко различить.

    Точечная диаграмма набора данных двоичной классификации

    Мультиклассовая классификация

    Мультиклассовая классификация относится к тем задачам классификации, которые имеют более двух меток классов.

    Примеры включают:

    • Классификация лиц.
    • Классификация видов растений.
    • Оптическое распознавание символов.

    В отличие от бинарной классификации, мультиклассовая классификация не имеет понятия нормальных и аномальных результатов. Вместо этого примеры классифицируются как принадлежащие к одному из ряда известных классов.

    Для некоторых проблем количество меток классов может быть очень большим. Например, модель может предсказать фотографию как принадлежащую одному из тысяч или десятков тысяч лиц в системе распознавания лиц.

    Задачи, связанные с предсказанием последовательности слов, например модели перевода текста, также могут считаться особым типом мультиклассовой классификации. Каждое слово в последовательности слов, которые должны быть предсказаны, включает классификацию на несколько классов, где размер словаря определяет количество возможных классов, которые могут быть предсказаны, и может составлять десятки или сотни тысяч слов.

    Обычно для моделирования задачи классификации нескольких классов используется модель, которая прогнозирует распределение вероятностей Мультинулли для каждого примера.

    Распределение Мультинулли — это дискретное распределение вероятностей, которое охватывает случай, когда событие будет иметь категориальный исход, например K в {1, 2, 3,…, K }. Для классификации это означает, что модель предсказывает вероятность принадлежности примера к каждой метке класса.

    Многие алгоритмы, используемые для двоичной классификации, могут использоваться для классификации нескольких классов.

    Популярные алгоритмы, которые можно использовать для мультиклассовой классификации, включают:

    • к-Ближайшие соседи.
    • Деревья решений.
    • Наивный Байес.
    • Случайный лес.
    • Повышение градиента.

    Алгоритмы, разработанные для двоичной классификации, могут быть адаптированы для использования в мультиклассовых задачах.

    Это включает в себя использование стратегии подбора нескольких моделей бинарной классификации для каждого класса по сравнению со всеми другими классами (называемых «один против остальных») или одной модели для каждой пары классов (называемой «один против одного»).

    • Один против остальных : Подобрать одну бинарную модель классификации для каждого класса vs.все остальные классы.
    • Один против одного : Подберите одну модель бинарной классификации для каждой пары классов.

    Алгоритмы двоичной классификации, которые могут использовать эти стратегии для мультиклассовой классификации, включают:

    • Логистическая регрессия.
    • Машина опорных векторов.

    Далее давайте более подробно рассмотрим набор данных, чтобы развить интуицию для решения задач классификации нескольких классов.

    Мы можем использовать функцию make_blobs () для генерации синтетического набора данных классификации нескольких классов.

    В приведенном ниже примере создается набор данных из 1000 примеров, которые принадлежат одному из трех классов, каждый с двумя входными объектами.

    # пример задачи мультиклассовой классификации из импорта numpy, где из коллекций счетчик импорта из sklearn.datasets импортировать make_blobs из matplotlib import pyplot # определить набор данных X, y = make_blobs (n_samples = 1000, центры = 3, random_state = 1) # суммировать фигуру набора данных print (X.shape, y.форма) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # рисуем набор данных и раскрашиваем метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    # пример задачи классификации нескольких классов

    из импорта numpy, где

    из импорта коллекций Counter

    из sklearn.datasets import make_blobs

    from matplotlib import pyplot

    # define dataset

    X, y = make_blobs (n_samples = 1000, center = 3, random_state = 1)

    # summarize dataset shape

    print (X.shape). shape)

    # суммировать наблюдения по метке класса

    counter = Counter (y)

    print (counter)

    # суммировать первые несколько примеров

    для i в диапазоне (10):

    print (X [i], y [i])

    # построить набор данных и раскрасить метку по классам

    для метки, _ в счетчике.items ():

    row_ix = where (y == label) [0]

    pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

    pyplot.legend ()

    pyplot.show ()

    При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

    Затем суммируется распределение меток классов, показывающее, что экземпляры принадлежат классу 0, классу 1 или классу 2 и что в каждом классе имеется примерно 333 примера.

    Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе.

    (1000, 2) (1000,) Счетчик ({0: 334, 1: 333, 2: 333}) [-3,05837272 4,48825769] 0 [-8.60973869 -3.72714879] 1 [1.37129721 5.23107449] 0 [-9,33

    3 -2,9544469] 1 [-8,63895561 -8,05263469] 2 [-8,48974309 -9,05667083] 2 [-7,51235546 -7,96464519] 2 [-7.51320529 -7,46053919] 2 [-0,61947075 3,48804983] 0 [-10.

    591 -4.5772537] 1

    (1000, 2) (1000,)

    Счетчик ({0: 334, 1: 333, 2: 333})

    [-3.05837272 4.48825769] 0

    [-8.60973869 -3.72714879] 1

    [1,37129721 5,23107449] 0

    [-9,33

    3 -2,9544469] 1

    [-8,63895561 -8,05263469] 2

    [-8,48974309 -9,05667083] 2

    [-7.51235546 -7,96464519] 2

    [-7,51320529 -7,46053919] 2

    [-0,61947075 3,48804983] 0

    [-10,

    591 -4,5772537] 1

    Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

    Мы видим три отдельных кластера, которые, как мы могли ожидать, будет легко различить.

    Точечная диаграмма набора данных мультиклассовой классификации

    Классификация нескольких этикеток

    Классификация с несколькими метками относится к тем задачам классификации, которые имеют две или более меток классов, где одна или несколько меток классов могут быть предсказаны для каждого примера.

    Рассмотрим пример классификации фотографий, где данная фотография может иметь несколько объектов в сцене, а модель может предсказать присутствие нескольких известных объектов на фотографии, например « велосипед », « apple », «». человек »и др.

    В этом отличие от бинарной классификации и мультиклассовой классификации, где для каждого примера прогнозируется одна метка класса.

    Распространено моделирование задач классификации с несколькими метками с помощью модели, которая прогнозирует несколько выходных данных, причем для каждого выхода прогнозируется как распределение вероятностей Бернулли.По сути, это модель, которая делает несколько прогнозов двоичной классификации для каждого примера.

    Алгоритмы классификации, используемые для двоичной или мультиклассовой классификации, не могут использоваться напрямую для классификации по нескольким меткам. Могут использоваться специализированные версии стандартных алгоритмов классификации, так называемые многометровые версии алгоритмов, в том числе:

    • Дерево принятия решений с несколькими метками
    • Случайные леса с несколькими метками
    • Повышение градиента с несколькими этикетками

    Другой подход — использовать отдельный алгоритм классификации для прогнозирования меток для каждого класса.

    Далее, давайте более подробно рассмотрим набор данных, чтобы развить интуицию для задач классификации с несколькими метками.

    Мы можем использовать функцию make_multilabel_classification () для создания синтетического набора данных классификации с несколькими метками.

    В приведенном ниже примере создается набор данных из 1000 примеров, каждый с двумя входными объектами. Есть три класса, каждый из которых может иметь одну из двух меток (0 или 1).

    # пример задачи классификации с несколькими метками из склеарна.наборы данных импорт make_multilabel_classification # определить набор данных X, y = make_multilabel_classification (n_samples = 1000, n_features = 2, n_classes = 3, n_labels = 2, random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i])

    # пример задачи классификации с несколькими метками

    из sklearn.datasets import make_multilabel_classification

    # определить набор данных

    X, y = make_multilabel_classification (n_samples = 1000, n_features = 2, n_classes = 3 1)

    # форма суммирования набора данных

    печать (X.shape, y.shape)

    # резюмируем первые несколько примеров

    для i в диапазоне (10):

    print (X [i], y [i])

    При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

    Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют принадлежность к метке класса.

    (1000, 2) (1000, 3) [18. 35.] [1 1 1] [22. 33.] [1 1 1] [26. 36.] [1 1 1] [24. 28.] [1 1 0] [23. 27.] [1 1 0] [15. 31.] [0 1 0] [20. 37.] [0 1 0] [18. 31.] [1 1 1] [29. 27.] [1 0 0] [29. 28.] [1 1 0]

    (1000, 2) (1000, 3)

    [18. 35.] [1 1 1]

    [22. 33.] [1 1 1]

    [26. 36.] [1 1 1]

    [24.28.] [1 1 0]

    [23. 27.] [1 1 0]

    [15. 31.] [0 1 0]

    [20. 37.] [0 1 0]

    [18. 31.] [1 1 1]

    [29. 27.] [1 0 0]

    [29. 28.] [1 1 0]

    Несбалансированная классификация

    Несбалансированная классификация относится к задачам классификации, в которых количество примеров в каждом классе распределяется неравномерно.

    Обычно задачи несбалансированной классификации представляют собой задачи двоичной классификации, в которых большинство примеров в обучающем наборе данных относятся к нормальному классу, а меньшая часть примеров относится к ненормальному классу.

    Примеры включают:

    • Обнаружение мошенничества.
    • Обнаружение выбросов.
    • Медицинские диагностические тесты.

    Эти проблемы моделируются как задачи двоичной классификации, хотя могут потребовать специальных методов.

    Специализированные методы могут использоваться для изменения состава выборок в наборе обучающих данных путем недостаточной выборки класса большинства или передискретизации класса меньшинства.

    Примеры включают:

    Могут использоваться специализированные алгоритмы моделирования, которые уделяют больше внимания классу меньшинства при подгонке модели к набору обучающих данных, например, чувствительные к стоимости алгоритмы машинного обучения.

    Примеры включают:

    Наконец, могут потребоваться альтернативные показатели производительности, поскольку сообщение о точности классификации может вводить в заблуждение.

    Примеры включают:

    • Точность.
    • Напомним.
    • F-Мера.

    Далее давайте более подробно рассмотрим набор данных, чтобы развить интуицию в отношении несбалансированных проблем классификации.

    Мы можем использовать функцию make_classification () для создания набора данных синтетической несбалансированной двоичной классификации.

    В приведенном ниже примере создается набор данных из 1000 примеров, которые принадлежат одному из двух классов, каждый с двумя входными объектами.

    # пример задачи несбалансированной двоичной классификации из импорта numpy, где из коллекций счетчик импорта из sklearn.datasets импортировать make_classification из matplotlib import pyplot # определить набор данных X, y = make_classification (n_samples = 1000, n_features = 2, n_informative = 2, n_redundant = 0, n_classes = 2, n_clusters_per_class = 1, weights = [0.99,0.01], random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # рисуем набор данных и раскрашиваем метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    # пример задачи несбалансированной двоичной классификации

    из импорта numpy, где

    из импорта коллекций Counter

    из sklearn.наборы данных импортировать make_classification

    из matplotlib import pyplot

    # определить набор данных

    X, y = make_classification (n_samples = 1000, n_features = 2, n_informative = 2, n_redundant = 0, n_classes = 2_, n_clights_clights, n_clights_ , 0,01], random_state = 1)

    # суммировать форму набора данных

    print (X.shape, y.shape)

    # суммировать наблюдения по метке класса

    counter = Counter (y)

    print (counter)

    # суммировать первые несколько примеров

    для i в диапазоне (10):

    print (X [i], y [i])

    # построить набор данных и раскрасить метку по классам

    для метки, _ в счетчике.items ():

    row_ix = where (y == label) [0]

    pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

    pyplot.legend ()

    pyplot.show ()

    При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

    Затем суммируется распределение меток классов, показывая серьезный дисбаланс классов с примерно 980 примерами, принадлежащими классу 0, и примерно 20 примерами, принадлежащими классу 1.

    Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе. В этом случае мы видим, что большинство примеров относятся к классу 0, как и ожидалось.

    (1000, 2) (1000,) Счетчик ({0: 983, 1: 17}) [0,86

    5 1,18613612] 0 [1,55110839 1,81032905] 0 [1.2
  • 36 1.01094607] 0 [1.11988947 1.63251786] 0 [1.04235568 1.12152929] 0 [1.18114858 0,

    607] 0 [1.1365562 1.17652556] 0 [0,462

    0,72

    8] 0 [0,18315826 1,07141766] 0 [0,32411648 0,53515376] 0

    (1000, 2) (1000,)

    Счетчик ({0: 983, 1: 17})

    [0,86

    5 1,18613612] 0

    [1,55110839 1,81032905] 0

    10 [1,2

  • 36] 1,0

    [1.11988947 1.63251786] 0

    [1.04235568 1.12152929] 0

    [1.18114858 0,

    607] 0

    [1,1365562 1,17652556] 0

    [0,462

    0,72

    8] 0

    [0,18315826 1,07141766] 0

    [0,32411648 0,53515376] 0

  • Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

    Мы видим один главный кластер для примеров, принадлежащих классу 0, и несколько разрозненных примеров, принадлежащих классу 1. Интуиция подсказывает, что моделировать наборы данных с этим свойством несбалансированных меток классов сложнее.

    Точечная диаграмма набора данных несбалансированной двоичной классификации

    Дополнительная литература

    В этом разделе представлены дополнительные ресурсы по теме, если вы хотите углубиться.

    Сводка

    В этом руководстве вы открыли для себя различные типы прогнозного моделирования классификации в машинном обучении.

    В частности, вы выучили:

    • Классификационное прогнозирующее моделирование включает присвоение метки класса входным примерам.
    • Двоичная классификация относится к предсказанию одного из двух классов, а мультиклассовая классификация предполагает предсказание одного из более чем двух классов.
    • Классификация с несколькими метками включает в себя прогнозирование одного или нескольких классов для каждого примера, а несбалансированная классификация относится к задачам классификации, в которых распределение примеров по классам неодинаково.

    Есть вопросы?
    Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.

    Откройте для себя быстрое машинное обучение на Python!

    Разрабатывайте свои собственные модели за считанные минуты

    … всего несколько строк кода scikit-learn

    Узнайте, как это сделать, в моей новой электронной книге:
    Мастерство машинного обучения с Python

    Охватывает учебные пособия для самообучения и сквозные проекты , например:
    Загрузка данных , визуализация , моделирование , настройка и многое другое…

    Наконец-то доведите машинное обучение до

    Ваши собственные проекты

    Пропустить академики. Только результаты.

    Посмотрите, что внутри

    Как использовать кривые ROC и кривые прецизионного вызова для классификации в Python

    Последнее обновление 13 января 2021 г.

    Может быть более гибким прогнозирование вероятностей принадлежности наблюдения к каждому классу в задаче классификации, а не непосредственное прогнозирование классов.

    Эта гибкость проистекает из способа интерпретации вероятностей с использованием различных пороговых значений, которые позволяют оператору модели найти компромисс в отношении ошибок, допущенных моделью, таких как количество ложных срабатываний по сравнению с количеством ложноотрицательных результатов.Это требуется при использовании моделей, в которых стоимость одной ошибки превышает стоимость ошибок других типов.

    Два диагностических инструмента, которые помогают в интерпретации вероятностного прогноза для задач прогнозного моделирования бинарной (двухклассовой) классификации, — это ROC Curves и Precision-Recall Curves .

    В этом руководстве вы познакомитесь с кривыми ROC и кривыми точного восстановления, а также узнаете, когда их использовать для интерпретации прогнозов вероятностей для задач двоичной классификации.

    После прохождения этого руководства вы будете знать:

    • Кривые ROC суммируют компромисс между частотой истинных положительных и ложных положительных результатов для прогнозной модели с использованием различных пороговых значений вероятности.
    • Кривые
    • Precision-Recall суммируют компромисс между истинным положительным значением и положительным прогнозным значением для прогнозной модели с использованием различных пороговых значений вероятности.
    • Кривые
    • ROC подходят, когда наблюдения сбалансированы между каждым классом, тогда как кривые точности-отзыва подходят для несбалансированных наборов данных.

    Начните свой проект с моей новой книги «Вероятность для машинного обучения», включая пошаговые руководства и файлы исходного кода Python для всех примеров.

    Приступим.

    • Обновление августа / 2018 : исправлена ​​ошибка в представлении строки без навыков для графика точного отзыва. Также исправлена ​​опечатка, когда я называл ROC родственником, а не получателем (спасибо за проверку орфографии).
    • Обновление ноябрь / 2018 : Исправлено описание интерпретации размера значений на каждой оси, спасибо Карлу Хамфрису.
    • Обновление июнь / 2019 : Исправлена ​​опечатка при интерпретации несбалансированных результатов.
    • Обновление, октябрь / 2019 г. : обновлены графики кривой ROC и кривой точности отзыва для добавления меток, использования модели логистической регрессии и фактического вычисления производительности классификатора без навыков.
    • Обновление ноябрь / 2019 : Улучшено описание классификатора отсутствия навыков для кривой точного отзыва.

    Как и когда использовать кривые ROC и кривые прецизионного вызова для классификации в Python
    Фото Джузеппе Мило, некоторые права защищены.

    Обзор учебного пособия

    Это руководство разделено на 6 частей; их:

    1. Прогнозирование вероятностей
    2. Что такое кривые ROC?
    3. Кривые ROC и AUC в Python
    4. Что такое кривые прецизионного вызова?
    5. Кривые прецизионного вызова и AUC в Python
    6. Когда использовать кривые ROC по сравнению с кривыми прецизионного вызова?

    Прогнозирование вероятностей

    В задаче классификации мы можем решить спрогнозировать значения классов напрямую.

    В качестве альтернативы он может быть более гибким для прогнозирования вероятностей для каждого класса. Причина в том, чтобы предоставить возможность выбирать и даже откалибровать порог для интерпретации предсказанных вероятностей.

    Например, по умолчанию может использоваться порог 0,5, означающий, что вероятность в [0,0, 0,49] является отрицательным результатом (0), а вероятность в [0,5, 1,0] — положительным результатом (1).

    Этот порог можно настроить, чтобы настроить поведение модели для конкретной проблемы.Примером может служить уменьшение количества ошибок того или иного типа.

    При прогнозировании задачи двоичной или двухклассовой классификации мы можем сделать два типа ошибок.

    • Ложно-положительный . Предскажите событие, когда события не было.
    • Ложноотрицательный . Не предсказывайте никаких событий, хотя на самом деле событие имело место.

    Путем прогнозирования вероятностей и калибровки порога баланс этих двух проблем может быть выбран оператором модели.

    Например, в системе прогнозирования смога нас может гораздо больше заботить низкий уровень ложноотрицательных результатов, чем низкий уровень ложных срабатываний. Ложноотрицательный результат означал бы отсутствие предупреждения о дне смога, когда на самом деле это день сильного смога, что приводит к проблемам со здоровьем у населения, которое не может принять меры предосторожности. Ложноположительный результат означает, что общественность будет принимать меры предосторожности, когда в этом нет необходимости.

    Распространенный способ сравнения моделей, предсказывающих вероятности двухклассовых задач, — использовать кривую ROC.

    Что такое кривые ROC?

    Полезным инструментом при прогнозировании вероятности двоичного результата является кривая рабочих характеристик приемника или кривая ROC.

    Это график частоты ложных срабатываний (ось x) по сравнению с частотой истинных положительных результатов (ось y) для ряда различных возможных пороговых значений от 0,0 до 1,0. Другими словами, он отображает частоту ложных срабатываний в зависимости от частоты попаданий.

    Коэффициент истинных положительных результатов рассчитывается как количество истинных положительных результатов, деленное на сумму количества истинных положительных результатов и количества ложных отрицательных результатов.Он описывает, насколько хороша модель в прогнозировании положительного класса, когда фактический результат положительный.

    Коэффициент истинно положительных результатов = истинные положительные результаты / (истинные положительные результаты + ложно отрицательные результаты)

    Частота истинно положительных результатов = истинно положительных результатов / (истинных положительных результатов + ложно отрицательных)

    Уровень истинных положительных результатов также называется чувствительностью.

    Чувствительность = истинно положительные / (истинно положительные + ложно отрицательные)

    Чувствительность = истинно положительные / (истинные положительные + ложно отрицательные)

    Частота ложных срабатываний рассчитывается как количество ложных срабатываний, деленное на сумму количества ложных срабатываний и количества истинно отрицательных результатов.

    Его также называют частотой ложных тревог, поскольку он суммирует, как часто прогнозируется положительный класс, когда фактический результат отрицательный.

    Частота ложных срабатываний = ложные срабатывания / (ложные срабатывания + истинные отрицательные результаты)

    Частота ложных срабатываний = ложные срабатывания / (ложные срабатывания + истинные отрицательные результаты)

    Частота ложных срабатываний также называется инвертированной специфичностью, где специфичность — это общее количество истинно отрицательных результатов, деленное на сумму количества истинно отрицательных и ложных срабатываний.

    Специфичность = истинно отрицательные / (истинно отрицательные + ложные положительные результаты)

    Специфичность = истинно отрицательные / (истинно отрицательные + ложные положительные результаты)

    Где:

    Частота ложноположительных результатов = 1 — Специфичность

    Частота ложных срабатываний = 1 — Специфичность

    Кривая ROC — полезный инструмент по нескольким причинам:

    • Кривые разных моделей можно сравнивать напрямую в целом или для разных порогов.
    • Площадь под кривой (AUC) может использоваться как сводка навыков модели.

    Форма кривой содержит много информации, включая то, что нас может больше всего заботить при возникновении проблемы, ожидаемую частоту ложных срабатываний и частоту ложных отрицательных результатов.

    Чтобы прояснить это:

    • Меньшие значения на оси x графика указывают на меньшее количество ложных срабатываний и более высокие истинно отрицательные.
    • Большие значения по оси Y на графике указывают на более высокие истинно положительные и более низкие ложно отрицательные результаты.

    Если вы запутались, помните, что когда мы прогнозируем двоичный результат, это либо правильный прогноз (истинно положительный), либо нет (ложный положительный результат). Между этими вариантами существует противоречие, как и между истинно отрицательными и ложноотрицательными.

    Искусная модель приписывает в среднем более высокую вероятность случайно выбранному действительному положительному событию, чем отрицательное. Это то, что мы имеем в виду, когда говорим, что модель обладает навыками. Как правило, искусные модели представлены кривыми, которые переходят в верхний левый угол графика.

    Классификатор без навыков — это классификатор, который не может различать классы и предсказывает случайный класс или постоянный класс во всех случаях. Модель без навыков представлена ​​в точке (0,5, 0,5). Модель без навыков на каждом пороге представлена ​​диагональной линией от нижнего левого угла графика до верхнего правого и имеет AUC 0,5.

    Модель с безупречным мастерством представлена ​​в точке (0,1). Модель с безупречным мастерством представлена ​​линией, которая проходит от левого нижнего угла графика к левому верхнему, а затем по верхнему краю к правому верху.

    Оператор может построить кривую ROC для окончательной модели и выбрать порог, который дает желаемый баланс между ложными срабатываниями и ложными отрицаниями.

    Хотите узнать вероятность для машинного обучения

    Пройдите мой бесплатный 7-дневный ускоренный курс электронной почты (с образцом кода).

    Нажмите, чтобы зарегистрироваться, а также получите бесплатную электронную версию курса в формате PDF.

    Загрузите БЕСПЛАТНЫЙ мини-курс

    Кривые ROC и AUC в Python

    Мы можем построить кривую ROC для модели на Python, используя функцию scikit-learn roc_curve ().

    Функция берет как истинные результаты (0,1) из набора тестов, так и предсказанные вероятности для 1 класса. Функция возвращает частоту ложных срабатываний для каждого порога, истинно положительную частоту для каждого порога и пороговых значений.

    … # вычислить кривую roc fpr, tpr, thresholds = roc_curve (y, probs)

    # вычислить кривую roc

    fpr, tpr, thresholds = roc_curve (y, probs)

    AUC для ROC можно рассчитать с помощью функции roc_auc_score ().

    Как и функция roc_curve (), функция AUC принимает как истинные результаты (0,1) из тестового набора, так и предсказанные вероятности для класса 1. Он возвращает показатель AUC от 0,0 до 1,0 для отсутствия навыка и идеального навыка соответственно.

    … # вычислить AUC auc = roc_auc_score (y, вероятность) print (‘AUC:% .3f’% auc)

    # вычислить AUC

    auc = roc_auc_score (y, probs)

    print (‘AUC:%.3f ‘% auc)

    Полный пример расчета кривой ROC и ROC AUC для модели логистической регрессии для небольшой тестовой задачи приведен ниже.

    # roc curve и auc из sklearn.datasets импортировать make_classification из sklearn.linear_model import LogisticRegression из sklearn.model_selection import train_test_split из sklearn.metrics импортировать roc_curve из sklearn.metrics import roc_auc_score из matplotlib import pyplot # создать набор данных 2 классов X, y = make_classification (n_samples = 1000, n_classes = 2, random_state = 1) # разделить на наборы поездов / тестов trainX, testX, тренировочный, testy = train_test_split (X, y, test_size = 0.5, random_state = 2) # генерировать прогноз отсутствия навыков (класс большинства) ns_probs = [0 для _ в диапазоне (len (testy))] # соответствовать модели model = LogisticRegression (решатель = ‘lbfgs’) model.fit (trainX, trainy) # прогнозировать вероятности lr_probs = model.predict_proba (testX) # сохраняем вероятности только положительного результата lr_probs = lr_probs [:, 1] # подсчитать баллы ns_auc = roc_auc_score (testy, ns_probs) lr_auc = roc_auc_score (testy, lr_probs) # подвести итоги print (‘Нет навыка: ROC AUC =%.3f ‘% (ns_auc)) print (‘Логистика: ROC AUC =%. 3f’% (lr_auc)) # вычислить кривые roc ns_fpr, ns_tpr, _ = roc_curve (testy, ns_probs) lr_fpr, lr_tpr, _ = roc_curve (testy, lr_probs) # построить кривую roc для модели pyplot.plot (ns_fpr, ns_tpr, linestyle = ‘-‘, label = ‘Нет навыков’) pyplot.plot (lr_fpr, lr_tpr, marker = ‘.’, label = ‘Logistic’) # метка оси pyplot.xlabel (‘Ложноположительная ставка’) pyplot.ylabel (‘Истинная положительная оценка’) # показать легенду пиплот.легенда () # показать сюжет pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    13

    14

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    34

    35

    36

    37

    38

    39

    # roc curve и auc

    от sklearn.наборы данных import make_classification

    from sklearn.linear_model import LogisticRegression

    from sklearn.model_selection import train_test_split

    from sklearn.metrics import roc_curve

    from sklearn.metrics import class

    00080008 X, y = make_classification (n_samples = 1000, n_classes = 2, random_state = 1)

    # разделить на наборы поездов / тестов

    trainX, testX, trainy, testy = train_test_split (X, y, test_size = 0.5, random_state = 2)

    # генерировать прогноз отсутствия навыков (класс большинства)

    ns_probs = [0 for _ in range (len (testy))]

    # соответствовать модели

    model = LogisticRegression (solver = ‘ lbfgs ‘)

    model.fit (trainX, trainy)

    # предсказать вероятности

    lr_probs = model.predict_proba (testX)

    # сохранить вероятности только для положительного результата

    lr_probs = lr_probs [:

    ]

    # подсчитать баллы

    ns_auc = roc_auc_score (testy, ns_probs)

    lr_auc = roc_auc_score (testy, lr_probs)

    # суммировать баллы

    print (‘No Skill: ROC AUC =%.3f ‘% (ns_auc))

    print (‘ Logistic: ROC AUC =%. 3f ‘% (lr_auc))

    # вычислить кривые ROC

    ns_fpr, ns_tpr, _ = roc_curve (testy, ns_probs)

    lr_probs)

    lr_probs lr_tpr, _ = roc_curve (testy, lr_probs)

    # построить кривую roc для модели

    pyplot.plot (ns_fpr, ns_tpr, linestyle = ‘-‘, label = ‘No Skill’)

    pyplot.plot ( lr_fpr, lr_tpr, marker = ‘.’, label = ‘Logistic’)

    # метки оси

    pyplot.xlabel (‘False Positive Rate’)

    pyplot.ylabel (‘True Positive Rate’)

    # показать легенду

    pyplot.legend ()

    # показать график

    pyplot.show ()

    При выполнении примера распечатывается ROC AUC для модели логистической регрессии и классификатор отсутствия навыков, который прогнозирует только 0 для всех примеров.

    Без навыков: ROC AUC = 0,500 Логистика: ROC AUC = 0,903

    Нет навыка: ROC AUC = 0.500

    Логистика: ROC AUC = 0,903

    Также создается график кривой ROC для модели, показывающий, что модель обладает навыками.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    График кривой ROC для классификатора без навыков и модели логистической регрессии

    Что такое кривые прецизионного вызова?

    Есть много способов оценить навыки модели прогнозирования.

    Подход в соответствующей области поиска информации (поиск документов на основе запросов) измеряет точность и отзывчивость.

    Эти меры также полезны в прикладном машинном обучении для оценки моделей двоичной классификации.

    Точность — это отношение количества истинных положительных результатов к сумме истинных положительных и ложных срабатываний. Он описывает, насколько хороша модель в предсказании положительного класса. Точность называется положительной прогностической ценностью.

    Прогнозирующая мощность положительных результатов = истинные положительные результаты / (истинные положительные результаты + ложные положительные результаты)

    Положительная прогнозирующая способность = Истинные положительные результаты / (Истинные положительные результаты + ложные положительные результаты)

    или

    Точность = истинные положительные результаты / (истинные положительные результаты + ложные положительные результаты)

    Точность = истинные положительные результаты / (истинные положительные результаты + ложные положительные результаты)

    Отзыв рассчитывается как отношение количества истинно положительных результатов к сумме истинных положительных и ложно отрицательных результатов.Напоминание — это то же самое, что и чувствительность.

    Отзыв = Истинно-положительные / (Истинно-положительные + ложно-отрицательные)

    Отзыв = Истинно-положительные / (Истинно-положительные + ложно-отрицательные)

    или

    Чувствительность = истинно положительные / (истинно положительные + ложно отрицательные)

    Чувствительность = истинно положительные / (истинные положительные + ложно отрицательные)

    Проверка точности и отзыва полезна в случаях, когда наблюдается несбалансированность наблюдений между двумя классами.В частности, существует множество примеров отсутствия события (класс 0) и только несколько примеров события (класс 1).

    Причина этого в том, что обычно большое количество примеров класса 0 означает, что нас меньше интересует умение модели правильно предсказывать класс 0, например высокие истинные негативы.

    Ключом к вычислению точности и напоминания является то, что в расчетах не используются истинные отрицания. Это касается только правильного предсказания класса меньшинства, класса 1.

    Кривая точности-отзыва — это график точности (ось y) и отзыва (ось x) для различных пороговых значений, как и кривая ROC.

    Классификатор без навыков — это классификатор, который не может различать классы и предсказывает случайный класс или постоянный класс во всех случаях. Линия отсутствия навыков меняется в зависимости от распределения положительных классов на отрицательные. Это горизонтальная линия со значением отношения положительных случаев в наборе данных. Для сбалансированного набора данных это 0.5.

    В то время как базовая линия фиксируется с помощью ROC, базовая линия [кривая точности-отзыва] определяется соотношением положительных (P) и отрицательных (N) как y = P / (P + N). Например, для сбалансированного распределения классов y = 0,5…

    — График точности-отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных, 2015.

    Модель с совершенными навыками изображена точкой в ​​точке (1,1). Искусная модель представлена ​​кривой, изгибающейся в сторону (1,1) над плоской линией отсутствия навыков.

    Есть также составные баллы, которые пытаются суммировать точность и отзывчивость; два примера включают:

    • Оценка F-Measure или F1: вычисляет среднее гармоническое значение точности и отзыва (среднее гармоническое, поскольку точность и отзыв являются коэффициентами).
    • Площадь под кривой : как и AUC, суммирует интеграл или аппроксимацию площади под кривой точного отзыва.

    С точки зрения выбора модели, F-Measure суммирует навыки модели для определенного порога вероятности (например,грамм. 0,5), тогда как область под кривой суммирует навыки модели по пороговым значениям, например ROC AUC.

    Это делает точный отзыв и график зависимости точности от отзыва и сводных показателей полезными инструментами для задач двоичной классификации, которые имеют дисбаланс в наблюдениях для каждого класса.

    Кривые прецизионного вызова в Python

    Точность и отзывчивость можно рассчитать в scikit-learn.

    Точность и отзыв могут быть рассчитаны для пороговых значений с помощью функции precision_recall_curve (), которая принимает истинные выходные значения и вероятности для положительного класса в качестве входных и возвращает значения точности, отзыва и пороговых значений.

    … # вычислить кривую точности-отзыва точность, отзыв, пороги = precision_recall_curve (testy, probs)

    # вычислить кривую точности-отзыва

    точность, отзыв, пороги = precision_recall_curve (testy, probs)

    F-меру можно вычислить, вызвав функцию f1_score (), которая принимает истинные значения класса и предсказанные значения класса в качестве аргументов.

    … # вычислить оценку F1 f1 = f1_score (testy, yhat)

    # вычислить оценку F1

    f1 = f1_score (testy, yhat)

    Площадь под кривой точности-отзыва может быть аппроксимирована путем вызова функции auc () и передачи ей значений отзыва (x) и точности (y), рассчитанных для каждого порога.

    … # вычислить AUC с точностью до отзыва auc = auc (отзыв, точность)

    # вычислить точность-отзыв AUC

    auc = auc (отзыв, точность)

    При нанесении на график точности и отзыва для каждого порогового значения в виде кривой важно, чтобы отзыв был представлен по оси x, а точность — по оси y.

    Полный пример расчета кривых точности-отзыва для модели логистической регрессии приведен ниже.

    # кривая точности-отзыва и f1 из sklearn.datasets импортировать make_classification из sklearn.linear_model import LogisticRegression из sklearn.model_selection import train_test_split из sklearn.metrics import precision_recall_curve из sklearn.metrics import f1_score из sklearn.metrics import auc из matplotlib import pyplot # создать набор данных 2 классов X, y = make_classification (n_samples = 1000, n_classes = 2, random_state = 1) # разделить на наборы поездов / тестов trainX, testX, тренировочный, testy = train_test_split (X, y, test_size = 0.5, random_state = 2) # соответствовать модели model = LogisticRegression (решатель = ‘lbfgs’) model.fit (trainX, trainy) # прогнозировать вероятности lr_probs = model.predict_proba (testX) # сохраняем вероятности только положительного результата lr_probs = lr_probs [:, 1] # предсказать значения класса yhat = model.predict (testX) lr_precision, lr_recall, _ = precision_recall_curve (testy, lr_probs) lr_f1, lr_auc = f1_score (testy, yhat), auc (lr_recall, lr_precision) # подвести итоги print (‘Логистика: f1 =%.3f auc =%. 3f ‘% (lr_f1, lr_auc)) # построить кривые точности-отзыва no_skill = len (вздорный [testy == 1]) / len (проворный) pyplot.plot ([0, 1], [no_skill, no_skill], linestyle = ‘-‘, label = ‘Нет навыков’) pyplot.plot (lr_recall, lr_precision, marker = ‘.’, label = ‘Logistic’) # метка оси pyplot.xlabel (‘Отзыв’) pyplot.ylabel (‘Точность’) # показать легенду pyplot.legend () # показать сюжет pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    34

    35

    36

    # кривая прецизионного вызова и f1

    из sklearn.наборы данных import make_classification

    from sklearn.linear_model import LogisticRegression

    from sklearn.model_selection import train_test_split

    from sklearn.metrics import precision_recall_curve

    from sklearn.metrics import aklearn.metrics

    0008

    # сгенерировать набор данных 2 классов

    X, y = make_classification (n_samples = 1000, n_classes = 2, random_state = 1)

    # разделить на наборы для обучения / тестирования

    trainX, testX, trainy, testy = train_test_split (X, y , test_size = 0.5, random_state = 2)

    # соответствие модели

    model = LogisticRegression (solver = ‘lbfgs’)

    model.fit (trainX, trainy)

    # прогноз вероятностей

    lr_probs = model.predict_proba (testX)

    # сохранять вероятности только для положительного результата

    lr_probs = lr_probs [:, 1]

    # прогнозировать значения класса

    yhat = model.predict (testX)

    lr_precision, lr_recall, _ = precision_recall_curve_ (test), lr0008_probsy

    lr_f1, lr_auc = f1_score (testy, yhat), auc (lr_recall, lr_precision)

    # подвести итоги

    print (‘Логистика: f1 =%.3f auc =%. 3f ‘% (lr_f1, lr_auc))

    # построить кривые точности-отзыва

    no_skill = len (testy [testy == 1]) / len (testy)

    pyplot.plot ([0 , 1], [no_skill, no_skill], linestyle = ‘-‘, label = ‘No Skill’)

    pyplot.plot (lr_recall, lr_precision, marker = ‘.’, Label = ‘Logistic’)

    # ось label

    pyplot.xlabel (‘Recall’)

    pyplot.ylabel (‘Precision’)

    # показать легенду

    pyplot.legend ()

    # показать график

    pyplot.показать ()

    При выполнении примера сначала печатается F1, площадь под кривой (AUC) для модели логистической регрессии.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.


    Логистика: f1 = 0,841 auc = 0,898

    Логистика: f1 = 0.841 auc = 0,898


    Затем создается график кривой точности-отзыва, показывающий точность / отзыв для каждого порога для модели логистической регрессии (оранжевый) по сравнению с моделью без навыков (синий).

    График точного отзыва для классификатора без навыков и модели логистической регрессии

    Когда использовать кривые ROC и прецизионные вызовы?

    Как правило, используются следующие кривые ROC и кривые прецизионного возврата:

    • Кривые ROC следует использовать при примерно равном количестве наблюдений для каждого класса.
    • Кривые
    • Precision-Recall следует использовать при наличии среднего или большого дисбаланса класса.

    Причина этой рекомендации заключается в том, что кривые ROC представляют оптимистичную картину модели на наборах данных с дисбалансом классов.

    Однако кривые ROC могут представлять излишне оптимистичное представление о производительности алгоритма, если есть большой перекос в распределении классов. […] Кривые Precision-Recall (PR), часто используемые при поиске информации, упоминались как альтернатива кривым ROC для задач с большим перекосом в распределении классов.

    — Взаимосвязь между точным воспроизведением и кривыми ROC, 2006.

    Некоторые идут дальше и предполагают, что использование кривой ROC с несбалансированным набором данных может быть обманчивым и привести к неправильной интерпретации навыка модели.

    […] визуальная интерпретируемость графиков ROC в контексте несбалансированных наборов данных может быть обманчивой в отношении выводов о надежности выполнения классификации из-за интуитивной, но неправильной интерпретации специфичности.Графики [Кривая точности-отзыва], с другой стороны, могут предоставить зрителю точный прогноз будущей эффективности классификации благодаря тому факту, что они оценивают долю истинно положительных результатов среди положительных прогнозов

    — График точности-отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных, 2015.

    Основная причина такой оптимистической картины — использование истинно отрицательных результатов в частоте ложных положительных результатов на кривой ROC и тщательное избегание этой частоты на кривой точности-отзыва.

    Если соотношение положительных и отрицательных экземпляров в тестовой выборке изменится, кривые ROC не изменятся. Такие показатели, как точность, точность, рост и оценка F, используют значения из обоих столбцов матрицы неточностей. По мере изменения распределения классов эти показатели также изменятся, даже если не изменится производительность основного классификатора. Графики ROC основаны на скорости TP и FP, в которых каждое измерение является строгим столбцовым соотношением, поэтому не зависит от распределений классов.

    — Графы ROC: заметки и практические соображения для исследователей интеллектуального анализа данных, 2003.

    Мы можем сделать этот бетон на небольшом примере.

    Ниже приведен тот же пример кривой ROC с модифицированной задачей, в которой соотношение наблюдений класса = 0 и класса = 1 составляет примерно 100: 1 (в частности, Class0 = 985, Class1 = 15).

    # кривая roc и auc на несбалансированном наборе данных из sklearn.datasets импортировать make_classification из склеарна.linear_model импорт LogisticRegression из sklearn.model_selection import train_test_split из sklearn.metrics импортировать roc_curve из sklearn.metrics import roc_auc_score из matplotlib import pyplot # создать набор данных 2 классов X, y = make_classification (n_samples = 1000, n_classes = 2, weights = [0.99,0.01], random_state = 1) # разделить на наборы поездов / тестов trainX, testX, trainy, testy = train_test_split (X, y, test_size = 0,5, random_state = 2) # генерировать прогноз отсутствия навыков (класс большинства) ns_probs = [0 для _ в диапазоне (len (testy))] # соответствовать модели model = LogisticRegression (решатель = ‘lbfgs’) модель.подходят (trainX, trainy) # прогнозировать вероятности lr_probs = model.predict_proba (testX) # сохраняем вероятности только положительного результата lr_probs = lr_probs [:, 1] # подсчитать баллы ns_auc = roc_auc_score (testy, ns_probs) lr_auc = roc_auc_score (testy, lr_probs) # подвести итоги print (‘Нет навыков: ROC AUC =%. 3f’% (ns_auc)) print (‘Логистика: ROC AUC =%. 3f’% (lr_auc)) # вычислить кривые roc ns_fpr, ns_tpr, _ = roc_curve (testy, ns_probs) lr_fpr, lr_tpr, _ = roc_curve (testy, lr_probs) # построить кривую roc для модели пиплот.сюжет (ns_fpr, ns_tpr, linestyle = ‘-‘, label = ‘Нет навыков’) pyplot.plot (lr_fpr, lr_tpr, marker = ‘.’, label = ‘Logistic’) # метка оси pyplot.xlabel (‘Ложноположительная ставка’) pyplot.ylabel (‘Истинная положительная оценка’) # показать легенду pyplot.legend () # показать сюжет pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    13

    14

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    34

    35

    36

    37

    38

    39

    # roc curve и auc для несбалансированного набора данных

    из sklearn.наборы данных import make_classification

    from sklearn.linear_model import LogisticRegression

    from sklearn.model_selection import train_test_split

    from sklearn.metrics import roc_curve

    from sklearn.metrics import class

    00080008 X, y = make_classification (n_samples = 1000, n_classes = 2, weights = [0.99,0.01], random_state = 1)

    # разделить на наборы для обучения / тестирования

    trainX, testX, trainy, testy = train_test_split (X, y , test_size = 0.5, random_state = 2)

    # генерировать прогноз отсутствия навыков (класс большинства)

    ns_probs = [0 for _ in range (len (testy))]

    # соответствовать модели

    model = LogisticRegression (solver = ‘ lbfgs ‘)

    model.fit (trainX, trainy)

    # предсказать вероятности

    lr_probs = model.predict_proba (testX)

    # сохранить вероятности только для положительного результата

    lr_probs = lr_probs [:

    ]

    # подсчитать баллы

    ns_auc = roc_auc_score (testy, ns_probs)

    lr_auc = roc_auc_score (testy, lr_probs)

    # суммировать баллы

    print (‘No Skill: ROC AUC =%.3f ‘% (ns_auc))

    print (‘ Logistic: ROC AUC =%. 3f ‘% (lr_auc))

    # вычислить кривые ROC

    ns_fpr, ns_tpr, _ = roc_curve (testy, ns_probs)

    lr_probs)

    lr_probs lr_tpr, _ = roc_curve (testy, lr_probs)

    # построить кривую roc для модели

    pyplot.plot (ns_fpr, ns_tpr, linestyle = ‘-‘, label = ‘No Skill’)

    pyplot.plot ( lr_fpr, lr_tpr, marker = ‘.’, label = ‘Logistic’)

    # метки оси

    pyplot.xlabel (‘False Positive Rate’)

    pyplot.ylabel (‘True Positive Rate’)

    # показать легенду

    pyplot.legend ()

    # показать график

    pyplot.show ()

    Выполнение примера предполагает, что модель обладает навыками.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.


    Нет навыка: ROC AUC = 0.500 Логистика: ROC AUC = 0,716

    Нет навыков: ROC AUC = 0,500

    Логистика: ROC AUC = 0,716


    Действительно, у него есть навыки, но все эти навыки измеряются как правильные истинные отрицательные прогнозы, и есть много отрицательных прогнозов.

    Если вы просмотрите прогнозы, вы увидите, что модель предсказывает класс большинства (класс 0) во всех случаях в наборе тестов. Счет вводит в заблуждение.

    График кривой ROC подтверждает интерпретацию AUC умелой модели для большинства пороговых значений вероятности.

    График кривой ROC для классификатора без навыков и модель логистической регрессии для несбалансированного набора данных

    Мы также можем повторить тест той же модели на том же наборе данных и вместо этого вычислить кривую точности-отзыва и статистику.

    Полный пример приведен ниже.

    # кривая точности-отзыва и f1 для несбалансированного набора данных из склеарна.наборы данных импорт make_classification из sklearn.linear_model import LogisticRegression из sklearn.model_selection import train_test_split из sklearn.metrics import precision_recall_curve из sklearn.metrics import f1_score из sklearn.metrics import auc из matplotlib import pyplot # создать набор данных 2 классов X, y = make_classification (n_samples = 1000, n_classes = 2, weights = [0.99,0.01], random_state = 1) # разделить на наборы поездов / тестов trainX, testX, тренировочный, testy = train_test_split (X, y, test_size = 0.5, random_state = 2) # соответствовать модели model = LogisticRegression (решатель = ‘lbfgs’) model.fit (trainX, trainy) # прогнозировать вероятности lr_probs = model.predict_proba (testX) # сохраняем вероятности только положительного результата lr_probs = lr_probs [:, 1] # предсказать значения класса yhat = model.predict (testX) # вычисляем точность и отзыв для каждого порога lr_precision, lr_recall, _ = precision_recall_curve (testy, lr_probs) # подсчитать баллы lr_f1, lr_auc = f1_score (testy, yhat), auc (lr_recall, lr_precision) # подвести итоги print (‘Логистика: f1 =%.3f auc =%. 3f ‘% (lr_f1, lr_auc)) # построить кривые точности-отзыва no_skill = len (вздорный [testy == 1]) / len (проворный) pyplot.plot ([0, 1], [no_skill, no_skill], linestyle = ‘-‘, label = ‘Нет навыков’) pyplot.plot (lr_recall, lr_precision, marker = ‘.’, label = ‘Logistic’) # метка оси pyplot.xlabel (‘Отзыв’) pyplot.ylabel (‘Точность’) # показать легенду pyplot.legend () # показать сюжет pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    34

    35

    36

    37

    38

    # кривая прецизионного вызова и f1 для несбалансированного набора данных

    из sklearn.наборы данных импортировать make_classification

    из sklearn.linear_model import LogisticRegression

    из sklearn.model_selection import train_test_split

    из sklearn.metrics import precision_recall_curve

    из sklearn.metrics import alearn.metrics

    0008

    # сгенерировать набор данных 2 классов

    X, y = make_classification (n_samples = 1000, n_classes = 2, weights = [0.99,0.01], random_state = 1)

    # разделить на наборы для обучения / тестирования

    trainX, testX, trainy , testy = train_test_split (X, y, test_size = 0.5, random_state = 2)

    # соответствие модели

    model = LogisticRegression (solver = ‘lbfgs’)

    model.fit (trainX, trainy)

    # прогноз вероятностей

    lr_probs = model.predict_proba (testX)

    # сохранять вероятности только для положительного результата

    lr_probs = lr_probs [:, 1]

    # прогнозировать значения класса

    yhat = model.predict (testX)

    # вычислять точность и отзыв для каждого порога

    lr_precision, lr_recall , _ = precision_recall_curve (testy, lr_probs)

    # вычислить оценки

    lr_f1, lr_auc = f1_score (testy, yhat), auc (lr_recall, lr_precision)

    # Logmarize scores

    :3f auc =%. 3f ‘% (lr_f1, lr_auc))

    # построить кривые точности-отзыва

    no_skill = len (testy [testy == 1]) / len (testy)

    pyplot.plot ([0 , 1], [no_skill, no_skill], linestyle = ‘-‘, label = ‘No Skill’)

    pyplot.plot (lr_recall, lr_precision, marker = ‘.’, Label = ‘Logistic’)

    # ось label

    pyplot.xlabel (‘Recall’)

    pyplot.ylabel (‘Precision’)

    # показать легенду

    pyplot.legend ()

    # показать график

    pyplot.показать ()

    При выполнении примера сначала печатаются оценки F1 и AUC.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    Мы видим, что модель получает штраф за предсказание класса большинства во всех случаях. Оценки показывают, что модель, которая хорошо выглядела в соответствии с кривой ROC, на самом деле едва ли является умелой, если рассматривать использование точности и вспомнить, что фокусировка на положительном классе.

    Логистика: f1 = 0,000 auc = 0,054

    Логистика: f1 = 0,000 auc = 0,054

    График кривой точности-отзыва показывает, что модель чуть выше линии отсутствия навыков для большинства пороговых значений.

    Это возможно, потому что модель предсказывает вероятности и не дает точных сведений о некоторых случаях. Они выставляются через различные пороги, оцениваемые при построении кривой, переводя некоторый класс 0 в класс 1, предлагая некоторую точность, но очень низкую отзывчивость.

    График точного отзыва для классификатора без навыков и модель логистической регрессии для несбалансированного набора данных

    Дополнительная литература

    В этом разделе представлены дополнительные ресурсы по теме, если вы хотите углубиться.

    Документы

    API

    Статьи

    Сводка

    В этом руководстве вы узнали о кривых ROC, кривых точности-отзыва и о том, когда их использовать для интерпретации прогнозов вероятностей для задач двоичной классификации.

    В частности, вы выучили:

    • Кривые ROC суммируют компромисс между частотой истинных положительных и ложных положительных результатов для прогнозной модели с использованием различных пороговых значений вероятности.
    • Кривые
    • Precision-Recall суммируют компромисс между истинным положительным значением и положительным прогнозным значением для прогнозной модели с использованием различных пороговых значений вероятности.
    • Кривые
    • ROC подходят, когда наблюдения сбалансированы между каждым классом, тогда как кривые точности-отзыва подходят для несбалансированных наборов данных.

    Есть вопросы?
    Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.

    Узнайте о вероятности машинного обучения!

    Развивайте свое понимание вероятности
    … всего несколькими строками кода Python

    Узнайте, как это сделать, в моей новой электронной книге:
    Вероятность для машинного обучения

    Он предоставляет учебные пособия для самообучения и сквозные проекты по:
    Теорема Байеса , Байесовская оптимизация , Распределения , Максимальное правдоподобие , Кросс-энтропия , Калибровка моделей
    и многое другое…

    Наконец-то используйте неопределенность в своих проектах
    Пропустите академики. Только результаты. Посмотрите, что внутри

    Экономически чувствительная логистическая регрессия для несбалансированной классификации

    Последнее обновление 26 октября 2020 г.

    Логистическая регрессия не поддерживает несбалансированную классификацию напрямую.

    Вместо этого алгоритм обучения, используемый для соответствия модели логистической регрессии, должен быть изменен, чтобы учесть искаженное распределение. Этого можно достичь, указав конфигурацию взвешивания классов, которая используется для влияния на количество обновляемых коэффициентов логистической регрессии во время обучения.

    Взвешивание может в меньшей степени наказывать модель за ошибки, сделанные на примерах из класса большинства, и больше наказывать модель за ошибки, сделанные на примерах из класса меньшинства. Результатом является версия логистической регрессии, которая лучше справляется с несбалансированными задачами классификации, обычно называемая зависимой от затрат или взвешенной логистической регрессией.

    В этом руководстве вы обнаружите чувствительную к стоимости логистическую регрессию для несбалансированной классификации.

    После прохождения этого руководства вы будете знать:

    • Как стандартная логистическая регрессия не поддерживает несбалансированную классификацию.
    • Как логистическая регрессия может быть изменена для взвешивания ошибки модели по весу класса при подборе коэффициентов.
    • Как настроить вес класса для логистической регрессии и как выполнить поиск по сетке для различных конфигураций веса класса.

    Начните свой проект с моей новой книги «Несбалансированная классификация с Python», включая пошаговые руководства и файлы исходного кода Python для всех примеров.

    Приступим.

    • Обновление февраль / 2020 : Исправлена ​​опечатка при расчете веса.
    • Обновление октябрь / 2020 : Исправлена ​​опечатка в описании соотношения баланса.

    Экономически чувствительная логистическая регрессия для несбалансированной классификации
    Фотография Naval S, некоторые права защищены.

    Обзор учебного пособия

    Это руководство разделено на пять частей; их:

    1. Несбалансированный набор данных классификации
    2. Логистическая регрессия для несбалансированной классификации
    3. Взвешенная логистическая регрессия с помощью Scikit-Learn
    4. Взвешенная логистическая регрессия поиска по сетке

    Набор данных несбалансированной классификации

    Прежде чем мы углубимся в модификацию логистической регрессии для несбалансированной классификации, давайте сначала определим несбалансированный набор данных классификации.

    Мы можем использовать функцию make_classification () для определения синтетического несбалансированного двухклассового набора данных классификации. Мы сгенерируем 10 000 примеров с приблизительным соотношением меньшинства к большинству 1: 100.

    … # определить набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2)

    # определить набор данных

    X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0,

    n_clusters_per_class = 1, weights = [0.99], flip_y = 0, random_state = 2)

    После создания мы можем суммировать распределение классов, чтобы подтвердить, что набор данных был создан, как мы и ожидали.

    … # суммировать распределение классов counter = Counter (y) печать (счетчик)

    # обобщить распределение классов

    counter = Counter (y)

    print (counter)

    Наконец, мы можем создать диаграмму разброса примеров и раскрасить их по метке класса, чтобы понять проблему классификации примеров из этого набора данных.

    … # точечная диаграмма примеров по метке класса для метки _ в counter.items (): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) пиплот.легенда () pyplot.show ()

    # точечная диаграмма примеров по метке класса

    для метки, _ в counter.items ():

    row_ix = where (y == label) [0]

    pyplot.scatter (X [ row_ix, 0], X [row_ix, 1], label = str (label))

    pyplot.legend ()

    pyplot.show ()

    Полный пример создания синтетического набора данных и построения графиков приведен ниже.

    # Создание и построение набора данных синтетической несбалансированной классификации из коллекций счетчик импорта из sklearn.datasets импортировать make_classification из matplotlib import pyplot из импорта numpy, где # определить набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # суммировать распределение классов counter = Counter (y) печать (счетчик) # точечная диаграмма примеров по метке класса для ярлыка _ в счетчике.Предметы(): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    # Сгенерировать и построить набор данных синтетической несбалансированной классификации

    из коллекции импорта Counter

    из sklearn.datasets import make_classification

    from matplotlib import pyplot

    from numpy import, где

    # определить набор данных

    X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0,

    _classification = 0,

    _classs = 0,

    _кластер = 0,

    _кластер =

    _кластер = 0,

    _кластер = 0,

    _кластер = 0,

    _кластер =

    nights_classs = 0,

    _кластер =

    ], flip_y = 0, random_state = 2)

    # суммировать распределение классов

    counter = Counter (y)

    print (counter)

    # точечная диаграмма примеров по метке класса

    для label, _ in counter.items ():

    row_ix = where (y == label) [0]

    pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

    pyplot.legend ()

    pyplot.show ()

    При выполнении примера сначала создается набор данных и резюмируется распределение классов.

    Мы видим, что набор данных имеет приблизительное распределение классов 1: 100 с немногим менее 10 000 примеров в классе большинства и 100 в классе меньшинства.

    Счетчик ({0: 9900, 1: 100})

    Счетчик ({0: 9900, 1: 100})

    Затем создается диаграмма разброса набора данных, показывающая большое количество примеров для класса большинства (синий) и небольшое количество примеров для класса меньшинства (оранжевый) с некоторым небольшим перекрытием классов.

    Точечная диаграмма набора данных двоичной классификации с дисбалансом классов от 1 до 100

    Затем мы можем подогнать к набору данных стандартную модель логистической регрессии.

    Мы будем использовать повторную перекрестную проверку для оценки модели с тремя повторениями 10-кратной перекрестной проверки. Характеристики режима будут представлены с использованием средней ROC-площади под кривой (ROC AUC), усредненной по повторам и всем складкам.

    … # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # оценить модель scores = cross_val_score (модель, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1) # подвести итоги print (‘Среднее значение ROC AUC:%.3f ‘% среднее (баллы))

    # определить процедуру оценки

    cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1)

    # оценить модель

    scores = cross_val_score (model, X, y, scoring = ‘roc_auc =’ roc_auc ‘, cv = cv, n_jobs = -1)

    # подвести итоги производительности

    print (‘ Среднее ROC AUC:% .3f ‘% среднее (баллы))

    Полный пример оцененной стандартной логистической регрессии по проблеме несбалансированной классификации приведен ниже.

    # подобрать модель логистической регрессии на несбалансированном наборе данных классификации из среднего значения импорта из sklearn.datasets импортировать make_classification из sklearn.model_selection импорт cross_val_score из sklearn.model_selection import RepeatedStratifiedKFold из sklearn.linear_model import LogisticRegression # создать набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # определить модель model = LogisticRegression (решатель = ‘lbfgs’) # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # оценить модель scores = cross_val_score (модель, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1) # подвести итоги print (‘Среднее ROC AUC:% .3f’% среднее (баллы))

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    # соответствует модели логистической регрессии на несбалансированном наборе данных классификации

    из numpy import mean

    from sklearn.наборы данных импортировать make_classification

    из sklearn.model_selection import cross_val_score

    из sklearn.model_selection import RepeatedStratifiedKFold

    из sklearn.linear_model import LogisticRegression

    # generate dataset_

    0,

    n_clusters_per_class = 1, weights = [0.99], flip_y = 0, random_state = 2)

    # определить модель

    model = LogisticRegression (solver = ‘lbfgs’)

    # определить процедуру оценки

    cv = Repeated (n_splits = 10, n_repeats = 3, random_state = 1)

    # оценить модель

    scores = cross_val_score (model, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1)

    # подвести итоги

    отпечаток (‘Среднее значение ROC AUC:%.3f ‘% среднее (баллы)

    При выполнении примера оценивается стандартная модель логистической регрессии для несбалансированного набора данных и отображается среднее значение ROC AUC.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    Мы видим, что у модели есть навык, достигающий ROC AUC выше 0.5, в этом случае средний балл составляет 0,985.

    Это обеспечивает основу для сравнения любых модификаций, выполненных в стандартном алгоритме логистической регрессии.

    Хотите начать работу с классификацией дисбаланса?

    Пройдите мой бесплатный 7-дневный ускоренный курс электронной почты (с образцом кода).

    Нажмите, чтобы зарегистрироваться, а также получите бесплатную электронную версию курса в формате PDF.

    Загрузите БЕСПЛАТНЫЙ мини-курс

    Логистическая регрессия для несбалансированной классификации

    Логистическая регрессия — эффективная модель для задач двоичной классификации, хотя по умолчанию она не эффективна при несбалансированной классификации.

    Логистическая регрессия может быть изменена, чтобы лучше подходить для логистической регрессии.

    Коэффициенты алгоритма логистической регрессии подбираются с использованием алгоритма оптимизации, который минимизирует отрицательную логарифмическую вероятность (потерю) для модели в наборе обучающих данных.

    • минимизировать сумму i до n — (log (yhat_i) * y_i + log (1 — yhat_i) * (1 — y_i))

    Это включает в себя повторное использование модели для прогнозирования с последующей адаптацией коэффициентов в направлении, которое снижает потери модели.

    Расчет потерь для данного набора коэффициентов может быть изменен с учетом баланса классов.

    По умолчанию, ошибки для каждого класса могут считаться имеющими одинаковый вес, например 1.0. Эти веса могут быть скорректированы в зависимости от важности каждого класса.

    • минимизировать сумму i до n — (w0 * log (yhat_i) * y_i + w1 * log (1 — yhat_i) * (1 — y_i))

    Взвешивание применяется к потерям, так что меньшие значения веса приводят к меньшему значению ошибки и, в свою очередь, к меньшему обновлению коэффициентов модели.Большее значение веса приводит к большему вычислению ошибки и, в свою очередь, к большему обновлению коэффициентов модели.

    • Малый вес : Меньше значение, меньше обновлений для коэффициентов модели.
    • Большой вес : Больше важности, больше обновлений для коэффициентов модели.

    Таким образом, модифицированная версия логистической регрессии называется взвешенной логистической регрессией, взвешенной логистической регрессией или логистической регрессией с учетом затрат.

    Веса иногда называют весами важности.

    Несмотря на несложность реализации, задача взвешенной логистической регрессии заключается в выборе веса для каждого класса.

    Взвешенная логистическая регрессия с помощью Scikit-Learn

    Библиотека машинного обучения Python scikit-learn предоставляет реализацию логистической регрессии, которая поддерживает взвешивание классов.

    Класс LogisticRegression предоставляет аргумент class_weight, который можно указать как гиперпараметр модели.Class_weight — это словарь, который определяет каждую метку класса (например, 0 и 1) и вес, применяемый при вычислении отрицательной логарифмической вероятности при подборе модели.

    Например, весовой коэффициент 1 к 1 для каждого класса 0 и 1 можно определить следующим образом:

    … # определить модель веса = {0: 1.0, 1: 1.0} model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    # определить модель

    weights = {0: 1.0, 1: 1.0}

    model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    Взвешивание классов может быть определено несколькими способами; например:

    • Экспертиза в предметной области , определяется путем бесед с экспертами в предметной области.
    • Настройка , определяется поиском гиперпараметров, например поиском по сетке.
    • Эвристика , определенная с использованием общих рекомендаций.

    Лучшим способом использования взвешивания классов является использование обратного распределения классов, представленного в наборе обучающих данных.

    Например, распределение классов обучающего набора данных — это соотношение 1: 100 для класса меньшинства к классу большинства. Можно использовать инверсию этого отношения с 1 для класса большинства и 100 для класса меньшинства; например:

    … # определить модель веса = {0: 1.0, 1: 100.0} model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    # определить модель

    weights = {0: 1.0, 1: 100.0}

    model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    Мы могли бы также определить такое же соотношение, используя дроби, и получить тот же результат; например:

    … # определить модель веса = {0: 0,01, 1: 1,0} model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    # определить модель

    weights = {0: 0.01, 1: 1.0}

    model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    Мы можем оценить алгоритм логистической регрессии с помощью взвешивания классов, используя ту же процедуру оценки, которая была определена в предыдущем разделе.

    Мы ожидаем, что взвешенная по классам версия логистической регрессии будет работать лучше, чем стандартная версия логистической регрессии без какого-либо взвешивания классов.

    Полный пример приведен ниже.

    # взвешенная модель логистической регрессии для несбалансированного набора данных классификации из среднего значения импорта из sklearn.datasets импортировать make_classification из sklearn.model_selection импорт cross_val_score из sklearn.model_selection import RepeatedStratifiedKFold из sklearn.linear_model import LogisticRegression # создать набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # определить модель веса = {0: 0,01, 1: 1,0} model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights) # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # оценить модель scores = cross_val_score (модель, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1) # подвести итоги print (‘Среднее ROC AUC:% .3f’% среднее (баллы))

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    # взвешенная модель логистической регрессии на несбалансированном наборе данных классификации

    из numpy import mean

    from sklearn.наборы данных импортировать make_classification

    из sklearn.model_selection import cross_val_score

    из sklearn.model_selection import RepeatedStratifiedKFold

    из sklearn.linear_model import LogisticRegression

    # generate dataset_

    0,

    n_clusters_per_class = 1, weights = [0.99], flip_y = 0, random_state = 2)

    # определить модель

    weights = {0: 0.01, 1: 1.0}

    model = LogisticRegression (solver = ‘lbfgs’, class_weight = weights)

    # определить процедуру оценки

    cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1)

    # оценка модели

    = cross_val_score (model, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1)

    # подвести итоги

    print (‘Среднее ROC AUC:% .3f’% среднее (баллы))

    При выполнении примера подготавливается набор данных синтетической несбалансированной классификации, а затем оценивается взвешенная по классам версия логистической регрессии с использованием повторной перекрестной проверки.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    Сообщается средний показатель ROC AUC, в этом случае он показывает лучший результат, чем невзвешенная версия логистической регрессии, 0,989 по сравнению с 0,985.

    Библиотека scikit-learn предоставляет реализацию эвристики передового опыта для взвешивания классов.

    Реализуется с помощью функции compute_class_weight () и рассчитывается как:

    • n_samples / (n_classes * n_samples_with_class)

    Мы можем проверить этот расчет вручную на нашем наборе данных. Например, у нас есть 10 000 примеров в наборе данных, 9900 в классе 0 и 100 в классе 1.

    Весовой коэффициент для класса 0 рассчитывается как:

    • взвешивание = n_samples / (n_classes * n_samples_with_class)
    • взвешивание = 10000 / (2 * 9900)
    • взвешивание = 10000/19800
    • весовой коэффициент = 0.05

    Весовой коэффициент для класса 1 рассчитывается как:

    • взвешивание = n_samples / (n_classes * n_samples_with_class)
    • взвешивание = 10000 / (2 * 100)
    • взвешивание = 10000/200
    • взвешивание = 50

    Мы можем подтвердить эти вычисления, вызвав функцию compute_class_weight () и указав class_weight как « сбалансированный ». Например:

    # вычислить эвристический вес класса из склеарна.utils.class_weight импорт compute_class_weight из sklearn.datasets импортировать make_classification # создать набор данных 2 классов X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # вычислить вес класса weighting = compute_class_weight (‘сбалансированный’, [0,1], y) печать (взвешивание)

    # вычислить эвристический вес класса

    из sklearn.утилиты ], flip_y = 0, random_state = 2)

    # вычислить вес класса

    weighting = compute_class_weight (‘сбалансированный’, [0,1], y)

    print (weighting)

    Запустив пример, мы видим, что можем достичь веса около 0.5 для класса 0 и 50 для класса 1.

    Эти значения соответствуют нашему ручному расчету.

    Значения также соответствуют нашему эвристическому расчету выше для инвертирования отношения распределения классов в наборе обучающих данных; например:

    Мы можем использовать баланс класса по умолчанию непосредственно с классом LogisticRegression, установив для аргумента class_weight значение «сбалансированный». Например:

    … # определить модель model = LogisticRegression (solver = ‘lbfgs’, class_weight =’balanced ‘)

    # определить модель

    model = LogisticRegression (solver = ‘lbfgs’, class_weight =’balanced ‘)

    Полный пример приведен ниже.

    # взвешенная логистическая регрессия для дисбаланса классов с эвристическими весами из среднего значения импорта из sklearn.datasets импортировать make_classification из sklearn.model_selection импорт cross_val_score из sklearn.model_selection import RepeatedStratifiedKFold из склеарна.linear_model импорт LogisticRegression # создать набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # определить модель model = LogisticRegression (решатель = ‘lbfgs’, class_weight = ‘сбалансированный’) # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # оценить модель scores = cross_val_score (модель, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1) # подвести итоги print (‘Среднее значение ROC AUC:%.3f ‘% среднее (баллы))

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    # взвешенная логистическая регрессия для дисбаланса классов с эвристическими весами

    из numpy import mean

    from sklearn.datasets import make_classification

    from sklearn.model_selection import cross_val_score

    из sklearn.model_selection import RepeatedStratifiedKFold

    из sklearn.linear_model import LogisticRegression

    # сгенерировать набор данных

    X, y = make_classification (n_sample_samples = 10000, n_feclassification = 9000, n_feclassification = 9000, n_feclassification = 1 weights = [0.99], flip_y = 0, random_state = 2)

    # определить модель

    model = LogisticRegression (solver = ‘lbfgs’, class_weight = ‘balance’)

    # определить процедуру оценки

    cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1)

    # оценить модель

    scores = cross_val_score (model, X, y, scoring = ‘roc_auc’, cv = cv, n_jobs = -1)

    # подвести итоги

    print (‘Среднее значение ROC AUC:%.3f ‘% среднее (баллы)

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    Выполнение примера дает то же среднее значение ROC AUC, которое мы получили, задав обратное соотношение классов вручную.

    Взвешенная логистическая регрессия поиска по сетке

    Использование взвешивания класса, которое является обратным соотношением обучающих данных, является всего лишь эвристикой.

    Возможно, что лучшая производительность может быть достигнута с другим весом класса, и это также будет зависеть от выбора метрики производительности, используемой для оценки модели.

    В этом разделе мы проведем поиск по сетке по диапазону различных весов классов для взвешенной логистической регрессии и выясним, какие результаты дают лучший результат ROC AUC.

    Мы попробуем следующие веса для классов 0 и 1:

    • {0: 100,1: 1}
    • {0: 10,1: 1}
    • {0: 1,1: 1}
    • {0: 1,1: 10}
    • {0: 1,1: 100}

    Их можно определить как параметры поиска по сетке для класса GridSearchCV следующим образом:

    … # определить сетку баланс = [{0: 100,1: 1}, {0: 10,1: 1}, {0: 1,1: 1}, {0: 1,1: 10}, {0: 1,1: 100}] param_grid = dict (class_weight = баланс)

    # определить сетку

    balance = [{0: 100,1: 1}, {0: 10,1: 1}, {0: 1,1: 1}, {0: 1, 1:10}, {0: 1,1: 100}]

    param_grid = dict (class_weight = balance)

    Мы можем выполнить поиск по сетке по этим параметрам, используя повторную перекрестную проверку, и оценить производительность модели, используя ROC AUC:

    … # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # определить поиск по сетке grid = GridSearchCV (оценка = модель, param_grid = param_grid, n_jobs = -1, cv = cv, scoring = ‘roc_auc’)

    # определить процедуру оценки

    cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1)

    # определить поиск по сетке

    grid = GridSearchCV (оценка = модель, param_grid, n_bsgrid = = -1, cv = cv, scoring = ‘roc_auc’)

    После выполнения мы можем суммировать лучшую конфигурацию, а также все результаты следующим образом:

    … # сообщить о лучшей конфигурации print («Лучшее:% f с использованием% s»% (grid_result.best_score_, grid_result.best_params_)) # сообщить обо всех конфигурациях означает = grid_result.cv_results _ [‘mean_test_score’] stds = grid_result.cv_results _ [‘std_test_score’] params = grid_result.cv_results _ [‘параметры’] для mean, stdev, param в zip (means, stds, params): print («% f (% f) with:% r»% (mean, stdev, param))

    # сообщить о лучшей конфигурации

    print («Best:% f using% s»% (grid_result.best_score_, grid_result.best_params_))

    # сообщить обо всех конфигурациях

    means = grid_result.cv_results _ [‘mean_test_score’ ]

    stds = grid_result.cv_results _ [‘std_test_score’]

    params = grid_result.cv_results _ [‘params’]

    для среднего, стандартного отклонения, параметра в zip (means, stds, params):

    print («% f (% f) с:% r «% (среднее, стандартное отклонение, параметр))

    В приведенном ниже примере сетки выполняется поиск пяти различных весов классов для логистической регрессии в несбалансированном наборе данных.

    Можно ожидать, что эвристическое взвешивание классов является наиболее производительной конфигурацией.

    # поиск по сетке весов классов с логистической регрессией для классификации дисбаланса из среднего значения импорта из sklearn.datasets импортировать make_classification из sklearn.model_selection import GridSearchCV из sklearn.model_selection import RepeatedStratifiedKFold из sklearn.linear_model import LogisticRegression # создать набор данных X, y = make_classification (n_samples = 10000, n_features = 2, n_redundant = 0, n_clusters_per_class = 1, веса = [0.99], flip_y = 0, random_state = 2) # определить модель model = LogisticRegression (решатель = ‘lbfgs’) # определить сетку баланс = [{0: 100,1: 1}, {0: 10,1: 1}, {0: 1,1: 1}, {0: 1,1: 10}, {0: 1,1: 100}] param_grid = dict (class_weight = баланс) # определить процедуру оценки cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1) # определить поиск по сетке grid = GridSearchCV (оценка = модель, param_grid = param_grid, n_jobs = -1, cv = cv, scoring = ‘roc_auc’) # выполнить поиск по сетке grid_result = сетка.подходят (X, y) # сообщить о лучшей конфигурации print («Лучшее:% f с использованием% s»% (grid_result.best_score_, grid_result.best_params_)) # сообщить обо всех конфигурациях означает = grid_result.cv_results _ [‘mean_test_score’] stds = grid_result.cv_results _ [‘std_test_score’] params = grid_result.cv_results _ [‘параметры’] для mean, stdev, param в zip (means, stds, params): print («% f (% f) with:% r»% (mean, stdev, param))

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    14

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    # вес классов поиска сетки с логистической регрессией для классификации дисбаланса

    из numpy import mean

    from sklearn.наборы данных импортировать make_classification

    из sklearn.model_selection import GridSearchCV

    из sklearn.model_selection import RepeatedStratifiedKFold

    из sklearn.linear_model import LogisticRegression

    # generate dataset_

    0,

    n_clusters_per_class = 1, weights = [0.99], flip_y = 0, random_state = 2)

    # определить модель

    model = LogisticRegression (solver = ‘lbfgs’)

    # define grid

    balance = [{ 0: 100,1: 1}, {0: 10,1: 1}, {0: 1,1: 1}, {0: 1,1: 10}, {0: 1,1: 100}]

    param_grid = dict (class_weight = balance)

    # определить процедуру оценки

    cv = RepeatedStratifiedKFold (n_splits = 10, n_repeats = 3, random_state = 1)

    # определить поиск по сетке

    grid = GridSearchridCV (param. = param_grid, n_jobs = -1, cv = cv, scoring = ‘roc_auc’)

    # выполнить поиск по сетке

    grid_result = сетка.fit (X, y)

    # сообщить о лучшей конфигурации

    print («Best:% f using% s»% (grid_result.best_score_, grid_result.best_params_))

    # сообщить обо всех конфигурациях

    means = grid_result.cv_results_ [‘mean_test_score’]

    stds = grid_result.cv_results _ [‘std_test_score’]

    params = grid_result.cv_results _ [‘params’]

    для среднего, stdev, param в zip (means, stds,

    params):

    : print («% f (% f) с:% r»% (среднее, стандартное отклонение, параметр))

    При выполнении примера оценивается вес каждого класса с использованием повторной k-кратной перекрестной проверки и отображается лучшая конфигурация и соответствующий средний показатель ROC AUC.

    Примечание : Ваши результаты могут отличаться из-за стохастической природы алгоритма или процедуры оценки или различий в числовой точности. Попробуйте запустить пример несколько раз и сравните средний результат.

    В этом случае мы видим, что соотношение 1: 100 от большинства к классу меньшинства дает лучший средний балл ROC. Это соответствует конфигурации для общей эвристики.

    Было бы интересно изучить еще более строгие веса классов, чтобы увидеть их влияние на средний показатель ROC AUC.

    Лучшее: 0,989077 при использовании {‘class_weight’: {0: 1, 1: 100}} 0,982498 (0,016722) с: {‘class_weight’: {0: 100, 1: 1}} 0,983623 (0,015760) с: {‘class_weight’: {0: 10, 1: 1}} 0,985387 (0,013890) с: {‘class_weight’: {0: 1, 1: 1}} 0,988044 (0,010384) с: {‘class_weight’: {0: 1, 1: 10}} 0,989077 (0,006865) с: {‘class_weight’: {0: 1, 1: 100}}

    Лучшее: 0,989077 с использованием {‘class_weight’: {0: 1, 1: 100}}

    0.982498 (0,016722) с: {‘class_weight’: {0: 100, 1: 1}}

    0,983623 (0,015760) с: {‘class_weight’: {0: 10, 1: 1}}

    0,985387 (0,013890) с: {‘class_weight’: {0: 1, 1: 1}}

    0,988044 (0,010384) с: {‘class_weight’: {0: 1, 1: 10}}

    0,989077 (0,006865) с: {‘ class_weight ‘: {0: 1, 1: 100}}

    Дополнительная литература

    В этом разделе представлены дополнительные ресурсы по теме, если вы хотите углубиться.

    Документы

    Книги

    API

    Сводка

    В этом руководстве вы обнаружили чувствительную к стоимости логистическую регрессию для несбалансированной классификации.

    В частности, вы выучили:

    • Как стандартная логистическая регрессия не поддерживает несбалансированную классификацию.
    • Как логистическая регрессия может быть изменена для взвешивания ошибки модели по весу класса при подборе коэффициентов.
    • Как настроить вес класса для логистической регрессии и как выполнить поиск по сетке для различных конфигураций веса класса.

    Есть вопросы?
    Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.

    Разберитесь с несбалансированной классификацией!

    Разработка несбалансированных моделей обучения за считанные минуты

    … всего несколькими строками кода Python

    Узнайте, как в моей новой электронной книге:
    Несбалансированная классификация с Python

    Он предоставляет учебные пособия для самообучения и сквозные проекты по:
    Метрики производительности , Методы пониженной дискретизации , SMOTE , Смещение порога , Калибровка вероятности , Экономически чувствительные алгоритмы
    и многое другое…

    Привнесите несбалансированные методы классификации в свои проекты машинного обучения
    Посмотрите, что внутри

    Типы классификации Домашнее задание Помощь в статистике

    Вообще говоря, существует четыре типа классификации. Их:

    (i) географическая классификация, (ii) хронологическая классификация,

    (iii) качественная классификация и (iv) количественная классификация.

    Подробно они описаны под:

    Географическая классификация

    В соответствии с этим типом классификации данные классифицируются на основе площади или места, и поэтому этот тип классификации также известен как классификация по площади или пространству.Области могут относиться к странам, штатам, округам или зонам в зависимости от распределения данных. Для стран, штатов, районов или зон в соответствии с распределением данных. Для удобства ссылок и ранжирования различные классы, входящие в классификацию, должны быть расположены в порядке их алфавита или размера частот соответственно. Как правило, в справочных таблицах упорядочиваются по алфавиту, а в сводных таблицах — по ранжированию.

    Однако этот тип классификации подходит для тех данных, которые распределены географически, относящиеся к явлению, а именно. население, полезные ископаемые, производство, сбыт, студенты вузов и др.

    Хронологическая классификация

    Согласно этому типу классификации собранные данные классифицируются по времени их появления. Таким образом, ряды, полученные в соответствии с этой классификацией, известны как временные ряды. Этот тип классификации подходит для выбранных данных, которые имеют место с течением времени, а именно.население, производство, продажи, результаты и т. д. Различные классы, полученные в рамках этой классификации, расположены в порядке времени, которое может начинаться либо с самого раннего, либо с самого позднего периода.

    Качественная классификация

    Согласно этому типу классификации полученные данные классифицируются на основе определенного описательного характера или качественного аспекта явления, а именно. секс, красота, грамотность, честность, интеллект, религия, зрение и т. д.

    Таким образом, такая классификация также известна как «описательная классификация».Такой тип классификации обычно носит дихотомический характер, в котором все данные делятся на две группы, а именно группу с отсутствием отношения, такую ​​как слепой и неслепой, или глухой и неглухой и т. Д.

    Количественная классификация

    Согласно этому типу классификации собранные данные классифицируются на основе определенной переменной, а именно. оценка, доход, расходы, прибыль, убыток, рост, вес, возраст, цена, производство и т. д., которые могут быть количественными, также известны как «классификация по переменным».

    Типы классификации — ArcGIS for Power BI

    Если вы стилизуете свой слой с использованием цвета или размера, у вас есть возможность классифицировать данные, то есть разделить их на классы или группы, а также определить диапазоны и границы для классов. В зависимости от того, сколько данных у вас есть в вашем слое, вы также можете выбрать количество классов: от 1 до 10. Чем больше у вас данных, тем больше у вас классов. Способ, которым вы определяете диапазоны классов и разрывы — высокие и низкие значения, ограничивающие каждый класс — определяет, какие местоположения попадают в каждый класс и как выглядит слой.Изменяя классы, вы можете создавать очень разные карты. Как правило, цель состоит в том, чтобы местоположения с одинаковыми значениями принадлежали к одному классу.

    Естественные перерывы

    Классы естественных перерывов основаны на естественных перерывах. группировки, присущие данным. Класс разбивает эту группу похожих ценности и максимизировать различия между классами — например, высота дерева в национальном лесу — определены. Локации разделены на классы с границами, которые установлены там, где есть относительно большие различия в значениях данных.

    Потому что естественные разрывы классификация помещает сгруппированные значения в один и тот же класс, это метод хорош для отображения значений данных, которые не равномерно распределены.

    Равный интервал

    Равный интервал делит диапазон атрибута значения в поддиапазоны равного размера. С этой классификацией вы указываете количество классов, и ArcGIS for Power BI автоматически определяет, как разделить данные. Для Например, если вы укажете три класса для поля со значениями от 0 до 300, ArcGIS for Power BI создает три классы с диапазонами 0–100, 101–200 и 201–300.

    Равноинтервальная классификация лучше всего применять к знакомым диапазонам данных, таким как проценты и температура. Этот метод подчеркивает количество атрибута значение относительно других значений. Например, он может показать, что магазин входит в группу магазинов, которые составляют треть лучших всех продаж.

    Квантиль

    С квантильной классификацией, каждый класс содержит равное количество мест, например, 10 на класс или 20 в классе.Нет пустых классов или классов, в которых слишком мало или слишком много значений. Квантильная классификация хорошо подходит для линейного (равномерно) распределенные данные. Если вам нужно столько же местоположения или значения в каждом классе, используйте квантиль классификация.

    Поскольку местоположения сгруппированы в равные числа в каждом классе, результирующая карта часто может быть вводящие в заблуждение. Подобные локации могут быть помещены в соседние классы, или местоположения с сильно различающимися значениями можно отнести к одному классу.Вы можете минимизировать это искажение, увеличив количество классы.

    Стандартное отклонение

    Классификация стандартного отклонения показывает, насколько значение атрибута местоположения отличается от среднего. Подчеркивая значения выше и ниже среднего, классификация стандартного отклонения помогает показать, какие местоположения находятся выше или ниже среднего значения. Используйте этот метод классификации, когда важно знать, как значения соотносятся со средним значением, например, плотность населения в данном районе или сравнение показателей отчуждения права выкупа по стране.Для большей детализации карты вы можете изменить размер класса с 1 стандартного отклонения до 0,5 стандартного отклонения.

    Ручные разрывы

    Если вы хотите определить свои собственные классы, вы можете вручную добавить разрывы классов и установить диапазоны классов, подходящие для ваших данных. Кроме того, вы можете начать с одной из стандартных классификаций и при необходимости внести коррективы. Возможно, уже существуют определенные стандарты или руководящие принципы для картирования ваших данных — например, агентство может использовать стандартные классы или разрывы для всех карт, такие как шкала Фудзита (шкала F), используемая для классификации силы торнадо.Разместите перерывы там, где они вам нужны или нужны.


    Отзыв по этой теме?

    Что такое классификация данных? Определение классификации данных

    Узнайте о различных типах классификации и о том, как эффективно классифицировать свои данные, в Data Protection 101, нашей серии статей по основам безопасности данных.

    Определение классификации данных

    Классификация данных в широком смысле определяется как процесс организации данных по соответствующим категориям, чтобы их можно было использовать и защищать более эффективно.На базовом уровне процесс классификации упрощает поиск и извлечение данных. Классификация данных имеет особое значение, когда речь идет об управлении рисками, соблюдении нормативных требований и безопасности данных.

    Классификация данных включает в себя тегирование данных, чтобы сделать их легко доступными для поиска и отслеживания. Это также исключает многократное дублирование данных, что может снизить затраты на хранение и резервное копирование при одновременном ускорении процесса поиска. Хотя процесс классификации может показаться слишком техническим, это тема, которую должно понимать руководство вашей организации.

    Причины классификации данных

    Классификация данных со временем значительно улучшилась. Сегодня эта технология используется для различных целей, часто для поддержки инициатив по обеспечению безопасности данных. Но данные могут быть классифицированы по ряду причин, включая простоту доступа, соблюдение нормативных требований и выполнение различных других деловых или личных целей. В некоторых случаях классификация данных является нормативным требованием, поскольку данные должны быть доступными для поиска и извлечения в течение определенных периодов времени.Для целей безопасности данных классификация данных является полезной тактикой, которая обеспечивает надлежащие меры безопасности в зависимости от типа извлекаемых, передаваемых или копируемых данных.

    Типы классификации данных

    Классификация данных часто включает в себя множество тегов и меток, которые определяют тип данных, их конфиденциальность и целостность. Доступность также может приниматься во внимание в процессах классификации данных. Уровень конфиденциальности данных часто классифицируется на основе различных уровней важности или конфиденциальности, которые затем соотносятся с мерами безопасности, принятыми для защиты каждого уровня классификации.

    Существует три основных типа классификации данных, которые считаются отраслевыми стандартами:

    • Классификация на основе содержимого проверяет и интерпретирует файлы в поисках конфиденциальной информации
    • Контекстная классификация на основе рассматривает приложение, местоположение или создателя среди другие переменные как косвенные индикаторы конфиденциальной информации
    • Классификация на основе пользовательской зависит от ручного выбора каждого документа конечным пользователем.Классификация на основе пользователей основывается на знаниях и усмотрении пользователя при создании, редактировании, просмотре или распространении для пометки конфиденциальных документов.

    Контентный, контекстный и пользовательский подходы могут быть как правильными, так и неправильными в зависимости от бизнес-потребностей и типа данных.

    Определение риска данных

    Помимо типов классификации, для организации целесообразно определить относительный риск, связанный с типами данных, с тем, как эти данные обрабатываются и где они хранятся / отправляются (конечные точки).Распространенной практикой является разделение данных и систем на три уровня риска

    • Низкий риск: если данные являются общедоступными и их нелегко потерять навсегда (например, легко восстановить), этот сбор данных и окружающие его системы, вероятно, будут менее значимыми. риск, чем другие.
    • Средний риск: по сути, это данные, которые не являются общедоступными или используются внутри компании (вашей организацией и / или партнерами). Однако он также не слишком важен для операций или чувствителен к «высокому риску». Собственные операционные процедуры, стоимость товаров и некоторая документация компании могут попадать в категорию умеренных.
    • Высокий риск: все, что является удаленно чувствительным или важным для операционной безопасности, относится к категории высокого риска. Кроме того, фрагменты данных, которые чрезвычайно трудно восстановить (в случае потери). Все конфиденциальные, конфиденциальные и необходимые данные относятся к категории высокого риска.

    Примечание. Некоторые также используют более детальную шкалу, добавляя «серьезный» риск или другие категории, чтобы помочь дифференцировать данные.

    Использование матрицы классификации данных

    Некоторым организациям может быть легко создавать и маркировать данные.Если количество типов данных невелико или, возможно, у вашего бизнеса меньше транзакций, определение риска данных и ваших систем, вероятно, будет менее трудным. Тем не менее, многим организациям, имеющим дело с большим объемом или несколькими типами данных, вероятно, потребуется комплексный способ определения своего риска. Для этого многие используют «матрицу классификации данных».

    Создание матрицы рейтинговых данных и / или систем с учетом вероятности их взлома и степени конфиденциальности этих данных поможет вам быстро определить, как лучше классифицировать и защищать все конфиденциальные данные.

    Пример классификации данных

    Организация может классифицировать данные как закрытые, частные или общедоступные. В этом случае общедоступные данные представляют собой наименее конфиденциальные данные с самыми низкими требованиями к безопасности, в то время как данные с ограниченным доступом относятся к наивысшей классификации безопасности и представляют собой наиболее конфиденциальные данные. Этот тип классификации данных часто является отправной точкой для многих предприятий, за которой следуют дополнительные процедуры идентификации и маркировки, которые маркируют данные в зависимости от их значимости для предприятия, качества и других классификаций.Наиболее успешные процессы классификации данных используют последующие процессы и структуры для хранения конфиденциальных данных там, где они должны быть.

    Процесс классификации данных

    Классификация данных может быть сложным и обременительным процессом. Автоматизированные системы могут помочь упростить процесс, но предприятие должно определить категории и критерии, которые будут использоваться для классификации данных, понимания и определения своих целей, обозначить роли и обязанности сотрудников в поддержании надлежащих протоколов классификации данных и внедрить стандарты безопасности, которые соответствуют категориям данных и тегам.Если все сделано правильно, этот процесс предоставит сотрудникам и третьим сторонам, участвующим в хранении, передаче или извлечении данных, рабочую структуру. Приведенный ниже видеоклип демонстрирует методы классификации конфиденциальных данных и взят из нашего веб-семинара «Как классификация определяет вашу стратегию безопасности данных», который представлен Гарретом Беккером, старшим аналитиком отдела информационной безопасности компании 451 Research. Вы можете посмотреть полный веб-семинар здесь.


    Политики и процедуры должны быть четко определены, учитывать требования безопасности и конфиденциальность типов данных и быть достаточно простыми, чтобы их можно было легко интерпретировать для сотрудников, содействующих соблюдению требований.Например, каждая категория должна включать информацию о типах данных, включенных в классификацию, соображениях безопасности с правилами извлечения, передачи и хранения данных, а также потенциальных рисках, связанных с нарушением политик безопасности.

    Классификация данных GDPR

    В связи с действующим Общим регламентом защиты данных (GDPR) классификация данных стала как никогда необходимой для компаний, которые хранят, передают или обрабатывают данные, относящиеся к гражданам ЕС.Этим компаниям крайне важно классифицировать данные, чтобы все, что покрывается GDPR, было легко идентифицировать и чтобы можно было принять соответствующие меры безопасности.

    Кроме того, GDPR обеспечивает повышенную защиту определенных категорий личных данных. Например, GDPR прямо запрещает обработку данных, связанных с расовым или этническим происхождением, политическими взглядами, религиозными или философскими убеждениями. Соответствующая классификация таких данных может значительно снизить риск проблем с соблюдением требований.

    Шаги для эффективной классификации данных

    • Поймите текущую настройку: Подробный анализ расположения текущих данных и всех нормативных требований, относящихся к вашей организации, возможно, является лучшей отправной точкой для эффективной классификации данных. Вы должны знать, какие данные у вас есть, прежде чем вы сможете их классифицировать.
    • Создание политики классификации данных: Соблюдение принципов защиты данных в организации практически невозможно без надлежащей политики.Создание политики должно быть вашим главным приоритетом.
    • Расстановка приоритетов и организация данных: Теперь, когда у вас есть политика и картина текущих данных, пора правильно классифицировать данные. Выберите лучший способ пометить свои данные с учетом их конфиденциальности и конфиденциальности.

    Классификация данных дает больше преимуществ, чем простое упрощение поиска данных. Классификация данных необходима для того, чтобы современные предприятия могли разобраться в огромных объемах данных, доступных в любой момент.

    Классификация данных дает четкое представление обо всех данных, находящихся под контролем организации, и понимание того, где хранятся данные, как легко получить к ним доступ, а также лучший способ защиты от потенциальных угроз безопасности. После внедрения классификация данных обеспечивает организованную структуру, которая обеспечивает более адекватные меры защиты данных и способствует соблюдению сотрудниками политик безопасности.

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *