Релевантность данных: Релевантность | это… Что такое Релевантность?

Релевантность | это… Что такое Релевантность?

Содержание

  • 1 Виды релевантности
    • 1.1 Содержательная релевантность
    • 1.2 Формальная релевантность
  • 2 Пертинентность
  • 3 Примечания
  • 4 См. также
  • 5 Литература

Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа.[1] В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.[источник не указан 732 дня]

Виды релевантности

Содержательная релевантность

Соответствие документа информационному запросу, определяемое неформальным путем. [1]

Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.[1]

Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones).[источник не указан 732 дня]

Пертинентность

Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.[1]

Примечания

  1. 1 2 3 4
    Словарь по кибернетике / Под редакцией академика В. С. Михалевича. — 2-е. — Киев: Главная редакция Украинской Советской Энциклопедии имени М. П. Бажана, 1989. — 751 с. — (С48). — 50 000 экз. — ISBN 5-88500-008-5

См. также

  • Поисковая система
  • Поисковая оптимизация
  • Поисковый спам
  • Ранжирование

Литература

  • Капустин В. А. Основы поиска информации в Интернете. Методическое пособие. — СПб.: Институт «Открытое общество». Санкт-Петербургское отделение, 1998. — 13 с (см. стр. 5 — о пертинентности)
  • Пертинентность // Краткий словарь терминов и обозначений

Релевантность | это… Что такое Релевантность?

Содержание

  • 1 Виды релевантности
    • 1. 1 Содержательная релевантность
    • 1.2 Формальная релевантность
  • 2 Пертинентность
  • 3 Примечания
  • 4 См. также
  • 5 Литература

Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа.[1] В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.[источник не указан 732 дня]

Виды релевантности

Содержательная релевантность

Соответствие документа информационному запросу, определяемое неформальным путем.[1]

Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму. [1]

Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину. Автором метода является Gerard Salton (в дальнейшем доработан Karen Sparck Jones).[источник не указан 732 дня]

Пертинентность

Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.[1]

Примечания

  1. 1 2 3 4 Словарь по кибернетике / Под редакцией академика В. С. Михалевича. — 2-е. — Киев: Главная редакция Украинской Советской Энциклопедии имени М. П. Бажана, 1989. — 751 с. — (С48). — 50 000 экз. — ISBN 5-88500-008-5

См. также

  • Поисковая система
  • Поисковая оптимизация
  • Поисковый спам
  • Ранжирование

Литература

  • Капустин В. А. Основы поиска информации в Интернете. Методическое пособие. — СПб.: Институт «Открытое общество». Санкт-Петербургское отделение, 1998. — 13 с (см. стр. 5 — о пертинентности)
  • Пертинентность // Краткий словарь терминов и обозначений

Актуальность данных – ключевое значение в управлении эффективностью активов

Качество данных – сложная концепция; вы можете подойти к этому интуитивно: например, данные, которые являются «хорошими». Но это быстро становится сложнее, когда есть несколько пользователей одних и тех же данных, и еще сложнее, если каждый из этих пользователей хочет достичь разных целей с этими данными.

Именно с такой проблемой сталкиваются владельцы крупных активов в то время, когда доступность и анализ данных действительно начинают терять актуальность. Теперь, когда (I)IoT и Индустрия 4.0, а также масштабируемое хранилище данных и более доступные возможности анализа ведут к новой череде разработок в этой области, будет разумно ответить на этот вопрос: почему для нас важно собираем данные таким образом и что «мы» с ними делаем?

Качество данных

Качество данных выражается в аспектах точности , полноты , актуальности , время),  надежность правильность представления или обозначения, а также доступность .


Качество данных не является однозначным параметром. Это восприятие результата оценки качества по отношению к конкретной цели. Более того, он также должен включать среду или контекст, в котором эта цель должна быть достигнута. Требования к точности или полноте определенных данных измерений могут различаться для одного и того же анализа в разных средах.

Пример: ваш смартфон оснащен рядом датчиков: GPS, компасом (магнитометром), акселерометром, микрофоном, датчиком освещенности и, возможно, даже сканером отпечатков пальцев. Эти датчики позволяют разработчикам приложений измерять (для вас), насколько хорошо вы спите, где припаркована ваша машина или сколько шагов вы делаете каждый день. Вы также можете управлять дроном, играть в игры и т. д. Таким образом, у вас уже есть все эти датчики, но информация, в которую вы превращаете эти данные, зависит от вас и зависит от того, объединяете ли вы эти данные датчиков через приложение.

Когда мы связываем это с практикой управления активами, мы уже сталкиваемся с данными на очень ранней стадии жизненного цикла активов: на этапе изучения и стадии FEED (предварительное проектирование и проектирование) большой установки мы консультируем различных источников данных, выполнять множество расчетов, исследований и моделей. Этим занимается не только будущий владелец активов, но и поставщики, правительства, а иногда и соседние жители.

В этом множестве данных мы очень быстро сталкиваемся с качественными аспектами релевантности и доступности, потому что: Какой смысл в данных, которые никогда не смогут ответить на ваши текущие и будущие вопросы? Или что хорошего в данных, о которых вы знаете, но у вас нет доступа к ним?

Проблема с данными заключается в том, что вы часто (слишком) поздно обнаруживаете, что вам нужны данные сейчас. Следствием этого является то, что у вас больше нет времени, чтобы начать сбор данных, или что последующее обогащение данных является сложной и дорогостоящей задачей. Кроме того, релевантность данных может быть снижена с очень большой до нуля за миллисекунду; например, сигнал тревоги, который слишком поздно преобразуется в предупредительные действия. Просто подумайте о подушке безопасности, которую нужно надуть за миллисекунды при определенных обстоятельствах.

Стратегия данных

Качественные данные имеют решающее значение для достижения ваших бизнес-целей. Качество данных начинается с релевантности: какие данные необходимы? Каждой организации придется регулярно пересматривать, какие данные важны для достижения бизнес-целей. Эти цели время от времени меняются, а вместе с ними и актуальность данных, которые необходимо собирать, хранить и управлять ими.

Что такое релевантность данных?
Уровень согласованности между содержанием данных и интересующими пользователя областями.

Другими словами: степень, в которой ответы на данные дают представление о вопросе отдельного пользователя

Вот почему каждый владелец активов и различные заинтересованные стороны в каждой организации должны время от времени находить время, чтобы подумать о на какой вопрос они хотели бы получить ответ на основе тщательного анализа данных. Только когда желаемый (новый) анализ определен, можно разработать и внедрить стратегию данных, настроить сигналы тревоги, изменить информационные панели и т. д.

Внедрение этих новых информационных панелей также будет проще, если актуальность данных можно будет четко донести до всех: зачем нам нужно собирать эти данные и кто будет использовать эти данные? Это также позволяет вам установить связь между «ценностью» и данными и принять решение о том, как данные должны собираться, обрабатываться и храниться.

Давайте кратко рассмотрим вашу повседневную деятельность: вы отвечаете за управление активом. Ваш актив производит большое количество данных, и у вас много источников данных. Все началось с чертежей, спецификаций, руководств по эксплуатации, руководств по техническому обслуживанию, кодов материалов, спецификаций и соответствующих внутренних стандартов. Все ваши активы получили функциональное местоположение и номера TAG в CMMS вашей организацией. Данные об использовании и производстве собираются в операционном отделе, а затем составляются отчеты об инспекциях с фотографиями, текстом, выводами и рекомендациями.

Кто является владельцем данных, имеющих отношение к вашей организации, и кто уже использует эти данные? Эти вопросы становятся все более актуальными: устройства и машины будут продолжать производить больше данных (как в целом, так и в глубину), и все эти данные относятся к состоянию вашей установки и производительности вашей организации. Является ли владелец актива также владельцем этих данных? А что, если он или она не согласны с вами? Поэтому не пора ли назначить владельца для каждой части данных?

Право собственности на данные часто является уравновешивающим элементом, разделяемой ответственностью в сфере ИТ. Но лучше всего ИТ можно сравнить с книгопечатателем, который владеет техникой создания и хранения информации доступной, но не несет ответственности за содержание!

Отличный пример этого можно найти на веб-сайте голландской организации PWN, где показанная ниже матрица существенности (на голландском языке) формирует отправную точку отчета о деятельности организации.

Но если мы представим на мгновение, что организационные цели стабильны, мы сможем заметить, что активы вашей компании стареют. Из-за этого меняющегося состояния изменяется надежность ресурсов, и уже одно это также изменит потребность в информации в отношении надежности, производительности или оставшегося срока службы этого актива компании.

Сравните это с пациентом в критическом состоянии в больнице, лежащим на кровати, подключенным к кардиомонитору: измерение бьющегося сердца не имело значения, пока не произошел инцидент, и этот жизненно важный орган требовал круглосуточного наблюдения, пока проблемы не устранились. либо решать, либо держать под контролем.

Короче говоря: качество данных не является постоянной величиной. Это зависит от контекста и время от времени требует внимания широкой группы заинтересованных сторон в организации, чтобы сохранить актуальность в центре внимания.

5 Характеристики качества данных

Качество данных имеет решающее значение – оно оценивает, может ли информация служить своей цели в конкретном контексте (например, при анализе данных). Так как же определить качество данного набора информации? Существуют характеристики качества данных, о которых следует знать.

Качество данных характеризуется пятью характеристиками: точность, полнота, надежность, актуальность и своевременность — читайте дальше, чтобы узнать больше.

  • Точность
  • Полнота
  • Надежность
  • Актуальность
  • Своевременность
Характеристика 900 90 Как измеряется
Точность Верна ли информация во всех деталях?
Полнота Насколько полной является информация?
Надежность Противоречит ли информация другим проверенным ресурсам?
Актуальность Вам действительно нужна эта информация?
Своевременность Насколько актуальна информация? Можно ли его использовать для отчетов в режиме реального времени?

Точность

Как следует из названия, эта характеристика качества данных означает, что информация верна. Чтобы определить, являются ли данные точными или нет, спросите себя, отражает ли информация реальную ситуацию. Например, в сфере финансовых услуг действительно ли у клиента есть 1 миллион долларов на банковском счете?

Точность является важнейшей характеристикой качества данных, поскольку неточная информация может вызвать серьезные проблемы с серьезными последствиями. Мы будем использовать пример выше — если в банковском счете клиента есть ошибка, это может быть связано с тем, что кто-то получил к нему доступ без его ведома.

Полнота

«Полнота» относится к тому, насколько полной является информация. Рассматривая полноту данных, подумайте о том, доступны ли все необходимые вам данные; вам могут понадобиться имя и фамилия клиента, но средний инициал может быть необязательным.

Почему полнота важна как характеристика качества данных? Если информация неполная, она может оказаться непригодной для использования. Допустим, вы отправляете письмо. Вам нужна фамилия клиента, чтобы убедиться, что почта идет по правильному адресу — без нее данные будут неполными.

Надежность

В области характеристик качества данных надежность означает, что часть информации не противоречит другой части информации в другом источнике или системе. Мы будем использовать пример из области здравоохранения; если день рождения пациента 1, 19 января70 в одной системе, а 13 июня 1973 года в другой, информация недостоверна.

Надежность является важной характеристикой качества данных. Когда части информации противоречат сами себе, вы не можете доверять данным. Вы можете совершить ошибку, которая может стоить вашей фирме денег и нанести ущерб репутации.

Прочтите нашу электронную книгу

Посмотрите, как на практике выглядит оценка качества данных. Обзор четырех ключевых показателей, которые организации могут использовать для измерения качества данных

Актуальность

Когда вы смотрите на характеристики качества данных, в игру вступает релевантность, потому что должна быть веская причина, по которой вы собираете эту информацию в первую очередь. Вы должны подумать, действительно ли вам нужна эта информация, или вы собираете ее только ради нее.

Почему актуальность важна как характеристика качества данных? Если вы собираете нерелевантную информацию, вы тратите не только деньги, но и время. Ваши анализы не будут столь ценными.

Своевременность

Своевременность, как следует из названия, относится к тому, насколько актуальна информация. Если она была собрана в течение последнего часа, то она своевременна, если только не поступила новая информация, которая делает предыдущую информацию бесполезной.

Своевременность информации является важной характеристикой качества данных, поскольку несвоевременная информация может привести к принятию людьми неправильных решений. В свою очередь, это стоит организациям времени, денег и репутационного ущерба.

«Своевременность является важной характеристикой качества данных: устаревшая информация стоит компаниям времени и денег»

В современной деловой среде характеристики качества данных гарантируют, что вы получите максимальную отдачу от своей информации. Если ваша информация не соответствует этим стандартам, она не представляет ценности. Компания Precise предлагает решения для повышения качества данных, которые повышают точность, полноту, надежность, актуальность и своевременность ваших данных.

Узнайте больше в нашей электронной книге: 4 способа измерения качества данных

Часто задаваемые вопросы по 5 характеристикам качества данных

Чаще всего проблемы с качеством данных проявляются на передовой. Пользователи, которые проводят большую часть своего времени, работая с записями клиентов и отдельными транзакциями, обычно хорошо осведомлены о проблемах в наборах данных, которые они используют и обновляют каждый день. Те, кто полагаются на подробные инвентарные записи, также обычно знают, что большая часть их информации является неполной или неточной. Взаимодействие с конечными пользователями в вашей организации — хороший первый шаг к пониманию масштабов и характера потенциальных проблем с качеством данных в вашей организации. Однако низкое качество данных не всегда очевидно для пользователей, которые сосредоточены на общей картине. Например, руководители, изучающие клиентскую аналитику, могут не знать о дублирующихся записях, неполной или неточной информации, потому что они смотрят только на общую сводку. Проблемы с качеством данных легко теряются в деталях. Серьезные проблемы с качеством данных могут проявляться в виде аномалий в аналитике, побуждая руководителей задавать вопросы, требующие дальнейшего расследования. Чтобы по-настоящему понять, какие проблемы с качеством данных могут негативно повлиять на ваш бизнес, важно применять комплексный и систематический подход к проблеме. Это означает создание каталога данных и приоритетного списка активов данных.

Если данные не соответствуют назначению, это может привести к дорогостоящим ошибкам, потере производительности и неверным бизнес-решениям. Если данные о клиентах содержат повторяющиеся записи или неполную или неточную информацию, ваша компания может тратить ценные деньги на отправку избыточных рассылок или отправку посылок по неправильным адресам. Эти ошибки часто отнимают время в повседневной деловой деятельности, поскольку персонал, вводящий данные, должен бороться с путаницей, которую вызывают эти проблемы. Возможно, важнее всего то, что низкое качество данных приводит к неверным бизнес-решениям. Если ваша клиентская аналитика указывает на то, что бизнесу следует продолжить работу с новой идеей продукта, но позже оказывается, что эта аналитика была основана на неверных данных, ваша компания может получить неэффективный продукт, что приведет к потере доходов и снижению доли рынка. По мере того, как ИИ и машинное обучение приобретают все большее значение при принятии оперативных решений, возникают те же проблемы. Низкое качество данных приводит к тому, что AI/ML «обучается» на неточной или неполной информации, что подрывает предполагаемые результаты этих инвестиций.

Повышение качества данных — это непрерывный процесс, но он начинается с понимания того, какие данные у вас есть и как они используются. Каталогизация и профилирование данных предоставляют систематические методы и инструменты для тщательной инвентаризации ваших информационных активов, чтобы вы могли начать расставлять их по приоритетам. Затем определите показатели качества данных, которыми вы будете руководствоваться. Привлекайте заинтересованные стороны в своей организации, чтобы помочь им понять важность вашей инициативы по обеспечению качества данных, и нанимайте ответственных за качество данных в каждом отделе, чтобы убедиться, что вы полностью понимаете проблемы ваших конечных пользователей. В-третьих, работайте со своими заинтересованными сторонами, чтобы установить бизнес-правила, которые определяют, как должно выглядеть хорошее качество данных. Чтобы добиться качества данных в масштабе, вам нужны правильные инструменты и платформа для поддержки этого подхода, основанного на правилах. Наконец, отслеживайте ключевые показатели эффективности качества данных, чтобы убедиться, что ваши усилия приносят желаемые результаты. Имейте в виду, что качество данных — это постоянное стремление, а не разовый проект. Чтобы поддерживать хорошее качество данных в масштабе в долгосрочной перспективе, убедитесь, что у вас есть правильные системы и технологии.

Многие люди путают эти два термина. Качество данных относится к соответствию назначению, которое характеризуется точностью, полнотой, достоверностью, актуальностью и своевременностью информации. С другой стороны, целостность данных охватывает гораздо более широкую картину. Наряду с управлением данными качество данных составляет один из столпов целостности данных, но целостность также включает в себя интеграцию, обогащение и анализ местоположения. Интеграция означает устранение разобщенности, которая не позволяет пользователям вашей организации получить полное и целостное представление о важных реалиях, влияющих на ваш бизнес. Обогащение данных добавляет ценный контекст. Обогащая свои внутренние данные о клиентах тщательно подобранной демографической информацией из надежных сторонних источников, вы можете получить исчерпывающую информацию, основанную на всестороннем понимании ваших клиентов и потенциальных клиентов. Анализ местоположения добавляет богатый геопространственный контекст, открывая широкий спектр дополнительных точек данных, которые проливают свет на клиентов, конкурентов и физический мир, в котором работает ваш бизнес.

Хороший поставщик качества данных должен иметь проверенную репутацию, работая с компаниями всех размеров для обеспечения измеримых улучшений качества данных. Для достижения нужных результатов по мере масштабирования вашего бизнеса лучшее программное обеспечение для обеспечения качества данных должно включать комплексные инструменты каталогизации и профилирования данных и должно основываться на подходе к мониторингу и повышению качества, основанном на правилах. Он также должен включать рабочие процессы, чтобы гарантировать, что нужные заинтересованные стороны вовлечены в процесс повышения качества в нужное время. Ищите также интегрированное управление данными. Поставщики с более широким спектром инструментов обеспечения целостности данных могут предложить единый комплекс с предварительно интегрированными решениями, которые хорошо работают вместе.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *