Ключевые слова из текста: Генератор ключевых слов с текста — Инструменты

Содержание

Ключевые слова в тексте: как правильно вставить в статью

Ключевые слова в тексте часто сбивают с толку начинающих авторов. Особенно когда их количество зашкаливает. Эта статья появилась на свет благодаря одной из моих читательниц, которая озадачила меня предметным вопросом. На минуту представьте, что Вам нужно написать небольшую статью. Скажем, на 1 страницу А4 ( ~2 тыс. знаков). И все бы ничего, если бы не запросы. Их слишком много для такого ограниченного объема. В качестве эксперимента предположим, что у нас вот такое “локальное” семантическое ядро (перечень ключевых слов).

Ключевые слова, которые нужно вставить в текст.

При этом неважно, пишете Вы статью для себя (своего сайта, блога) или по техническому заданию оптимизатора (вебмастера). Проблема одна: вставить такое количество ключей в столь малый объем текста сложно. Тем более, чтобы все это выглядело естественно, органично, и не было переспама, за который поисковые системы наказывают (или, как говорят seo-специалисты, пессимизируют, накладывают фильтры).

Но это только на первый взгляд. Сейчас я покажу Вам пару хитростей и трюков, благодаря которым ключи можно не считать. Условно, конечно. Чем выше плотность — тем выше риск попадания под фильтры. Поэтому в данной статье мы будем рассматривать крайний, так сказать, академический, случай, который на практике в идеале разбавлять большим объемом информативного текста.

Важный момент: для простоты при демонстрации решения этой задачи я не буду учитывать и подробно описывать тематическое ядро и фактор латентно-семантического индексирования (LSI-фактор). Подробнее о них можно узнать из этого видеоурока.

Итого. Перед нами стоит задача: написать текст заданного объема и вставить ключевые слова из массивного технического задания оптимизатора. Давайте решим ее вместе и по шагам.

Шаг 1: определяем намерение (интент) пользователя и тип текста

Первым делом нужно посмотреть на ключи, определить целевую аудиторию (для кого пишем текст) и выбрать тип статьи. 99% авторов выбирают описательный материал в стиле а-ля “Ландшафтный дизайн для частного дома”. В худшем случае — просто делают рерайт публикаций из интернета. Но мы пойдем другим, более грамотным, путем.

Рассуждаем логически. У нас ключи связаны с визуальным направлением. Аудитория – владельцы частных домов с небольшими участками. С высокой долей вероятности интент пользователя, или причина, по которой человек вводит ключевые слова, – увидеть примеры ландшафтного дизайна, которые можно воссоздать у себя на участке 6-10 соток своими силами. Вот почему в качестве типа статьи я выберу формат ТОП-N с небольшой теоретической вставкой о стилях.

Шаг 2: группируем ключевые слова

Когда я определил целевую аудиторию и ее интент, я группирую ключевые слова, чтобы определиться с будущей структурой текста.

Группируем ключевые слова.

Всего у меня получилось четыре группы запросов:

  1. Основной запрос, который пойдет в заголовок статьи, лид и Title.
  2. Общие запросы, так сказать, технические ключевые слова, которые я равномерно вставлю в материал.
  3. Один предметный запрос, который я использую в подзаголовке, тем самым повысив его вес.
  4. Дополнительные ключевые слова, которые обязательно нужно визуализировать.

Как только группировка завершена, переходим к подготовке тезисов будущей статьи.

Шаг 3: составляем тезисы для структуры текста

Если правильно сгруппировать ключи, структура начинает вырисовываться сама собой. Ее только нужно немного оформить и «причесать». Я выбрал вот такой незамысловатый вариант.

  1. Заголовок, который включает основной запрос.
  2. Лид, проблемный абзац, в котором я озвучиваю проблему целевой аудитории и обещаю показать изящное решение.
  3. Теоретическая вставка о стилях ландшафтного дизайна, актуального для целевой аудитории.
  4. Примеры ландшафтного дизайна на базе тех ключевых слов, которые нам нужно визуализировать.
  • С розами
  • С хвойником
  • С миксбордерами
  • С галькой
  • С чем-нибудь еще, чтобы получилось 5 пунктов
  • Заключение и выводы, в которых я подвожу итоги и призываю к тому, чтобы человек поделился мнением в комментариях.
  • Шаг 4: собираем и анализируем необходимую информацию

    В статье, которую я хочу написать, мне нужно рассказать читателю о стилях ландшафтного дизайна и показать наглядные примеры. В стилях я ни в зуб ногой, и своих примеров у меня, естественно, нет. Я же копирайтер, а не ландшафтный дизайнер. Поэтому на этом этапе моя задача собрать и обработать недостающую информацию, которую затем можно использовать в тексте.

    Этот шаг потребует дополнительных телодвижений и усилий, но и окупится сторицей: я смогу создать мало того что уникальный материал, так его еще будет интересно читать.

    Шаг 5: Пишем текст

    Ключи есть. Информация есть. Структура есть. Написать статью теперь – дело техники. Более того, на базе этих исходных данных я могу создать огромное множество уникальных текстов. Словом, здесь мы просто идем по пунктам структуры, вставляя ключевые слова органично в тех местах, где они подходят. Если нет, то не вставляем пока вообще. Наша главная задача – получить хороший материал для читателя, т.к. от этого зависят поведенческие факторы. Для роботов адаптируем чуть позже, если будет нужно. В самом конце.

    Для большего удобства процесс написания текста и вставки ключевых слов я разобью на несколько этапов в соответствии со структурой. Грубо говоря, каждый функциональный блок или их связка — это этап. Используемые запросы из семантического ядра я буду отмечать красным цветом.

    Этап №1: заголовок и первый абзац

    Как я уже говорил, в заголовке я использую ключевое слово, но при этом добавляю еще изюминку материала — обещание закрыть интерес пользователя и дать то, что он ищет. Например, так.

    Заголовок и первый абзац с ключевыми фразами.

    Обратите внимание: в заголовке я использовал различные комбинации ключевых слов, но так, чтобы основной запрос имел прямое вхождение (т.е. использовался в точности так, как написано в техническом задании).

    Первый абзац (лид) я также начинаю с ключевого запроса, чтобы показать поисковым системам его значимость. Обратите также внимание, что в самой сложной формулировке технического задания от копирайтера могут требовать все запросы использовать в прямом вхождении. И здесь нужно сделать одну оговорку.

    ОЧЕНЬ, ОЧЕНЬ, ОЧЕНЬ ВАЖНЫЙ МОМЕНТ

    Я использую в этом примере все запросы в прямом вхождении и в рамках ограниченного объема исключительно в демонстративных целях решения сложной задачи. В реальных условиях, если Вы встречаете такие требования, — с Вас спроса не будет. Что требуют — то и получают. Но для своего сайта я настоятельно НЕ рекомендую использовать сплошные прямые формы ключевых слов в таком количестве, особенно если это касается коммерческих запросов а-ля «Купить бензопилу в Москве», потому что это прямой и быстрый путь попадания под фильтры поисковых систем. Это чтобы не было претензий, дескать, Шардаков рекомендует написать спамный текст. Совет: в любой ситуации старайтесь исходить из здравого смысла.

    И еще несколько полезных рекомендаций от моего друга, SEO-специалиста, Антона Шабана:

    1. Вписывать прямые вхождения в большом количестве сейчас опасно. Их стоит вписать только тогда, когда слова из фразы разделять будет не очень уместно.
    2. Во всех остальных случаях ничего не случится, если слова переставить местами, склонять их либо вообще использовать просто в одном пассаже (делать непрямые вхождения).
    3. Google больше любит прямые вхождения, ему такой текст может понравиться, но в Яндексе могут быть серьезные проблемы, особенно если вставляются коммерческие ключи (со словом «купить», «цена», «заказать» «в Топоним» и т.д.)
    4. Чтобы не переспамить, лучше посмотреть у конкурентов, какой объем вхождений оптимален для каждого конктретного запроса (подробнее см. здесь).

    Этап №2: информативная вставка о стилях

    Если Вы внимательно посмотрите на тезисы, то увидите, что следующий блок после лида — информативная вставка, где мы используем ключевые слова в подзаголовке. В последующем абзаце мы раскрываем суть этого подзаголовка. Например, вот так.

    Ключевые слова в подзаголовке и подписи под изображением.

    И здесь мы используем одну хитрость. Обратите внимание: ключей много, а текста мало. И связать по смыслу все запросы между собой практически невозможно. Поэтому мы где можем — вставляем ключевые слова в текст, а где не можем — используем в подписях под изображениями. Это идеальное место. Более того, изображения делают наш текст лучше, нагляднее и привлекательнее. А еще они классно работают на SEO за счет поиска по картинкам, alt-атрибута и улучшения поведенческих показателей.

    К слову, об изображениях. Если хотите все сделать правильно, то в поиске выбирайте изображения с лицензией на использование. Или присмотрите что-нибудь на фотостоках.

    Чуть ниже я использую еще один такой же блок, чтобы вставить ключ об участке 6 соток (см. полную версию текста в конце статьи).

    Этап №3: последовательные блоки перечисления

    Наконец, третий этап. В нем у нас идут пять примеров. Я неслучайно выбрал именно этот формат. На каждый пример я могу привести наглядное изображение, а под картинкой вставить ключевое слово. Выходит просто, быстро, практично и органично. Таких блоков у меня 5 штук.

    Блоки перечисления с ключевыми фразами.

    У подобных перечислений есть еще еще одна сильная черта: при грамотном подходе и форматировании они образуют хорошую логическую структуру текста с иерархическими подзаголовками. Узнайте об этом больше из статьи «Зачем копирайтеру знать HTML«.

    Этап №4: выводы и заключение

    После перечисления примеров я делаю заключительный абзац, в котором подвожу итог и призываю аудиторию высказаться в комментариях. Посмотрите, как выглядит текст целиком. Чуть ниже — фрагмент на изображении, а вот ссылка на исходник в Google Docs. Только, чур, не копировать текст, хорошо?

    Пример текста со вставленными ключевыми словами.

    Еще раз предупреждаю. Этот текст — демонстрация того как вписывать ключи в ограниченном объеме. Не копируйте и не используйте этот текст, потому что с высокой долей вероятности в том виде, в котором он есть сейчас, материал попадет под фильтр.

    Итог всего этого безобразия

    Давайте подведем итоги. Общий объем текста при решении задачи составил 1985 символов, без учета заголовка. Как раз вписались в требования (до 2000 знаков).

    Ключевые слова (а их у нас 11 штук) использовали все, причем в прямом вхождении. Вписали их равномерно и, можно сказать, решили задачу в самой сложной формулировке. Если их можно разбавлять промежуточными словами или использовать словоформы, то задача заметно упрощается.

    Если бы по готовности текста у нас остались неиспользованные ключевые фразы, то я бы использовал дополнительный текстовый блок, изображение или любой другой разделитель, чтобы нужные ключи были на своих местах.

    Резонный вопрос: а если бы не было столько изображений, как бы я выкрутился? Очень просто. Использовал вставки (например, выноски), таблицы либо ассоциативную визуализацию. О чем бы Вы ни рассказывали в тексте, всегда есть что показать.

    Попробуйте использовать эти приемы при решении собственных задач, и, я твердо убежден, что у Вас все получится! А если возникнут вопросы — задайте их в комментариях.

    Искренне Ваш, Даниил Шардаков.

    P.S. Понравилась статья? Поделитесь ей в соцсетях, нажав на одну из кнопок ниже.

    Что такое ключевые слова и зачем они нужны

    Ключевые слова, или как их иногда называют «ключевики», это те слова, которые встречаются в тексте чаще, чем остальные. Они отражают содержание контента, описывают общую тему публикуемых материалов, например статьи, сайта или блога.

    Ключевые слова являются базовым элементом SEO оптимизации и способствуют определить поисковым роботам, как классифицировать ваш ресурс. Откуда же они берутся и как выделить из них правильные?

    Когда пользователь ищет в сети необходимую ему информацию, то он заносит в поисковую строку браузера определенный запрос. Например, вам необходимо купить в Интернете какую-нибудь программу и вы прописываете в поисковой строке фразу «купить программу». Этот запрос как раз и является ключевой фразой. Таких запросов может быть нескончаемое количество. Именно за такие ключевые слова и фразы между ресурсами ведется не шуточная борьба.

    Иногда, чтобы вывести свой ресурс в ТОП, оптимизаторы используют контент конкурента с «ключевиками» с одной лишь целью, использовать их более грамотно. Такие «специалисты» полностью забывают о читателе, а ведь контент ресурса предназначен в первую очередь именно для читателя. Поэтому качество преподнесенной информации должно стоять на первом месте.

    Однако игнорировать полностью ключевые слова нельзя, так как именно они способствуют продвижению ресурса.

    Ключевые слова принимают участие в формировании семантического ядра сайта и помогают осуществлять оптимизацию ресурса. Также они используются копирайтерами для написания SEO текстов.

    Итак, перейдем к самому главному, как подобрать ключевые слова для сайта? Рассмотрим основные моменты, которые необходимо знать каждому веб-мастеру.

    1. Статистика ключевых слов или фраз осуществляется специальными сервисами, существующими в каждой поисковой системе, такой как, например, Google, Яндекс или Рамблер.

    2. Поисковые запросы классифицируются по их частоте, и бывают: высокочастотными, среднечастотными и низкочастотными.

    Тут также все довольно просто, чем чаще поисковый запрос повторяется в сети, тем более весомая его значимость для оптимизации и продвижения ресурса.

    Ресурс можно продвигать по любым запросам, как по высокочастотным, так и по низкочастотным. Разница лишь в целевой посещаемости сайта.

    3. Плотность ключевых слов в тексте. Оптимальная плотность для каждого текста, по мнению опытных оптимизаторов, должна составлять около пяти процентов. Также не помешает, если вы выделите ключевые слова жирным шрифтом, кашу, как говорится, маслом не испортишь.

    Автор: Москалец Андрей • Дата создания: 2013-09-26

    Что такое ключевые слова в тексте статьи, как найти ключи? Семён Ядрён

    Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, выявить его тематику. В вебе используется главным образом для поиска. Набор ключевых слов близок к аннотации, плану и конспекту, которые тоже представляют документ с меньшей детализацией. Источник: wikipedia

    Что отражают keywords?

    Ключевые слова на страницах сайта отражают потребность пользователя, которую он формирует через поисковый запрос к Яндексу и Google, а поисковики согласно своим алгоритмам анализируют тексты на сайтах и выдают результаты по падению их релевантности. 

    Меняются алгоритмы поиска, добавляются новые факторы ранжирования (хостовые, поведенческие, ссылки, социальные сигналы), но текст на странице по прежнему остается одним из самых важных факторов для поиска, по которому он может понять о чем документ.

    Разновидности ключей по виду вхождения

    1. Точное вхождение ключевых слов — это использование ключей в тексте в точной форме, без знаков препинания. Пример: «заказать сбор семантического ядра».
    2. Неточное вхождение — изменение ключа, использование словоформ: «СОБРАТЬ семантическОЕ ядрО НА ЗАКАЗ».
    3. Разбавленное вхождение — добавление 2-3 слов в главный ключ, оптимально использовать для разбавления хвост запросов: «собрать качественное семантическое ядро по низкой цене».

    Как найти ключевые слова в тексте?

    Программисты Семён Ядрён разработали отличный инструмент для поиска и анализа ключей как в своем  тексте так и текстах конкурентов  – Семанайзер (для использования необходимо зарегистрироваться в  нашем сервисе), прочитать о всех возможностях и преимуществах данного инструмента можно здесь.
    * мы предоставляем бесплатно 5 проверок в день.

    Где используются?

    • в тайтле документа (title)
    • в заголовках (h2-h6)
    • url страницы (ЧПУ)
    • в анкоре внешних и внутренних ссылок
    • в тексте страницы

    Видео

    Ключевые слова в SEO оптимизированной статье

    По многочисленным просьбам аудитории, вновь поднимаем любимую тему: ключевые слова!

    Начнем, пожалуй, с азов и разберем на примере, откуда взять, те самые, заветные: ключевые слова подобрать яндекс гугл поисковые запросы!

    Самый доступный способ подбора ключевых слов

    Все очень просто! Правильно подобрать ключевые слова нам поможет Яндекс. Для начала необходимо зарегистрировать аккаунт. Затем под своим логином заходим в wordstat.yandex.ru и приступаем:

    Подбор ключевых слов для SEO текста через Wordstat

    В верхнее поле вводим запрос, к которому хотим подобрать ключевые слова. Wordstat подберет массив запросов, которые люди вводили в поисковую строку Яндекса за последние 3 месяца.  Нужно учитывать, что чаще всего вместе с адекватными запросами, которые можно использовать при поисковой оптимизации, люди ищут массу всего интересного, но совсем не относящегося к заданной теме. Поэтому следует внимательно отминусовать весь ненужный мусор. Делать это можно двумя способами:

    1. Прямо в Вордстате (тут, правда, есть опасность нарваться на CAPTCHA).
    2. Скопировать все в Exel и почистить через фильтр.

    В первом случае, минус слова вводим прямо в строку запроса со знаком минус перед словом (без пробела между знаком и словом), но оставляя пробел между словами, как на картинке ниже:

    Отбираем минус слова при подборе seo keywords

    Таким образом, мы соберем статистику наиболее актуальных ключевых слов по заданному запросу. Как их правильно использовать рассмотрим ниже.

    Как не переборщить с ключевыми словами при SEO оптимизации текста?

    Поиск ключевых слов производится от наиболее популярного запроса к наименее популярному.

    Соответственно, для создания текста, удоволетворяющего высокочастотному запросу, отбираем топ 20 запросов из первой страницы выдачи Вордстата. Если задача стоит охватить и низкочастотку, то в ход пойдут все слова до 5 показов включительно.

    Как использовать ключевые слова в статье

    Как правильно заполнять мета тег keywords, можно почитать тут. Сегодня же мы поговорим о том, как использовать ключевые слова непосредственно в тексте.

    Разберем мы это прямо на примере статьи, которую вы сейчас читаете. Для того, чтобы текст получился seo оптимизированным, он должен содержать прямое вхождение запроса, который мы вытащили из Wordstat.

    Например, так:

    Использование ключевых слов в сео тексте

    Размещаем высокочастотные ключевые запросы в начале текста

    Разбивать фразу прямого вхождения запроса можно, но желательно оставить ее в одном предложении.

    Простые советы по использованию ключевых слов на странице:

    • При создании seo оптимизированной статьи для сайта использовать наиболее релевантные запросы лучше в начале текста;
    • Не перегружайте текст ключевыми словами, они должны вписываться в контекст органично;
    • Не желательно навязчивое использование одной и той же фразы несколько раз, это может быть воспринято ПС как обман и сведут ваши усилия к нулю.

    Постарайтесь максимально ответить на запрос, который используете!

    Помните, что обнаружив вашу статью в выдаче, человек хочет получить ответ на терзающий его вопрос, дайте ему эту информацию! Решите его проблему и получите лояльного читателя и потенциального клиента!

    Творческих успехов!

    Получайте бесплатные уроки и фишки по интернет-маркетингу

    Ключевые слова в тексте: как органично вписать запросы

    Никто не выкладывает текстовый контент на сайт только для того, чтобы он там был. Его задача – привлекать потенциальных клиентов из поисковых систем и мотивировать их к покупке. Поэтому одно из условий эффективного SEO продвижения – правильная оптимизация текста ключевыми словами. 

    Для начинающих копирайтеров такая работа может показаться довольно сложной. Особенно если в техническом задании указан большой объём ключевых слов при ограниченном количестве знаков в тексте. Но научиться этому можно и нужно, иначе серьёзные дорогостоящие заказы вам останутся недоступны. 

    В этой статье мы поделимся опытом наших копирайтеров и расскажем, как правильно написать оптимизированный текст.

    Содержание:

    Что такое ключевые слова в копирайтинге

    Ключевые слова – это слова и словосочетания, которые пользователи вводят в Google или Яндекс, когда ищут необходимую им информацию. Сразу после отправки запроса поисковые системы анализируют его и подбирают наиболее подходящие страницы. Чтобы повысить шансы попадания сайта в ТОП выдачи, эти же ключевики используются при написании текста.

    Но для этого недостаточно их как попало вписать. Поисковики оценивают не только наличие запросов, но и правильное вхождение, релевантность теме текста и его пользу для людей.

    Если пользователи не дочитывают статью до конца, или же процент ключевых слов в ней выше нормы, система посчитает ее бесполезным спамом и может даже наложить санкции на сайт. То есть первоочередная задача копирайтера – вписать запросы в текст максимально гармонично и в нужном количестве. 

    Основные принципы оптимизации текстов ключевыми словами 

    Рассмотрим 4 главных правила работы с SEO-текстами:

    1. В первую очередь все статьи пишутся для людей. Поэтому их нужно делать интересными и легко читаемыми. Избегайте слишком длинных предложений и сложных терминов. Используйте списки, подзаголовки и другие приёмы оформления текста.
       
    2. Не разбавляйте статью «водой». Дописывать лишние предложения только для того, чтобы вставить в них побольше ключевых слов, – не лучшая идея. Увеличивать объем текста можно исключительно за счёт полезной информации, примеров и важных по теме фактов.
       
    3. Запросы должны быть расставлены равномерно. Самые высокочастотные обязательно нужно вписать в первом и последнем абзаце. Короткие ключевики можно использовать в заголовках и подзаголовках, длинные – вставлять в предложения по всей статье. Нельзя размещать их рядом, чтобы избежать повторов и тавтологий. Например, не стоит писать так

      Также не нужно вставлять одинаковые ключевые слова в стоящих рядом предложениях.
       

    4. Чтобы люди не спотыкались о неудачные словесные конструкции, используйте ключевые слова только в естественном виде. Например, трудное для восприятия словосочетание, противоречащее правилам русского языка: «Телевизор купить Киев» следует заменить на более удобочитаемое: «Купить телевизор в Киеве». 

      Некоторые копирайтеры прибегают к хитростям, и пытаются замаскировать «кривые» ключевики таким образом:

      Так вставлять запросы в текст нельзя – словосочетание всё равно режет глаз.

    Как писать текст по ключевым словам – на заметку начинающим копирайтерам

    Определение ключевых слов и основные правила их размещения в тексте мы описали выше. Но есть несколько вопросов, которые чаще всего волнуют новичков. И в завершение мы хотим дать на них развёрнутые ответы:

    • Нужно ли в написанном тексте выделять ключевые слова? 
      Нет, это будет выглядеть неестественно и некрасиво. Курсивом выделяются в основном цитаты, а жирным шрифтом – наиболее важные по смыслу фразы. 

      В процессе написания текста вы можете выделять ключи цветом, чтобы контролировать их использование, и облегчить проверку. А при публикации на сайте – удалить такую маркировку.
       

    • Нужно ли использовать в статье все ключевые слова из ТЗ? 
      Если все они подходят по смыслу, и каждый из них может быть использован для поиска данной статьи, то да. Предварительно посоветовавшись с заказчиком, постарайтесь их сгруппировать. Например, набор коротких ключевиков без потери смысла можно легко трансформировать в одну фразу. 


       

    • Как вставить ключевые слова в текст наиболее гармонично? 
      Идеальной с точки зрения SEO-продвижения считается статья, в которой запросы практически незаметны пользователям при прочтении. Чтобы написать такой текст, используйте все 3 вида вхождения запросов: 
       
      • Точное (прямое). Если ключевые слова имеют естественный вид, можно вставлять их в текст, не меняя. Например, словосочетание «Купить в Украине солнечную электростанцию» можно написать в таком же виде, а вот «очки мужские солнцезащитные Москва» уже требует изменений, и в прямом вхождении будет смотреться нелепо. 
         
      • Неточное. Неудобочитаемые конструкции можно изменить, склоняя слова и меняя их местами. Например, «Доставку заказать Украина» трансформировать в «Заказать доставку по Украине».
         
      • Разбавленное. Между основными ключевыми словами можно вставить дополнительные, подходящие по смыслу. Например, вместо «Приобрести кухонный гарнитур», написать «Приобрести стильный кухонный гарнитур».

    Надеемся, эти советы помогут вам разобраться, как правильно вставлять ключевые слова в статьи. 

    P.S. На курсе «Профессия SEO-копирайтер» вы научитесь писать не только оптимизированные под запросы тексты, но и другие типы контента. С первых занятий вы сможете на практике реализовывать полученные знания и работать с реальными заказчиками. Регистрируйтесь по ссылке, и с промо-кодом «Text-03» вас будет ждать дополнительный бонус. 

    Создать ключевые слова

    Вы можете занести в словарь любое количество ключевых слов. При этом словарь будет различать прописные/строчные буквы ключевых слов. У каждого ключевого слова есть исходный язык. Ключевое слово должно содержать исходный текст на языке перевода, так как этот текст используется в качестве исходного для перевода на все остальные языки.

    Условия:

    • Вы создали словарь или у вас есть доступ к словарю.
    • Вы открыли словарь.
    1. Сервисные программы > Перевод > Обработать словарь
    2. Выберите вкладку Обработать слова.
    3. Выберите в поле Исходный язык исходный язык для актуального ключевого слова.

      Пример:

      Если установлено de_DE, исходным языком для всех остальных языков станет немецкий.

    4. Чтобы ключевое слово, щелкните по кнопке (Создать).

      EPLAN отобразит индикатор вставки в поле Ключевое слово в строке для текста перевода исходного языка.

    5. Сначала введите в поле Ключевое слово текст перевода на исходном языке.
    6. Затем введите в поле Ключевое слово тексты перевода на другие .
    7. При необходимости введите в поле Комментарий краткий .
    8. Щелкните по кнопке (Сохранить).

      Ключевое слово будет добавлено в левую часть списка ключевых слов.

    См. также

    Открыть словарь

    Создать словарь

    Не переводить слово на всех страницах проекта

    Ввести предложение по разделению

    Отдельные слова, предложения, заполнители в ключевых словах

    Зарезервированные специальные символы в ключевых словах

    Проверить текст на вхождение ключевых слов в режиме онлайн

    Частично материал был взят из статьи Сергея Кокшарова про классификацию вхождений ключевых слов, но немного видоизменен.

    • Добавляйте ссылку на инструмент в свое ТЗ, чтобы авторы сразу понимали, как их будут проверять.
    • Отправьте ссылку на полученный результат, чтобы человек сам увидел каких ключевых фраз еще нет в тексте.
    • Высказывайте свои пожелания, чтобы сделать инструмент еще удобнее конкретно для ваших задач: [email protected]

    Шаблоны ключевых слов

    Существует много сервисов для сбора семантики. Они предоставляют результаты в разных форматах. Чтобы их было удобно использовать мы создали разные шаблоны обработки ключевых слов. В зависимости от выбранного шаблона алгоритм будет по-разному искать ключевые фразы.

    Шаблон: ключевая фраза. Пример:

    • купить автомобиль
    • купить автомобиль
    • купить трактор

    Инструмент будет искать каждую ключевую фразу минимум один раз, даже если они одинаковые.

    Шаблон: ключевая фраза (3). Пример:

    • купить автомобиль (2)
    • купить трактор

    Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза и “купить трактор” минимум один раз.

    Шаблон: ключевая фраза [3]. Пример:

    • купить автомобиль [2]
    • купить трактор

    Отличается от предыдущего только квадратными скобками. Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза и “купить трактор” минимум один раз.

    Шаблон: ключевая фраза - 2*. Пример:

    • купить автомобиль - 2
    • купить мопед - 2+
    • купить трактор - 3 раза
    • купить самолет

    Звездочка (*) означает, что при наличии тире и цифры “- 2” весь дальнейший текст будет игнорироваться.

    Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза, “купить мопед” минимум два раза, “купить трактор” минимум три раза, “купить самолет” минимум один раз.

    Шаблон: ключевая фраза,2*. Пример:

    • купить автомобиль,2
    • купить трактор,3 раза
    • купить самолет

    Звездочка (*) означает, что при наличии запятой и цифры “,2” весь дальнейший текст будет игнорироваться.

    Инструмент будет искать ключевую фразу “купить автомобиль” минимум два раза, “купить трактор” минимум три раза, “купить самолет” минимум один раз.

    Если вам необходим индивидуальный шаблон для обработки ключевых фраз, напишите нам на [email protected]

    Точное вхождение

    Ключевая фраза встречается в тексте в неизменном виде. Регистр и последовательность слов важны.

    Пример для фразы “брачное агентство”:

    Готового рецепта счастья не существует, но один из способов найти свое – обратиться в брачное агентство.

    Чистое вхождение

    То же самое, что и точное. Регистр не важен. Последовательность слов важна.

    Пример для фразы “nokia купить”:

    У официальных представителей Nokia купить телефон надежнее, чем у других продавцов.

    Прямое вхождение

    Почти то же самое, что и чистое, за исключением того, что между ключевыми фразами могут встречаться некоторые знаки препинания в рамках одного предложения.

    Пример для фразы “nokia купить”:

    Телефоны Nokia, купить которые можно у нас, пользуются большим спросом.

    Разбавленное вхождение

    Фраза может быть разбавлена дополнительными словами и знаками препинания в рамках одного предложения. Регистр не важен. Последовательность слов важна.

    Примеры для фразы “пакеты оптом”:

    Приобретайте наши пакеты полиэтиленовые оптом и в розницу.

    Каждый месяц мы покупаем пакеты для мусора, оптом брать не хотим.

    Морфологическое вхождение

    Одно или несколько слов из ключевой фразы изменены по форме с помощью склонения или спряжения. Регистр не важен. Последовательность слов важна.

    Примеры для фразы “доставка грузов”:

    Как доставить груз в пункт назначения как можно быстрее?

    Срочная доставка груза позволяет сохранить качество скоропортящейся продукции.

    Морфологическое разбавленное вхождение

    Говорит само за себя. Означает изменение формы слов (склонение, спряжение) с возможным разбавлением дополнительными словами и знаками препинания в рамках одного предложения.

    Пример для фразы “доставка грузов”:

    Курьерская служба обеспечит доставку документов и выдачу грузов.

    Обратное вхождение

    Это прямое вхождение только с проверкой последовательности слов в ключевой фразе от последнего слова к первому в рамках одного предложения. Регистр не важен.

    Пример для фразы “смартфон купить”:

    Купить смартфон проще, чем вы думаете.

    Обратное разбавленное вхождение

    Обратное вхождение с возможным разбавлением дополнительными словами и знаками препинания в рамках одного предложения. Регистр не важен.

    Пример для фразы “смартфон купить”:

    Купить новый смартфон проще, чем вы думаете.

    Сложное вхождение

    Любое вхождение в любой последовательности. Регистр не важен. Последовательность слов не важна.

    Пример для фразы “российская премьер лига чемпион”:

    Единственный их шанс – это возможная ничья, стать чемпионом российской премьер-лиги команде вряд ли удастся.

    Руководство по поиску ключевых слов в тексте

    Извлечение ключевых слов - это автоматизированный процесс извлечения наиболее релевантных слов и выражений из текста.

    Но как вы можете использовать его для использования существующих бизнес-данных?

    Прочтите это руководство от начала до конца, добавьте его в закладки на будущее или переходите к темам, которые привлекают ваше внимание:


    Начните извлекать ключевые слова из текста


    1. Что такое извлечение ключевых слов?
    2. Как работает извлечение ключевых слов?
    3. Примеры использования и приложения для извлечения ключевых слов
    4. Инструменты, ресурсы и учебные пособия для извлечения ключевых слов

    Давайте начнем!

    Извлечение ключевого слова (также известное как определение ключевого слова или анализ ключевого слова ) - это метод анализа текста, который автоматически извлекает из текста наиболее часто используемые и наиболее важные слова и выражения.Это помогает обобщить содержание текстов и распознать основные обсуждаемые темы.

    Извлечение ключевых слов использует искусственный интеллект (ИИ) машинного обучения с обработкой естественного языка (НЛП), чтобы разбить человеческий язык так, чтобы его могли понимать и анализировать машины. Он используется для поиска ключевых слов в любом тексте: в обычных документах и ​​бизнес-отчетах, комментариях в социальных сетях, онлайн-форумах и обзорах, новостях и многом другом.

    Представьте, что вы хотите проанализировать тысячи онлайн-обзоров о вашем продукте.Извлечение ключевых слов помогает вам просеять весь набор данных и получить слова, которые лучше всего описывают каждый отзыв, за считанные секунды. Таким образом, вы можете легко и автоматически видеть, что ваши клиенты упоминают чаще всего, экономя часы вашей команды на часах ручной обработки.

    Давайте посмотрим на пример:

    Этот инструмент для извлечения ключевых слов легко обнаруживает наиболее упоминаемые атрибуты ( мобильная версия ; веб-версия ) в отзывах клиентов.

    Вы можете использовать средство извлечения ключевых слов для извлечения отдельных слов ( ключевых слов, ) или групп из двух или более слов, составляющих фразу ( ключевых фраз, ).

    Попробуйте использовать средство извлечения ключевых слов, приведенное ниже, используя свой собственный текст, чтобы выделить отдельные слова ( ключевых слов, ) или группы из двух или более слов, составляющих фразу ( ключевых фраз, ).

    Тест с вашим собственным текстом

    Илон Маск поделился фотографией скафандра, разработанного SpaceX. Это второе изображение нового дизайна и первое, на котором изображен скафандр в полный рост. Выделить текст

    Вы заметите, что ключевые слова уже присутствуют в исходном тексте.Это основное различие между извлечением ключевых слов и назначением ключевых слов, которое заключается в выборе ключевых слов из списка контролируемого словаря или классификации текста с использованием ключевых слов из заранее определенного списка.

    Облака слов или облака тегов - еще один пример извлечения ключевых слов. Они показывают визуализацию наиболее часто используемых слов текста в виде кластеров. Ниже представлено облако слов, сделанное из онлайн-обзоров Black:

    Чем больше слов или фраз появляется в тексте, тем больше они будут в визуализации облака слов.Попробуйте этот бесплатный генератор облака слов прямо сейчас, чтобы узнать, как извлечь из текста важные ключевые слова.

    Другие типы извлечения ключевых слов включают распознавание именованных сущностей, которое включает извлечение сущностей (имен, местоположения, адресов электронной почты) из текста. Например, этот онлайн-инструмент для извлечения имен автоматически извлекает имена из текста.

    Изучите другие типы извлечения ключевых слов, когда вы зарегистрируетесь в MonkeyLearn бесплатно.

    Почему так важно извлечение ключевых слов?

    С извлечением ключевых слов вы можете найти самые важные слова и фразы в массивных наборах данных за считанные секунды.Эти слова и фразы могут дать ценную информацию о темах, о которых говорят ваши клиенты.

    Учитывая, что более 80% данных, которые мы генерируем каждый день, являются неструктурированными - это означает, что они не организованы заранее определенным образом, что чрезвычайно затрудняет анализ и обработку - предприятиям необходимо автоматическое извлечение ключевых слов, чтобы помочь им обрабатывать и анализировать данные о клиентах в более эффективным способом.

    Какой процент отзывов клиентов говорит что-то, связанное с ценой? Сколько из них говорят о UX? Эти идеи могут помочь вам сформировать бизнес-стратегию на основе данных, определив, что клиенты считают важными, аспекты вашего продукта, которые необходимо улучшить, и что клиенты говорят о ваших конкурентах, среди прочего.

    В академическом мире извлечение ключевых слов может быть ключом к поиску релевантных ключевых слов в массивных наборах данных (например, новых статьях, статьях или журналах) без необходимости фактически читать весь контент.

    Независимо от области вашей деятельности, инструменты извлечения ключевых слов являются ключом, который поможет вам автоматически индексировать данные, резюмировать текст или создавать облака тегов с наиболее репрезентативными ключевыми словами. Некоторые из основных преимуществ извлечения ключевых слов включают:

    Масштабируемость

    Автоматическое извлечение ключевых слов позволяет анализировать столько данных, сколько вы хотите.Да, вы можете читать тексты и определять ключевые термины вручную, но это займет очень много времени. Автоматизация этой задачи дает вам возможность сосредоточиться на других частях вашей работы.

    Согласованные критерии

    Извлечение ключевых слов действует на основе правил и предопределенных параметров. Вам не придется сталкиваться с несоответствиями, которые часто встречаются при ручном анализе текста.

    Анализ в реальном времени

    Вы можете извлекать ключевые слова из сообщений в социальных сетях, отзывов клиентов, опросов или заявок в службу поддержки в режиме реального времени, а также получать информацию о том, что говорят о вашем продукте, когда они происходят, и следить за ними с течением времени .

    Извлечение ключевых слов упрощает задачу поиска релевантных слов и фраз в неструктурированном тексте. Сюда входят электронные письма, сообщения в социальных сетях, чаты и любые другие типы данных, которые не организованы каким-либо заранее определенным образом.

    Извлечение ключевых слов может автоматизировать рабочие процессы, такие как пометка входящих ответов на опросы или ответы на срочные запросы клиентов, что позволяет сэкономить огромное количество времени. Он также предоставляет действенные, основанные на данных аналитические данные, которые помогают принимать более обоснованные бизнес-решения.Но самое лучшее в моделях извлечения ключевых слов - это то, что их легко настроить и реализовать.

    Существуют различные методы, которые можно использовать для автоматического извлечения ключевых слов. От простых статистических подходов, которые обнаруживают ключевые слова путем подсчета частоты слов, до более продвинутых подходов к машинному обучению, которые создают еще более сложные модели, изучая предыдущие примеры.

    В этом разделе мы рассмотрим различные подходы к извлечению ключевых слов, уделяя особое внимание моделям на основе машинного обучения.

    Простые статистические подходы

    Использование статистики - один из простейших методов определения основных ключевых слов и ключевых фраз в тексте.

    Существуют различные типы статистических подходов, в том числе частота слов, словосочетания и совместная встречаемость, TF-IDF (сокращенно частота - обратная частота документа) и RAKE (быстрое автоматическое извлечение ключевых слов).

    Эти подходы не требуют обучающих данных для извлечения наиболее важных ключевых слов из текста.Однако, поскольку они полагаются только на статистику, они могут упускать из виду релевантные слова или фразы, которые упоминаются один раз, но все же должны считаться релевантными. Давайте подробно рассмотрим некоторые из этих подходов:

    Частота слов

    Частота слов состоит из перечисления слов и фраз, которые чаще всего повторяются в тексте. Это может быть полезно для множества целей, от выявления повторяющихся терминов в наборе обзоров продуктов до выяснения наиболее распространенных проблем при взаимодействии со службой поддержки клиентов.

    Тем не менее, частотные подходы рассматривают документы как простой «мешок слов», оставляя в стороне важные аспекты, связанные со значением, структурой, грамматикой и последовательностью слов. Синонимы, например, не могут быть обнаружены с помощью этого метода извлечения ключевых слов, что приводит к упущению очень ценной информации.

    Словосочетания и совпадения

    Также известные как статистика N-грамм, словосочетания и совпадения слов помогают понять семантическую структуру текста и считать отдельные слова одним.

    Словосочетания - это слова, которые часто идут вместе. Наиболее распространенными типами словосочетаний являются биграммы (два термина, которые появляются рядом, например, «обслуживание клиентов», «видеозвонки» или «уведомление по электронной почте») и триграммы (группа из трех слов, например, «простой в использовании»). или «каналы социальных сетей»).

    Совместимость, с другой стороны, относится к словам, которые имеют тенденцию встречаться в одном и том же корпусе. Они не обязательно должны быть смежными, но у них есть смысловая близость.

    TF-IDF

    TF-IDF означает термин "частота термина - обратная частота документа" , формула, которая измеряет, насколько важно слово для документа в наборе документов.

    Этот показатель вычисляет, сколько раз слово встречается в тексте (частота термина ) и сравнивает его с частотой обратного преобразования документа (насколько редко или часто встречается это слово во всем наборе данных).

    Умножение этих двух величин дает оценку TF-IDF для слова в документе. Чем выше оценка, тем более актуально слово для документа.

    Алгоритмы TD-IDF находят несколько применений в машинном обучении. Фактически, поисковые системы используют варианты алгоритмов TF-IDF для ранжирования статей на основе их релевантности определенному поисковому запросу.

    Когда дело доходит до извлечения ключевых слов, этот показатель может помочь вам определить наиболее релевантные слова в документе (те, которые имеют более высокие оценки) и рассматривать их как ключевых слов . Это может быть особенно полезно для таких задач, как маркировка заявок в службу поддержки или анализ отзывов клиентов.

    Во многих из этих случаев слова, которые чаще встречаются в группе документов, не обязательно являются наиболее релевантными. Точно так же слово, которое появляется в одном тексте, но не встречается в остальных документах, может быть очень важно для понимания содержания этого текста.

    Допустим, вы анализируете набор данных обзоров Slack:

    Такие слова, как , это , , если , , , , это или , то, что , вероятно, будут одними из самых частых. Тогда будет много связанных с контентом слов с высокой частотой, например сообщение , команда , сообщение или продукт . Однако эти слова не дают подробных сведений о содержании каждого отзыва.

    Благодаря алгоритму TF-IDF вы можете взвесить важность каждого термина и извлечь ключевые слова, которые лучше всего резюмируют каждый отзыв.В случае Slack они могут извлекать более конкретные слова, такие как многоканальный , пользовательский интерфейс или мобильное приложение .

    RAKE

    Быстрое автоматическое извлечение ключевых слов (RAKE) - это хорошо известный метод извлечения ключевых слов, который использует список игнорируемых слов и разделителей фраз для обнаружения наиболее релевантных слов или фраз в фрагменте текста.

    В качестве примера возьмем следующий текст:

    Извлечение ключевого слова не так уж и сложно.Есть много библиотек, которые могут помочь вам с извлечением ключевых слов. Одно из них - быстрое автоматическое извлечение ключевых слов.

    Первое, что делает этот метод, - разбивает текст на список слов и удаляет стоп-слова из этого списка. Это возвращает список так называемых слов содержимого .

    Предположим, что наш список стоп-слов и разделителей фраз выглядит следующим образом:

    стоп-слов = [ это , не , , , там , это , может , вы , с , из , те , после , все , один ] разделители = [., , ]

    Тогда наш список из 8 слов содержания будет выглядеть так:

    content_words = [ ключевое слово , извлечение , сложное , много , библиотеки , справка , быстрый , автоматический ]

    Затем алгоритм разбивает текст на разделители фраз и стоп-слова для создания возможных выражений. Итак, возможные ключевые фразы будут следующими:

    Извлечение ключевых слов - это не то, что сложно, в конце концов.Существует многих библиотек , которые могут помочь вам с извлечением ключевых слов . Быстрое автоматическое извлечение ключевых слов - одно из них.

    После разделения текста алгоритм создает матрицу совпадений слов. Каждая строка показывает, сколько раз данное слово содержимого встречается вместе с каждым другим словом содержимого во фразах-кандидатах. В приведенном выше примере матрица выглядит так:

    После того, как матрица построена, словам присваивается оценка.Эта оценка может быть вычислена как степень слова в матрице (т. Е. Сумма количества совпадений этого слова с любым другим содержательным словом в тексте), как частота слов (т. Е. Число раз слово появляется в тексте), или как градусов слова, деленное на его частоту .

    Если бы мы вычислили оценку степени, разделенную на оценку частоты для каждого слова в нашем примере, они бы выглядели так:

    Этим выражениям также присваивается оценка, которая вычисляется как сумма индивидуальных оценок. слов.Если бы мы подсчитали количество фраз, выделенных полужирным шрифтом выше, они бы выглядели так:

    Если два ключевых слова или ключевые фразы появляются вместе в одном порядке более двух раз, новая ключевая фраза создается независимо от того, сколько стоп-слов содержит ключевая фраза. в исходном тексте. Оценка этой ключевой фразы вычисляется так же, как и оценка отдельной ключевой фразы.

    Ключевое слово или ключевая фраза выбираются, если их оценка относится к наивысшим T-баллам, где T - количество ключевых слов, которые вы хотите извлечь.Согласно исходной статье, T по умолчанию составляет одну треть слов содержания в документе.

    В приведенном выше примере метод возвратил бы 3 основных ключевых слова, которые, согласно определенному нами баллу, были бы , быстрое автоматическое извлечение ключевых слов (13,33), извлечение ключевых слов , (5,33) и . много библиотек (4.0).

    Лингвистические подходы

    Методы извлечения ключевых слов часто используют лингвистическую информацию о текстах и ​​словах, которые они содержат.Иногда морфологическая или синтаксическая информация (например, часть речи слов или отношения между словами в грамматическом представлении предложений зависимостей) используется для определения того, какие ключевые слова следует извлечь. В некоторых случаях определенные PoS получают более высокие оценки (например, существительные и словосочетания), поскольку они обычно содержат больше информации о текстах, чем другие категории.

    Некоторые другие методы используют маркеры дискурса (т.грамм. оттенки значения данного слова). Эта статья может стать хорошим введением в то, как эту информацию можно использовать в методах извлечения ключевых слов.

    Но это еще не вся информация, которую можно использовать для извлечения ключевых слов. Также можно использовать совпадение слов, например, слова, которые встречаются вместе с тематическими словами (как показано в этой статье).

    Большинство систем, использующих какую-либо лингвистическую информацию, превосходят те, которые этого не делают. Мы настоятельно рекомендуем вам попробовать некоторые из них при извлечении ключевых слов из ваших текстов.

    Графические подходы

    Самым популярным графическим подходом является модель TextRank, которую мы представим позже в этом посте. Граф можно определить как набор вершин со связями между ними.

    Текст можно представить в виде графика по-разному. Слова можно рассматривать как вершины, которые соединены направленным ребром (то есть односторонней связью между вершинами). Эти ребра могут быть помечены, например, как отношение, которое слова имеют в дереве зависимостей.В других представлениях документов могут использоваться неориентированные края, например, при представлении совпадений слов.

    Если бы слова были представлены числами, неориентированный граф выглядел бы так:

    Ориентированный граф выглядел бы немного иначе:

    Основная идея выделения ключевых слов на основе графа всегда одна и та же: измерение важности вершины основан на мерах, которые учитывают некоторую информацию, полученную из структуры графа, для извлечения наиболее важных вершин.

    После того, как граф построен, пора определить, как измерить важность вершин. Существует множество различных вариантов, большинство из которых рассматриваются в этой статье. Некоторые методы выбирают для измерения так называемого « градусов » вершины.

    Степень вершины равна количеству ребер или соединений, которые попадают в вершину (также известной как входная степень), плюс количество ребер, начинающихся в вершине (также известное как исходной степени ), деленное на максимальная степень (равная количеству вершин в графе минус 1).Это формула для вычисления степени вершины:

    D v = (D v in + D v out ) / (N - 1)

    Другие методы измерения количество непосредственных вершин в данной вершине (которая известна как размер окрестности ).

    Независимо от того, какая мера выбрана, для каждой вершины будет счет, который определит, следует ли ее извлекать как ключевое слово или нет.

    В качестве примера возьмем следующий текст:

    Автоматически 1 на основе графика 2 ключевое слово 3 извлечение 4 красиво 5 просто 6 .Документ 7 представлен 8 как график 9 , и оценка 10 дается 11 каждой из вершин 12 в графе 13 . В зависимости от 14 от результата 15 вершины 16 , в качестве ключевого слова 18 может быть выбрано 17 .

    Если бы мы должны были измерить размер окрестности для приведенного выше примера в графе зависимостей, который включает только слова содержимого (пронумерованные в тексте от 1 до 18), извлеченная ключевая фраза была бы , автоматическое извлечение ключевых слов на основе графа , поскольку размер соседства заглавного существительного , извлечение (что равно 3/17) является самым высоким.

    Подходы к машинному обучению

    Системы на основе машинного обучения используются для многих задач анализа текста, включая извлечение ключевых слов. Но что такое машинное обучение? Это подраздел искусственного интеллекта, который создает алгоритмы, способные учиться на примерах и делать собственные прогнозы.

    Для обработки неструктурированных текстовых данных системам машинного обучения необходимо разбить их на то, что они могут понять. Но как это делают модели машинного обучения? Преобразуя данные в векторы (набор чисел с закодированными данными), которые содержат различные функции, представляющие текст.

    Существуют различные алгоритмы и методы машинного обучения, которые можно использовать для извлечения наиболее релевантных ключевых слов из текста, в том числе вспомогательные векторные машины (SVM) и глубокое обучение.

    Ниже приведен один из наиболее распространенных и эффективных подходов к извлечению ключевых слов с помощью машинного обучения:

    Условные случайные поля

    Условные случайные поля (CRF) - это статистический подход, который изучает закономерности путем взвешивания различных признаков в последовательности слов, представленных в текст.Этот подход учитывает контекст и отношения между различными переменными, чтобы делать свои прогнозы.

    Использование условных случайных полей позволяет создавать сложные и богатые шаблоны. Еще одним преимуществом этого подхода является его способность к обобщениям: после обучения модели на примерах из определенной области она может легко применить полученные знания к другим областям.

    С другой стороны, чтобы использовать условные случайные поля, вам необходимо иметь сильные вычислительные навыки для расчета веса всех характеристик для всех последовательностей слов.

    Когда дело доходит до оценки эффективности экстракторов ключевых слов, вы можете использовать некоторые из стандартных показателей в машинном обучении: точность , точность , отзыв и оценка F1 . Однако эти показатели не отражают частичные совпадения; они рассматривают только идеальное соответствие между извлеченным сегментом и правильным прогнозом для этого тега.

    К счастью, есть и другие метрики, способные фиксировать частичные совпадения. Примером этого является ROUGE.

    ROUGE

    ROUGE (вспомогательное исследование, ориентированное на отзыв для оценки сущности) - это семейство показателей, которые сравнивают различные параметры (например, количество перекрывающихся слов) между исходным текстом и извлеченными словами. Параметры включают длину и количество последовательностей и могут быть определены вручную.

    Гибридные подходы

    Чтобы получить лучшие результаты при извлечении релевантных ключевых слов из текста, вы можете комбинировать два или более подходов, которые мы уже упоминали.

    Теперь, когда мы узнали о некоторых доступных вариантах, пришло время узнать обо всех интересных вещах, которые можно сделать с помощью извлечения ключевых слов в самых разных сферах бизнеса, от поддержки клиентов до управления социальными сетями.

    Примеры использования и приложения для извлечения ключевых слов

    Ежедневно пользователи Интернета создают 2,5 квинтиллиона байтов данных. Комментарии в социальных сетях, обзоры продуктов, электронные письма, сообщения в блогах, поисковые запросы, чаты и т. Д. В нашем распоряжении есть всевозможные неструктурированные текстовые данные.Вопрос в том, как нам разобраться в хаосе, чтобы найти то, что имеет отношение к делу?

    Извлечение ключевых слов может помочь вам получить наиболее важные ключевые слова или ключевые фразы из заданного текста без необходимости фактически читать одну строку.

    Независимо от того, являетесь ли вы менеджером по продукту, пытающимся проанализировать груду обзоров продуктов, менеджером по обслуживанию клиентов, анализирующим взаимодействия с клиентами, или исследователем, которому нужно просмотреть сотни онлайн-статей по определенной теме, вы можете использовать извлечение ключевых слов для легко понять, о чем идет речь.

    Благодаря извлечению ключевых слов команды могут быть более эффективными и в полной мере использовать возможности данных. Вы можете попрощаться с ручными и повторяющимися задачами (сэкономив бесчисленное количество человеческих часов) и получить доступ к интересной информации, которая поможет вам преобразовать неструктурированные данные в ценные знания.

    Хотите знать, что можно анализировать при извлечении ключевых слов? Вот несколько распространенных вариантов использования и приложений:

    1. Мониторинг социальных сетей
    2. Мониторинг бренда
    3. Обслуживание клиентов
    4. Отзывы клиентов
    5. Бизнес-аналитика
    6. Оптимизация поисковых систем (SEO)
    7. Аналитика продуктов
    8. Управление знаниями

    Мониторинг социальных сетей

    Люди используют социальные сети, чтобы выражать свои мысли, чувства и мнения на самые разные темы, от спортивного мероприятия до политического кандидата или от последнего шоу на Netflix до последнего обновления программного обеспечения для iPhone.

    Для компаний отслеживание разговоров в социальных сетях с использованием извлечения ключевых слов дает уникальную возможность понять свою аудиторию, улучшить свои продукты или принять быстрые меры для предотвращения кризиса с общественностью.

    Извлечение ключевых слов может дать конкретные примеры того, что люди говорят о вашем бренде в социальных сетях. Подбирайте ключевые слова, чтобы следить за тенденциями, проводить исследования рынка, отслеживать популярные темы и следить за своими конкурентами.

    Во время выборов в США в 2016 году мы проанализировали миллионы твитов, в которых упоминались Дональд Трамп и Хиллари Клинтон, и использовали извлечение ключевых слов, чтобы выделить наиболее релевантные слова и фразы, появившиеся в положительных и отрицательных упоминаниях.

    Мониторинг бренда

    Мы живем в эпоху репутации. Потребители читают в среднем 10 онлайн-обзоров, прежде чем доверяют местному бизнесу, что доказывает, насколько важно для компаний отслеживать разговоры вокруг своего бренда в онлайн-мире. Интернет-репутация выходит за рамки социальных сетей и включает упоминания и мнения, выраженные в блогах, форумах, сайтах обзоров и новостных агентствах.

    Когда вам приходится иметь дело с большими объемами данных, такими как бесконечные комментарии на сайтах обзоров, таких как Capterra или G2 Crowd, важно, чтобы компании нашли способ автоматизировать процесс анализа данных.

    Извлечение ключевых слов может быть мощным союзником в этой задаче, позволяя легко определять наиболее важные слова и фразы, упоминаемые пользователями, и получать интересную информацию и ключи для улучшения продукта.

    Например, вы можете просмотреть самые негативные отзывы о вашем продукте и извлечь ключевые слова, наиболее часто связанные с ними. Если часто встречаются такие выражения, как медленный ответ или долгое время ожидания , это может указывать на необходимость сократить время отклика службы поддержки клиентов.

    Вы также можете объединить извлечение ключевых слов с анализом тональности, чтобы получить более ясную перспективу не только того, о чем людей говорят, но также того, как они говорят об этих вещах.

    Например, вы можете обнаружить, что в ваших обзорах продуктов часто упоминается обслуживание клиентов . Анализ настроений поможет вам понять, как люди упоминают эту конкретную тему. Ваши клиенты имеют в виду плохое обслуживание клиентов? Или, наоборот, выражают свое удовлетворение вашей дружной и отзывчивой командой?

    Недавно мы объединили различные методы анализа текста для анализа набора обзоров Slack на Capterra.Мы использовали анализ настроений, чтобы классифицировать мнения как положительных , отрицательных или нейтральных . Затем определение тем позволило нам классифицировать каждое из этих мнений по различным темам или аспектам, например, Служба поддержки клиентов , Цена , Простота использования и т. Д.

    Наконец, мы использовали извлечение ключевых слов, чтобы получить представление о том, что о чем говорят люди, когда они высказывают отрицательное мнение о аспекте Производительность-Качество-Надежность ? ».Это наиболее репрезентативные ключевые слова, которые мы получили с помощью экстрактора ключевых слов MonkeyLearn:

    Эти ключевые слова позволяют нам идентифицировать конкретные негативные аспекты, связанные с Производительность-Качество-Надежность , которые могут нуждаться в улучшении, например, время загрузки, или уведомлений. .

    Служба поддержки клиентов

    Превосходное обслуживание клиентов может дать вашему бренду конкурентное преимущество. В конце концов, 64% покупателей при покупке чего-либо считают качество обслуживания клиентов более важным, чем цена.

    При взаимодействии с компанией клиенты ожидают получить нужную информацию в нужное время, поэтому быстрое время отклика может быть одним из ваших самых ценных активов. Но как вы можете быть более эффективными и продуктивными, если каждое утро у вас полно тикетов, которые забивают вашу службу поддержки?

    Когда дело доходит до рутинных задач, связанных с маркировкой входящих заявок в службу поддержки или извлечением соответствующих данных, машинное обучение может оказать огромную помощь.

    Благодаря извлечению ключевых слов группы поддержки клиентов могут автоматизировать процесс маркировки тикетов, экономя десятки часов, которые они могут использовать, чтобы сосредоточиться на реальном решении проблем.В конце концов, это ключ к удовлетворению запросов клиентов.

    Как это работает? Модель извлечения ключевых слов просто сканирует наиболее релевантные слова в теме и теле входящих заявок в службу поддержки и назначает самые популярные совпадения как теги.

    Благодаря автоматической маркировке входящих заявок группы поддержки клиентов могут легко и быстро определить те, которые им нужно обработать. Кроме того, они могут сократить время ответа, поскольку больше не будут отвечать за теги.

    Извлечение ключевых слов также можно использовать для получения релевантной информации из разговоров со службой поддержки клиентов.Клиенты обычно жалуются на цену? Смущают ли они ваш пользовательский интерфейс? Извлечение ключевых слов позволяет получить обзор тем, о которых говорят ваши клиенты.

    Вот пример того, как мы использовали машинное обучение для анализа взаимодействия службы поддержки клиентов через Twitter с четырьмя крупными операторами связи. Во-первых, мы классифицировали твиты для каждой компании на основе их настроений ( положительных , отрицательных , нейтральных ). Затем мы извлекли наиболее релевантные ключевые слова, чтобы понять, о чем говорится в этих твитах.Это привело к интересным выводам:

    • Что касается отрицательных комментариев , все компании имели жалобы на «плохое обслуживание клиентов» , «плохой прием» и «высокие цены» . Однако некоторые ключевые слова были уникальными для каждой компании. Твиты, адресованные T-Mobile, жаловались на качество их «услуги LTE» , в то время как твиты с упоминанием Verizon выражали недовольство их «безлимитным планом» .

    • При анализе положительных твитов ключевые слова Verizon относились к «лучшая сеть» , «качественное обслуживание клиентов» , «спасибо» и т. Д. Наконец, мы были удивлены, обнаружив, что ключевые слова T-Mobile часто были имена представителей службы поддержки клиентов, демонстрирующие высокий уровень взаимодействия с их пользователями.

    Отзывы клиентов

    Онлайн-опросы - это мощный инструмент, позволяющий понять, что ваши клиенты думают о вашем продукте, найти возможности для улучшения и узнать, какие аспекты они ценят или критикуют больше всего.Если вы правильно обработаете результаты опроса, вы будете вооружены твердой информацией, чтобы принимать бизнес-решения на основе данных.

    Да, вы можете анализировать ответы старомодным способом - читая каждый из них и вручную отмечая результаты. Однако давайте посмотрим правде в глаза, ручная маркировка отзывов - это трудоемкая и крайне неэффективная задача, которая часто приводит к человеческим ошибкам; плюс невозможно масштабировать.

    Извлечение ключевых слов - отличный способ легко определить наиболее репрезентативные слова и фразы в ответах клиентов, не просматривая каждое из них вручную.

    Вы можете использовать извлечение ключевых слов для анализа ответов NPS и других форм опросов клиентов:

    Анализ ответов NPS

    Net Promoter Score (NPS) - один из самых популярных способов сбора отзывов клиентов и измерения их лояльности. Клиентов просят оценить продукт или услугу от 0 до 10 на основании вопроса: «Какова вероятность, что вы порекомендуете X другу или коллеге?» . Это поможет вам разделить клиентов на промоутеров (оценка 9-10), пассивных (оценка 7-8) и недоброжелателей (оценка 0-6).

    Вторая часть опросов NPS - это открытый вопрос, в котором клиентам задается вопрос, почему они выбрали именно такую ​​оценку. Ответ на этот дополнительный вопрос обычно содержит самую важную информацию. Здесь мы найдем наиболее интересные и действенные идеи, потому что в нем указаны причины каждой оценки, например, «у вас потрясающий продукт, но невозможность экспортировать данные - убийца!» Эта информация поможет вам понять, что вам нужно улучшить.

    Машинное обучение можно использовать для анализа отзывов клиентов различными способами по настроениям, извлечению ключевых слов, определению темы или их комбинации.Вот пример того, как Retently использовали MonkeyLearn для анализа своих ответов NPS. С помощью текстового классификатора они пометили каждый ответ по разным категориям, например Onboarding , Product UI , Ease of Use и Pricing .

    Другой пример, однако, показывает, как Promoter.io использовал извлечение ключевых слов для определения релевантных терминов из их ответов NPS. Разница между классификацией текста и извлечением ключевых слов заключается в том, что вместо классификации текста по заранее определенным тегам извлекаются ключевые слова в тексте.Вот основные ключевые слова, которые они извлекли из своих ответов NPS:

    Как видите, более 80% клиентов, помеченных как промоутеры, упомянули ключевые слова, связанные с обслуживанием клиентов: service , quality , great service , обслуживание клиентов , отличное обслуживание и т. Д. Это ясно показывает, что клиенты больше всего любят в продукте, и основные причины их высокой оценки. Напротив, недоброжелатели часто жалуются на цену телефона и цену , что может означать, что их опросы NPS неправильно отображаются на телефонах и что цена на их продукт выше, чем ожидают клиенты.

    Анализируйте опросы клиентов

    Существует множество различных инструментов, которые вы можете использовать для получения обратной связи от ваших клиентов, от опросов по электронной почте до онлайн-форм.

    SurveyMonkey, например, является одним из самых популярных инструментов для создания профессиональных опросов. Вы можете использовать его, чтобы получать информацию от своих клиентов, добавляя открытые вопросы и анализируя ответы SurveyMonkey с помощью ИИ. В этом случае извлечение ключевых слов может быть полезно, чтобы легко понять, что ваши клиенты имеют в виду в своих отрицательных или положительных ответах.Например, такие слова, как ошибка , сохранение данных, и изменение , , могут дать вам представление о некоторых технических проблемах, которые необходимо решить.

    Еще один инструмент, который поможет вам глубже понять, что думают ваши клиенты, о Typeform. Хотя вы можете использовать различные методы анализа текста для анализа ответов Typeform, извлечение ключевых слов может быть особенно полезным для определения наиболее репрезентативных слов и фраз. Группа слов, таких как стоимость лицензии , дорого, и модель подписки , , может пролить свет, например, на проблемы ценообразования.

    Бизнес-аналитика

    Извлечение ключевых слов также может быть полезно для целей бизнес-аналитики (BI), например, для исследования рынка и анализа конкуренции.

    Вы можете использовать информацию из всех источников, от обзоров продуктов до социальных сетей, и следить за обсуждениями на интересующие темы. Это может быть особенно интересно, если вы готовитесь к запуску нового продукта или маркетинговой кампании.

    Извлечение ключевых слов также может помочь вам понять общественное мнение по поводу актуальной проблемы и его эволюцию с течением времени.Примером этого может быть извлечение релевантных ключевых слов из комментариев к видео на YouTube, посвященных изменению климата и проблемам окружающей среды, с целью изучения мнений заинтересованных сторон по этой теме. В этом случае ключевые слова обеспечивают контекст того, как проблема сформулирована и воспринимается. В сочетании с анализом настроений можно понять чувства, стоящие за каждым мнением.

    Наконец, вы можете использовать извлечение ключевых слов и другие методы анализа текста, чтобы сравнить ваши обзоры продуктов с отзывами о ваших конкурентах.Это позволяет вам получить информацию, которая поможет вам понять болевые точки вашего целевого рынка и принять решения на основе данных для улучшения вашего продукта или услуги.

    Посмотрите, как мы проанализировали множество отзывов об отелях на TripAdvisor и использовали извлечение ключевых слов, чтобы найти сходства и различия в словах, используемых для описания отелей в разных городах.

    Например, это были 10 основных ключевых слов, взятых из отзывов об отелях Нью-Йорка, с плохим отношением к чистоте :

    • Комната
    • Ванная комната
    • Ковер
    • Полотенца
    • Постельные клопы
    • Кровать
    • Отель
    • Душ
    • Общая ванная комната
    • Стены

    При сравнении с ключевыми словами из отелей в других городах мы обнаружили, что жалоба около общих туалетов появилось только в Нью-Йорке.Ключевое слово таракан , с другой стороны, было уникальным для отзывов об отелях Бангкока.

    Инструменты визуализации бизнес-аналитики, такие как MonkeyLearn Studio, позволяют собрать все ваши инструменты анализа данных и результаты на единой яркой панели инструментов:

    Выше представлен аспектно-ориентированный анализ мнений клиентов о Zoom в MonkeyLearn Studio. Визуализация показывает отдельные отзывы, сгруппированные по аспектам (удобство использования, поддержка, надежность и т. Д.), затем анализируются настроения, чтобы показать, какие аспекты считаются положительными, а какие - отрицательными. Облако слов внизу показывает самые важные ключевые слова, извлеченные из обзоров. Вы можете попробовать общедоступную панель управления MonkeyLearn Studio, чтобы увидеть все, что она может предложить.

    Поисковая оптимизация (SEO)

    Одна из основных задач поисковой оптимизации (SEO) - это определение стратегических ключевых слов, на которые вы должны ориентироваться на своем веб-сайте, чтобы создавать контент.

    Существует множество программных инструментов для группировки ключевых слов, доступных для исследования ключевых слов (Moz, SEMrush, Google Trends, Ahrefs и многие другие).Однако вы также можете воспользоваться извлечением ключевых слов, чтобы автоматически отсеивать контент веб-сайта и извлекать наиболее часто используемые ключевые слова. Например, если вы определите наиболее релевантные ключевые слова, используемые вашими конкурентами, вы сможете найти отличные возможности для написания контента. А когда вы используете методы семантической группировки ключевых слов и кластеризации ключевых слов, чтобы объединить ключевые слова и фразы, которые часто используются вместе, вы получите преимущество перед конкурентами.

    Усовершенствования в NLP, такие как BERT от Google (представления двунаправленного кодировщика от Transformers), помогают лучше понять взаимосвязь слов в поисковых запросах, чтобы пользователи Google Search могли создавать запросы в более разговорной форме.Панду Наяк из Google объясняет, что BERT может обрабатывать, как слова соотносятся со всеми другими словами в предложении, а не просто обрабатывать их по отдельности. Это позволяет машинному обучению лучше понимать контекст и может быть полезно в SEO, чтобы помочь написать текст, который будет более естественным, чем упаковка ключевых слов или использование шаблонных вопросов / ответов в стиле SEO.

    Обзоры продуктов и другие типы пользовательского контента могут быть отличными источниками для поиска новых ключевых слов. В этом исследовании, например, анализируются обзоры продуктов ведущих логистических компаний (таких как DHL или FedEx) и выполняется извлечение ключевых слов для определения стратегических ключевых слов, которые можно использовать для SEO-оптимизации логистической компании.

    Аналитика продуктов

    Для менеджеров по продуктам данные являются основным фактором поддержки каждого их решения. Обратная связь с клиентами во всех ее формах - от взаимодействия со службой поддержки до публикаций в социальных сетях и ответов на опросы - является ключом к успешной стратегии продукта, основанной на данных.

    Но как лучше всего обрабатывать большие объемы данных обратной связи с клиентами и извлекать из них то, что имеет отношение к делу? Извлечение ключевых слов можно использовать для автоматического поиска новых возможностей для улучшения, обнаруживая часто используемые термины или фразы, упоминаемые вашими клиентами.

    Допустим, вы анализируете взаимодействие клиентов с вашим программным обеспечением и видите резкий рост числа людей, спрашивающих, как использовать функцию X вашего продукта. Это, вероятно, означает, что функция не ясна и вам следует поработать над улучшением документации, пользовательского интерфейса или пользовательского интерфейса для этой функции.

    Управление знаниями

    В настоящее время в Интернете доступно больше информации, чем когда-либо прежде, и тем не менее 80% этих данных неструктурированы, то есть дезорганизованы, их трудно искать и трудно обрабатывать.Некоторые области, такие как научные исследования и здравоохранение, сталкиваются с огромными объемами неструктурированной информации и, следовательно, пустой тратой своего огромного потенциала.

    Извлечение ключевых слов позволяет всем отраслям открывать новые знания, упрощая поиск, управление и доступ к релевантному контенту.

    Практикующим врачам и клиницистам, например, необходимо проводить исследования, чтобы найти соответствующие доказательства в поддержку своих медицинских решений. Несмотря на то, что доступно так много данных, трудно найти наиболее актуальные в море медицинской литературы.Автоматическое извлечение наиболее важных ключевых слов и фраз из текста может оказаться большим подспорьем, сэкономив драгоценное время и ресурсы.

    Это исследование об использовании извлечения ключевых слов из набора биомедицинских данных, в котором также исследуются возможности обобщения имеющихся данных для поиска наиболее адекватных ответов на сложные вопросы.

    Инструменты, ресурсы и руководства для извлечения ключевых слов

    Если вам интересно приступить к извлечению ключевых слов, но вы не знаете, с чего начать, здесь вы найдете все необходимые ресурсы для начала.

    Во-первых, мы порекомендуем несколько книг и научных статей для более глубокого объяснения методов и алгоритмов извлечения ключевых слов. Затем мы поделимся некоторыми API для извлечения ключевых слов, включая библиотеки с открытым исходным кодом и API SaaS.

    Наконец, мы предоставим несколько руководств по извлечению ключевых слов, которые помогут вам начать работу. В некоторых руководствах показано, как запускать извлечение ключевых слов с помощью библиотек с открытым исходным кодом с помощью Python и R. Однако, если вы предпочитаете экономить время и ресурсы, вам может быть полезно попробовать готовое решение.

    MonkeyLearn, например, имеет предварительно обученные модели извлечения ключевых слов, в которые вы можете сразу же погрузиться. Или узнайте, как создавать свои собственные индивидуальные модели для обнаружения ключевых слов в текстах. Мы проведем вас через этот процесс и поможем создать модель извлечения ключевых слов, адаптированную к вашим потребностям.

    Книги и статьи

    Если вы ищете более глубокий подход к извлечению ключевых слов, чтение некоторой существующей литературы по этой теме звучит как следующий логический шаг. Все мы знаем, что поиск подходящих книг и статей может быть непосильным.Чтобы помочь вам с этой задачей, мы перечислили некоторые из наиболее интересных материалов, связанных с извлечением ключевых слов. Закладка, чтобы прочитать позже или начать прямо сейчас:

    • Извлечение ключевых слов: обзор методов и подходов (Слободан Белига, 2004). В этой статье рассматриваются существующие исследования по извлечению ключевых слов и объясняются различные методы решения этой задачи. Это также относится к основанным на графах методам извлечения ключевых слов.

    • Простое неконтролируемое извлечение ключевой фразы с использованием вложения предложений (Камил Беннани-Смайрес, Клаудиу Мусат и др., 2018).В этой статье описывается новый неконтролируемый метод извлечения ключевой фразы, который использует встраивание предложений и может использоваться для анализа больших наборов данных в режиме реального времени.

    • Графический подход к автоматическому извлечению ключевой фразы (Ян Инга, Тан Цинпин и др., 2017). С акцентом на графические методы извлечения ключевых слов, в этой статье исследуется новый подход к извлечению ключевых фраз, относящихся к основным темам в тексте.

    • Автоматическое извлечение ключевых фраз на основе НЛП и статистических методов (Мартин Досталь и Карел Джезек, 2010).В этой статье представлен подход к извлечению ключевых слов с использованием статистических методов и оценки шаблонов на основе Wordnet. Этот метод может быть полезен, если автор не предоставил достаточно ключевых слов (или когда ключевых слов нет вообще).

    • Анализ текста: приложения и теория (Майкл Берри, 2010). Это отличное введение в различные алгоритмы и методы интеллектуального анализа текста. Алгоритм RAKE, используемый для извлечения ключевых слов, описан в этой книге.

    API извлечения ключевых слов

    Итак, вы готовы сделать первые шаги в извлечении и анализе ключевых слов.Трудный (и более сложный) путь - разработать всю систему с нуля. Однако есть гораздо более удобное решение: реализовать алгоритмы извлечения ключевых слов с помощью существующих сторонних API.

    Споры о выборе и покупке, когда дело доходит до создания пользовательских моделей извлечения ключевых слов и анализа текста: используйте библиотеки с открытым исходным кодом для создания модели или подключения к API SaaS.

    Использование библиотек с открытым исходным кодом может быть отличным, если у вас есть опыт работы с данными и кодированием

    , но они могут быть дорогостоящими и занимать много времени.С другой стороны, инструменты SaaS могут быть реализованы сразу же, требуют очень мало кода, стоят намного дешевле и полностью масштабируемы.

    API-интерфейсы SaaS

    Преимущества использования API-интерфейсов SaaS для извлечения ключевых слов:

    • Нет настройки. Использование библиотеки с открытым исходным кодом часто включает настройку всего программного интерфейса. Независимо от того, используете ли вы Python или R, вы должны быть знакомы с языками программирования и устанавливать определенные инструменты и зависимости. С другой стороны, API-интерфейсы SaaS делают работу намного быстрее и проще.
    • Без кода. SaaS API - это готовые решения: вам не нужно беспокоиться о таких вещах, как производительность или архитектура. Единственные строки кода, которые вам нужно будет написать, - это те, которые будут вызывать API и получать результаты (обычно 10 строк или меньше).
    • Простая интеграция. Вы можете легко интегрировать свой SaaS API с такими инструментами, как Zendesk или Google Sheets, что сделает ваше решение для извлечения ключевых слов еще более мощным.

    Вот некоторые из самых популярных API SaaS для инструментов извлечения ключевых слов:

    • MonkeyLearn
    • IBM Watson
    • Amazon Comprehend
    • Aylien
    • Cortical.io

    MonkeyLearn

    MonkeyLearn предлагает набор инструментов извлечения ключевых слов SaaS, которые можно вызвать с помощью всего нескольких строк кода и которые легко настроить в соответствии с языком и критериями вашего бизнеса. Попробуйте эти предварительно обученные экстракторы прямо сейчас, чтобы увидеть, как они работают:

    API MonkeyLearn чрезвычайно прост для распознавания ключевых слов Python (и многого другого), и, что лучше всего, MonkeyLearn Studio позволяет объединить все эти анализы вместе и автоматически визуализируйте их для получения поразительных результатов - и все это выполняется в едином удобном интерфейсе.

    IBM Watson

    IBM Watson был создан для работы в различных отраслях с Watson Studio в качестве универсального инструмента для построения моделей извлечения ключевых слов (и других) на любой облачной платформе. Watson Speech-to-Text - это отраслевой стандарт для преобразования записанных и живых голосовых разговоров в письменный текст.

    Amazon Comprehend

    Amazon Comprehend предлагает предварительно обученные API извлечения ключевых фраз, которые легко интегрируются в существующие приложения. Поскольку Comprehend внедряется и контролируется Amazon, нет необходимости создавать и обучать модели.

    AYLIEN

    AYLIEN предлагает три API на семи основных языках программирования: API новостей, API анализа текста и Платформа анализа текста (TAP) с доступом к новостному контенту в реальном времени и возможностью создавать собственные экстракторы ключевых слов для любых нужд.

    Cortical.io

    Cortical.io - отличный вариант с низким кодом для Java, Python и Javascript. Cortical.io использует «семантические отпечатки пальцев» для создания представления отдельных слов и общего значения текста для оптимальной семантической группировки ключевых слов.

    Библиотеки с открытым исходным кодом

    Если вы умеете программировать, вы можете использовать библиотеки с открытым исходным кодом для реализации модели извлечения ключевых слов с нуля. Существует несколько библиотек для Python и R, которые могут пригодиться для обнаружения ключевых слов, которые поддерживаются активным сообществом специалистов по науке о данных.

    Python

    Python - наиболее часто используемый язык программирования в науке о данных, известный своим легко понятным синтаксисом. Широкое распространение Python в сообществе специалистов по науке о данных было вызвано растущим списком библиотек с открытым исходным кодом для математических операций и статистического анализа.У Python есть процветающее сообщество и огромное количество библиотек с открытым исходным кодом для задач анализа текста, включая NLTK, scikit-learn и spaCy.

    RAKE

    RAKE - старая, но широко используемая библиотека Python для извлечения ключевых слов. Эта библиотека реализует алгоритм быстрого автоматического извлечения ключевых слов (RAKE), как описано в этой статье. Следуйте за реализацией Python.

    NLTK

    Набор инструментов для естественного языка, также известный как NLTK, является популярной библиотекой с открытым исходным кодом для Python для анализа данных человеческого языка.NLTK предоставляет простые в использовании интерфейсы для построения моделей извлечения ключевых слов, а также полезен для обучения моделей классификации, токенизации, выделения, синтаксического анализа и других задач анализа текста.

    RAKE NLTK

    RAKE NLTK - это конкретная реализация Python алгоритма быстрого автоматического извлечения ключевых слов (RAKE), который использует NLTK под капотом. Это упрощает расширение и выполнение других задач анализа текста.

    Scikit-Learn

    Scikit-Learn - одна из наиболее широко используемых библиотек с открытым исходным кодом для машинного обучения.Эта библиотека предоставляет доступные инструменты для обучения моделей НЛП классификации, извлечению, регрессии и кластеризации. Кроме того, он предоставляет другие полезные возможности, такие как уменьшение размерности, поиск по сетке и перекрестная проверка. Scikit-Learn имеет огромное сообщество и значительное количество руководств, которые помогут вам начать работу.

    spaCy

    Еще одна отличная библиотека НЛП для Python - spaCy. Эта библиотека немного новее, чем NLTK или Scikit-Learn, и специализируется на предоставлении простого способа использования глубокого обучения для анализа текстовых данных.

    R

    R - наиболее широко используемый язык программирования для статистического анализа. У него также очень активное и полезное сообщество. Популярность R в науке о данных и машинном обучении неуклонно растет, и у него есть несколько отличных пакетов для извлечения ключевых слов.

    RKEA

    RKEA - это пакет для извлечения ключевых слов и фраз из текста с помощью R. Внутри RKEA предоставляет интерфейс R для KEA, алгоритма извлечения ключевых слов, который изначально был реализован на Java и не зависит от платформы.

    Textrank

    Textrank - это пакет R для обобщения текста и извлечения ключевых слов. Алгоритм вычисляет, как слова связаны друг с другом, проверяя, следуют ли слова друг за другом. Затем он использует алгоритм PageRank для ранжирования наиболее важных слов текста.

    Учебники

    Довольно теории, теперь пора попробовать извлечение ключевых слов для себя! Практика ведет к совершенству, это факт, особенно когда речь идет о машинном обучении.

    Здесь вы найдете несколько простых и полезных руководств по созданию вашей первой модели извлечения ключевых слов. Сначала мы поделимся несколькими инструкциями по извлечению ключевых слов с помощью библиотек с открытым исходным кодом, таких как Python и R.Наконец, для тех, кто не имеет навыков программирования или просто хочет начать прямо сейчас, вы можете узнать, как создать экстрактор ключевых слов с помощью MonkeyLearn.

    Учебники с использованием библиотек с открытым исходным кодом

    Библиотеки с открытым исходным кодом великолепны благодаря своей гибкости и возможностям, но иногда бывает трудно начать.Ниже приводится список руководств, которые помогут вам реализовать систему извлечения ключевых слов с нуля с использованием фреймворков с открытым исходным кодом.

    Python

    RAKE

    Если вы ищете пошаговое руководство по использованию RAKE, вам следует ознакомиться с этим руководством. В этом руководстве объясняется, как извлекать ключевые слова и ключевые фразы с нуля с помощью реализации RAKE в Python.

    Scikit-learn

    Ознакомьтесь с этим руководством, в котором объясняется, как использовать Scikit-learn для извлечения ключевых слов с помощью TF-IDF.Обязательно ознакомьтесь с документацией scikit-learn, в которой также есть ресурсы, которые помогут вам начать работу с этой библиотекой.

    SpaCy

    Это руководство покажет вам пошаговый процесс извлечения ключевых слов с помощью spaCy. В этом руководстве рассказывается, как генераторы n-грамм и пропуска граммов могут помочь вам сгенерировать потенциальные ключевые слова или фразы из текста. Если вы хотите узнать больше о spaCy, ознакомьтесь с spaCy 101, где простыми словами объясняются наиболее важные концепции spaCy.

    R

    В этом руководстве вы можете узнать, как использовать пакет RKEA в R для извлечения ключевых слов. В нем рассказывается, как загрузить пакет, как создать модель извлечения ключевых слов с нуля и как использовать ее для анализа текста и автоматического получения ключевых слов.

    Учебное пособие по извлечению ключевых слов с помощью MonkeyLearn

    Погрузитесь в процесс извлечения ключевых слов с помощью предварительно обученного экстрактора MonkeyLearn. Просто вставьте свой собственный текст и посмотрите, насколько легко им пользоваться.

    Тест с вашим собственным текстом

    Илон Маск поделился фотографией скафандра, разработанного SpaceX.Это второе изображение нового дизайна и первое, на котором изображен скафандр в полный рост. Извлечь текст

    Для более подробного анализа, следуйте инструкциям ниже, чтобы обучить свой собственный экстрактор ключевых слов - это бесплатно и легко. Ключевые слова субъективны: слово или фраза могут быть релевантными (или нет) в зависимости от контекста и конкретного варианта использования. Иногда вам может потребоваться настроить ключевые слова для вашей конкретной области или области деятельности, чтобы повысить точность.

    Вот как создать свой собственный экстрактор с помощью MonkeyLearn:

    1.Создайте новую модель:

    На панели управления MonkeyLearn нажмите «Создать модель» и выберите «Экстрактор»:

    2. Импортируйте текстовые данные:

    . Вы можете загрузить файл Excel или CSV или импортировать данные прямо из приложения, такого как Twitter, Gmail или Zendesk. В этом примере мы собираемся использовать CSV-файл с отзывами об отелях (набор данных с отзывами об отелях, доступный для загрузки в виде CSV-файла в нашей библиотеке данных):

    3. Укажите данные для обучения вашей модели:

    Выберите столбцы с примерами текста, которые вы хотите использовать для обучения экстрактора ключевых слов:

    4.Определите свои теги:

    Создайте различные теги для вашего экстрактора ключевых слов в зависимости от типа слов или выражений, которые вам нужно получить из текста. Например, в данном случае мы хотим извлечь два типа ключевых слов из отзывов об отелях:

    • Аспект : это слова и выражения, которые относятся к функции или теме, о которых идет речь в обзоре отеля. Например, в следующем обзоре «Кровать действительно удобная» ключевым словом аспекта будет «кровать».
    • Качество : это ключевые слова, которые говорят о состоянии или состоянии отеля или одном из его аспектов. В приведенном выше примере «Кровать действительно удобная» ключевым словом качества будет «удобная».

    5. Начните обучение экстрактора текста:

    Вам нужно пометить несколько слов в тексте, чтобы обучить экстрактор ключевых слов. Как? Установив флажок рядом с соответствующим тегом и выделив соответствующий текст. Таким образом, вы научите свою модель машинного обучения самостоятельно строить связи и делать прогнозы.

    После того, как вы отметили несколько примеров, обратите внимание, как средство извлечения текста начинает делать прогнозы самостоятельно:

    Ваш браузер не поддерживает теги видео.

    6. Назовите свою модель:

    После того, как вы закончите обучение своему экстрактору ключевых слов, вам нужно будет назвать свою модель:

    7. Протестируйте свою модель!

    Вы можете протестировать свою модель и посмотреть, как она извлекает элементы из невидимых данных. Если вы не удовлетворены результатами, продолжайте тренировать свою модель с большим количеством данных.Чем больше примеров вы загрузите в свой экстрактор ключевых слов, тем точнее будут ваши результаты. Чтобы проверить производительность вашего экстрактора ключевых слов, нажмите «Сборка» и посмотрите статистику, такую ​​как F1 Score, Precision и Recall для каждого из ваших определенных тегов:

    8. Приведите свою модель в действие:

    Подобно тому, что мы видели для предварительно обученных моделей, есть несколько способов начать использовать средство извлечения ключевых слов:

    Ваш браузер не поддерживает тег видео.

    • Демо: вам просто нужно вставить текст, и модель автоматически обнаружит и выделит различные функции.
    • Пакет: если вы хотите проанализировать несколько фрагментов данных, вы можете загрузить файл CSV или Excel. Модель извлечения ключевых слов добавит в документ новый столбец со всеми прогнозируемыми ключевыми словами.
    • API: подключитесь к MonkeyLearn API и получите извлеченные ключевые слова в виде файла JSON.
    • Интеграции: вы можете использовать Zapier, RapidMiner, Google Sheets или Zendesk в качестве источника данных и подключить их к MonkeyLearn для процесса извлечения ключевых слов.

    Заключительные слова

    Извлечение ключевых слов - отличный способ найти то, что уместно в больших наборах данных. Это позволяет предприятиям в любой области автоматизировать сложные процессы, которые в противном случае были бы чрезвычайно трудоемкими и гораздо менее эффективными (а в некоторых случаях совершенно невозможно выполнить вручную). Вы ознакомились с возможностями извлечения ключевых слов для поддержки клиентов, управления социальными сетями, исследования рынка и т. Д. Вы можете получить ценную информацию для принятия более эффективных бизнес-решений.

    Пришло время перейти на новый уровень и начать использовать извлечение ключевых слов, чтобы максимально использовать ваши текстовые данные. Как вы знаете, сделать первые шаги с MonkeyLearn может быть довольно легко. Хотите попробовать? Просто свяжитесь с нами и запросите персонализированную демонстрацию у одного из наших экспертов! Узнайте, как использовать извлечение ключевых слов и еще более продвинутые методы анализа текста, чтобы извлечь максимальную пользу из ваших данных.

    Похожие сообщения

    Извлечение ключевых слов с помощью BERT | Навстречу науке о данных

    Минимальный метод извлечения ключевых слов и ключевых фраз

    Created by Wokandapix

    Когда мы хотим понять ключевую информацию из определенных документов, мы обычно обращаемся к извлечению ключевых слов .Извлечение ключевых слов - это автоматизированный процесс извлечения слов и фраз, наиболее релевантных входному тексту.

    С помощью таких методов, как Rake и YAKE! у нас уже есть простые в использовании пакеты, которые можно использовать для извлечения ключевых слов и фраз. Однако эти модели обычно работают на основе статистических свойств текста, а не столько на семантическом сходстве.

    Входит BERT . BERT - это модель двунаправленного преобразователя, которая позволяет нам преобразовывать фразы и документы в векторы, отражающие их значение.

    Что, если бы мы использовали BERT вместо статистических моделей?

    Несмотря на то, что существует множество замечательных статей и решений, использующих встраивание BERT (например, 1, 2, 3,), я не смог найти простого и удобного в использовании решения на основе BERT. Вместо этого я решил создать KeyBERT - минимальную и простую в использовании технику извлечения ключевых слов, которая использует вложения BERT.

    Теперь основной темой этой статьи будет не использование KeyBERT, а учебник о том, как использовать BERT для создания собственной модели извлечения ключевых слов .

    В этом руководстве мы будем использовать документ о машинном обучении с учителем :

     doc = "" "
    Обучение с учителем - это задача машинного обучения
    , изучающая функцию, которая сопоставляет входные данные с выходными на основе
    на примере пар ввода-вывода. [1] Он выводит функцию
    из помеченных обучающих данных, состоящих из набора из
    обучающих примеров. [2] При контролируемом обучении каждый
    пример представляет собой пару, состоящую из входного объекта
    (обычно вектор) и желаемое выходное значение (также
    , называемое контрольным сигналом).Алгоритм
    с контролируемым обучением анализирует данные обучения и выдает выведенную функцию
    , которую можно использовать для отображения новых примеров
    . Оптимальный сценарий позволит алгоритму
    правильно определять метки классов для невидимых экземпляров
    . Это требует от алгоритма обучения
    обобщения обучающих данных на невидимые ситуации
    «разумным» способом (см. Индуктивное смещение).
    "" "

    Я считаю, что использование документа по теме, о которой читатели достаточно хорошо знают, поможет вам понять, являются ли полученные ключевые фразы качественными.

    Мы начинаем с создания списка возможных ключевых слов или ключевых фраз из документа. Хотя многие фокусируются на словосочетаниях с существительными, мы собираемся упростить его, используя Scikit-Learns CountVectorizer . Это позволяет нам указать длину ключевых слов и превратить их в ключевые фразы. Это также хороший метод для быстрого удаления стоп-слов.

    Мы можем использовать n_gram_range , чтобы изменить размер результирующих кандидатов. Например, если мы установим для него значение (3, 3) , то в результате получатся фразы, содержащие 3 ключевых слова .

    Тогда переменная кандидатов представляет собой просто список строк, который включает в себя наши кандидаты ключевых слов / ключевых фраз.

    ПРИМЕЧАНИЕ : Вы можете поиграть с n_gram_range , чтобы создать ключевые фразы разной длины. Тогда вы, возможно, не захотите удалять стоп-слова, поскольку они могут связывать вместе более длинные ключевые фразы.

    Затем мы конвертируем как документ, так и возможные ключевые слова / ключевые фразы в числовые данные. Для этой цели мы используем BERT , поскольку он показал отличные результаты как для задач подобия, так и для задач перефразирования.

    Существует множество методов для создания вложений BERT, таких как Flair, Hugginface Transformers и теперь даже spaCy с их выпуском 3.0! Однако я предпочитаю использовать пакет предложений-преобразователей , поскольку он позволяет мне быстро создавать высококачественные вложения, которые достаточно хорошо работают для встраиваний на уровне предложений и документов.

    Устанавливаем пакет с пипсом , устанавливаем предложения-трансформеры . Если у вас возникнут проблемы с установкой этого пакета, возможно, сначала будет полезно установить Pytorch.

    Теперь мы собираемся запустить следующий код, чтобы преобразовать наш документ и кандидатов в векторы:

    Мы Distilbert , поскольку он показал отличную производительность в задачах схожести, к чему мы стремимся при извлечении ключевых слов / ключевых фраз. !

    Поскольку модели трансформаторов имеют ограничение по токенам, вы можете столкнуться с некоторыми ошибками при вводе больших документов. В этом случае вы можете рассмотреть возможность разделения документа на абзацы и среднего объединения (взяв среднее значение) полученных векторов.

    ПРИМЕЧАНИЕ : Существует множество предварительно обученных моделей на основе BERT, которые можно использовать для извлечения ключевых слов. Однако я бы посоветовал вам использовать либо distilbert - base-nli-stsb-mean-tokens , либо xlm-r-distilroberta-base-paraphase-v1 , поскольку они показали отличную производительность в семантическом сходстве . и , перефразируя идентификацию соответственно.

    На последнем этапе мы хотим найти кандидатов, наиболее похожих на документ.Мы предполагаем, что наиболее похожие кандидаты на документ являются хорошими ключевыми словами / ключевыми фразами для представления документа.

    Чтобы вычислить сходство между кандидатами и документом, мы будем использовать косинусное сходство между векторами, так как оно довольно хорошо работает в высокой размерности:

    И… вот и все! В качестве результирующих ключевых слов мы берем 5 наиболее похожих кандидатов на входной документ:

    Изображение автора.

    Результаты выглядят великолепно! Эти термины определенно выглядят так, как будто они описывают документ о контролируемом машинном обучении.

    Теперь давайте посмотрим, что произойдет, если мы изменим n_gram_range на (3,3) :

    Изображение автора.

    Кажется, теперь мы получаем ключевых фраз вместо ключевых слов ! Эти ключевые фразы сами по себе, кажется, хорошо представляют документ. Однако меня не радует, что все ключевые фразы так похожи друг на друга.

    Чтобы решить эту проблему, давайте посмотрим на диверсификацию наших результатов.

    Есть причина, по которой возвращаются похожие результаты… они лучше всего представляют документ! Если бы мы диверсифицировали ключевые слова / ключевые фразы, то они с меньшей вероятностью представляли бы документ как совокупность .

    Таким образом, диверсификация наших результатов требует тонкого баланса между точностью ключевых слов / фраз и их разнообразием.

    Есть два алгоритма, которые мы будем использовать для диверсификации наших результатов:

    • Максимальное сходство суммы
    • Максимальное предельное соответствие

    Максимальное сходство суммы

    Максимальное суммарное расстояние между парами данных определяется как пары данных для которых расстояние между ними максимально.В нашем случае мы хотим максимизировать сходство кандидата с документом, минимизируя сходство между кандидатами.

    Для этого мы выбираем 20 самых популярных ключевых слов / фраз и из этих 20 выбираем 5, которые наименее похожи друг на друга:

    Если мы установим low nr_candidates , то наши результаты кажутся такими быть очень похожим на наш оригинальный метод подобия косинуса:

    Изображение автора.

    Однако относительно высокий nr_candidates создаст более разнообразные ключевые фразы:

    Изображение автора.

    Как упоминалось ранее, необходимо иметь в виду компромисс между точностью и разнообразием. Если вы увеличите nr_candidates , то высока вероятность того, что вы получите очень разные ключевые слова, но это не очень хорошее представление документа.

    Я бы посоветовал вам оставить nr_candidates менее 20% от общего количества уникальных слов в вашем документе.

    Максимальная маржинальная релевантность

    Последний метод диверсификации наших результатов - Максимальная маржинальная релевантность (MMR).MMR пытается минимизировать избыточность и максимизировать разнообразие результатов в задачах обобщения текста. К счастью, алгоритм извлечения ключевых слов под названием EmbedRank реализовал версию MMR, которая позволяет нам использовать его для диверсификации наших ключевых слов / ключевых фраз.

    Мы начинаем с выбора ключевого слова / ключевой фразы, наиболее похожей на документ. Затем мы итеративно выбираем новых кандидатов, которые похожи на документ и не похожи на уже выбранные ключевые слова / ключевые фразы:

    Если мы установим относительно низкое разнообразие , то наши результаты будут очень похожи на наше исходное косинусное сходство. метод:

    Изображение автора.

    Однако относительно высокая степень разнообразия баллов создаст очень разнообразные ключевые фразы:

    Изображение автора.

    Если вы, как и я, увлечены искусственным интеллектом, наукой о данных или психологией, пожалуйста, не стесняйтесь добавлять меня в LinkedIn или подписываться на меня в Twitter.

    Все примеры и код в этой статье можно найти здесь:

    Извлечение ключевых слов с помощью НЛП: Руководство для начинающих

    Сбор, анализ и реагирование на отзывы пользователей - краеугольный камень процесса проектирования, ориентированного на пользователя.Отзывы пользователей помогают нам понять потребности и уровень удовлетворенности клиентов, а также определить, на чем лучше всего сосредоточить исследования и разработки, чтобы оказать наибольшее влияние на взаимодействие с пользователем в целом.

    Благодаря улучшенным инструментам - и, возможно, усилению давления, чтобы клиенты чувствовали себя «услышанными», - многие организации довольно хорошо умеют собирать отзывы пользователей. Однако я не видел доказательств того, что многие из них так же хороши в , анализируя , и , действуя на эту обратную связь.У организаций могут быть тонны данных - скажем, 8000 обращений за помощью и комментариев клиентов, скомпилированных в одном файле .csv *, - но когда дело доходит до того, в чем заключается понимание, слишком часто никто не имеет ни малейшего представления.

    (* Реальная история. На самом деле, более одного раза. Гораздо больше.)

    Получение информации из многотысячной таблицы комментариев пользователей в произвольной форме может быть непростой задачей. Вы можете просмотреть каждый комментарий (если у вас есть бюджет проекта ... и не заботиться о своем душевном здоровье), или вы можете взять образец и надеяться на лучшее.

    Обработка естественного языка на помощь

    Третий подход - использовать обработку естественного языка (NLP), чтобы начать понимать общий смысл набора данных на высоком уровне, а затем использовать это понимание для определения более сфокусированных направлений исследования - либо для применения к самим данным, либо для использование для руководства соответствующими исследованиями.

    Широкий спектр бесплатных библиотек Python NLP предлагает некоторые относительно простые в развертывании инструменты, которые могут помочь нам раскрыть ключевые особенности больших наборов данных.Инструменты, которые мы рассмотрим в этой статье, позволят нам создавать списки ключевых слов с одним и несколькими терминами (называемые н-граммами) из большого (более 3000 записей) неструктурированного набора данных. Эти списки помогут нам сформировать базовое понимание содержимого набора данных на высоком уровне.

    Предварительный просмотр наиболее популярных ключевых слов, извлеченных из выборки набора данных

    Хотя этот процесс, известный как «интеллектуальный анализ текста», обязательно является редуктивным, он предлагает несколько точек входа в набор данных, которые в противном случае могли бы выглядеть безнадежно непонятными:

    • Ключевые слова сами по себе могут быть полезны, особенно при формулировании ответа на вопрос «О чем люди чаще всего говорят / спрашивают?»

    • Ключевые слова могут помочь вам сосредоточиться на небольших наборах отдельных записей, чтобы узнать о них больше и начать отвечать на конкретные вопросы о потребностях и целях пользователей.

    • Ключевые слова в сочетании с анализом небольших наборов отдельных записей могут помочь вам выявить пробелы в вашем понимании пользователей, что может помочь сосредоточить последующие исследовательские усилия

    Предупреждение для менее технических читателей

    Если мысль о том, чтобы что-то сделать в коде, заставила вас потянуться к значку «закрыть», сначала выслушайте меня: примерно месяц назад я не знал Python от Boa Constrictor.Эта статья и сопутствующий репозиторий предназначены для того, чтобы обеспечить низкую точку входа для начала работы с анализом текста и интеллектуальным анализом текста, даже если вы новичок в манипулировании файлами данных с помощью кода.

    Предпосылки, источники и ресурсы

    Большая часть кода, который вы найдете ниже (и в соответствующем репозитории GitHub), была скомпонована из гораздо более знающих первоисточников, чем ваш искренний, - тех, которые я настоятельно рекомендую вам проверить. Внесенные мной изменения были сделаны в духе того, чтобы сделать эти инструменты более доступными для новичков, убедиться, что код работает в автономном репозитории, и предоставить отправную точку, с которой смельчаки из вас могут начать свои собственные исследования. .

    Хотите прочитать об истории вопроса и требованиях позже? Перейдите к разделу «Как извлекать ключевые слова с помощью обработки естественного языка» ниже

    Источники для блоков кода НЛП

    • Автоматическое извлечение ключевых слов из статей с использованием NLP , автор Sowmya Vivek, показывает, как извлекать ключевые слова из рефератов научных статей по машинному обучению. Это статья, из которой я больше всего черпаю для этого инструментария. К сожалению, (насколько мне известно) г-жаVivek не предоставил общий доступ к хранилищу этих скриптов, поэтому я воссоздал и изменил их здесь.

    • Извлечение ключевых слов с помощью TF-IDF и Python Scikit-Learn от Кавиты Ганесан, по-видимому, является учебным пособием, которое г-жа Вивек использует больше всего для процесса векторизации TF-IDF (подробнее об этом конкретном словесном салате ниже). Г-жа Ганесан предоставляет более подробную информацию о том, как работают эти конкретные блоки кода, а также дополнительные инструменты в своем репозитории NLP на GitHub - хороший следующий шаг для тех из вас, кто заинтересован в дальнейших исследованиях.

    Ресурсы Python

    • Обработка естественного языка с помощью Python Стивена Берда, Юэна Кляйна и Эдварда Лопера - это бесплатная онлайн-книга, в которой подробно рассказывается об использовании модуля Python Natural Language Toolkit (NLTK) для понимания неструктурированного текста. Это надежный ресурс для получения фундаментальных знаний на основе передового опыта. Я считаю, что первые три главы являются хорошим руководством для начинающих - и, вероятно, вернусь к остальным в качестве справочника по мере расширения моих навыков.

    • «Учимся кодировать на Python 3: от новичка до продвинутого». , Иван Гомес через Udemy, является отличным введением в Python. Курс не предполагает никаких предварительных знаний о Python (он начинается с подробных модулей о том, как его установить), но продвигается достаточно быстро, чтобы оставаться интересным и поддерживать чувство прогресса. Я очень рекомендую это. Также: обязательно выполняйте упражнения - они веселые и помогают закрепить содержание.

    Запуск репозитория

    Репозиторий для этого набора операций и функций хранится в виде файла Jupyter Notebook.Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое можно использовать для создания и обмена документами, содержащими живой код Python, уравнения, визуализации и текст. Я обнаружил, что это простой (и прощающий) способ экспериментировать с Python и создавать операции НЛП для выполнения конкретных задач.

    Чтобы запустить репозиторий, вам нужно будет настроить несколько вещей на вашем компьютере. Вам понадобится Python 3, Jupyter Notebook и несколько модулей Python. Jupyter Notebook и все модули могут быть установлены с помощью установщика пакета PIP, который поставляется с Python.

    Вот что вы хотите установить для модулей:

    • pandas для инструмента анализа и обработки данных
    • nltk , набор библиотек и программ для символьной и статистической обработки естественного языка английского языка
    • matplotlib для построения данных
    • seaborn для визуализации данных
    • подушка , библиотека изображений
    • wordcloud для создания визуализаций облака слов
    • sklearn , библиотека машинного обучения

    После того, как вы запустите Python, загрузите репозиторий NLP Text Analysis с GitHub и скопируйте образцы текстовых файлов на свой рабочий стол.Запустите «jupyter notebook» из каталога репозитория, а затем просто выполните шаги, перечисленные ниже, чтобы сгенерировать списки и визуализации нормализованных ключевых слов и n-граммов. Как только вы освоитесь, замените свою огромную электронную таблицу неструктурированных комментариев и настраиваемых ключевых слов и насладитесь великолепием проведения анализа текста НЛП в одиночку. 🎉

    1. Загрузите набор данных и определите текстовые поля для анализа

    Выберите первую ячейку кода в записной книжке «text-analytics.ipynb» и нажмите кнопку «Выполнить».Обязательно перетащите файлы «rfi-data.tsv» и «custom-stopwords.txt» на рабочий стол; вот где сценарий будет их искать.

    Следуйте инструкциям по загрузке данных. Выбрав файл .tsv, вы выберете столбец, содержащий данные, которые хотите проанализировать, а затем просмотрите наиболее и наименее распространенные слова в необработанном тексте. Это поможет вам определить любые пользовательские стоп-слова, которые вы, возможно, захотите добавить перед нормализацией текста.

    2. Создайте список стоп-слов

    Стоп-слова - это часто используемые слова, такие как «the», «a», «an», «in» и т. Д.которые часто встречаются на естественном языке, но не передают важной информации о значении или теме сообщения.

    Модуль NLTK предлагает список наиболее распространенных стоп-слов на английском языке, который мы импортируем сюда. На этом этапе мы также добавим список пользовательских стоп-слов на основе анализируемого текста. Вы можете изменить этот список в файле custom-stopwords.txt на рабочем столе.

    Импорт библиотек стоп-слов.

    Список «наиболее часто встречающихся слов», который мы создали выше, предлагает несколько хороших кандидатов для настройки пользовательского списка стоп-слов.Когда вы начнете получать результаты, указанные ниже, вы можете вернуться к этому шагу и добавить дополнительные стоп-слова на основе вашего набора содержимого, чтобы получить более полезные результаты.

    3. Предварительно обработайте набор данных, чтобы получить очищенный, нормализованный текстовый корпус.

    Предварительная обработка включает удаление знаков препинания, тегов и специальных символов из текста, а затем преобразование того, что осталось, в узнаваемые слова. Процесс нормализации включает в себя «выделение корней», которое удаляет суффиксы и префиксы из корней слов, и «лемматизацию», которая отображает оставшиеся корневые формы (которые не всегда могут быть правильными словами) обратно в реальное слово, встречающееся в естественном языке.

    Нормализация, остановка и лемматизация нашего корпуса.

    Все вместе эти процессы определяют канонического представителя набора родственных словоформ, что позволяет нам оценивать частоту слов независимо от морфологических вариаций (словоформ).

    4. Извлеките наиболее часто встречающиеся ключевые слова и н-граммы

    Теперь мы, наконец, находимся на этапе, когда мы можем сгенерировать набор основных ключевых слов и n-граммов, в нашем случае двух- и трехсловные словосочетания (биграммы и триграммы). Эти списки и диаграммы, конечно, только намекают на всю информацию, которая может содержаться в этом текстовом корпусе, но они дают представление о том, где нам, возможно, потребуется более внимательно изучить или провести дополнительные исследования.Они также предлагают общий обзор, который легко доводится до сведения сотрудников и заинтересованных сторон.

    Самые популярные ключевые слова по частоте для 3892 полей "Запрос информации" Shoreline College Верхние биграммы по частоте для 3892 полей "Запрос информации" Shoreline College Верхние триграммы по частоте для 3892 полей "Запрос информации" Shoreline College

    Эти скрипты также будут отправлять CSV-файл с расширением. термины и данные о частоте для каждого из этих представлений на рабочем столе для прямого доступа к скомпилированным результатам.Если вы обнаружите, что некоторые термины являются общими для вашего набора данных - в этом примере «будет», «нравится», «нужно» и «знать» на самом деле не передают уникального значения - вы можете добавить их в свой список стоп-слов и запустить анализ снова.

    TF-IDF, сокращение от «Term Frequency – Inverse Document Frequency», представляет собой числовую статистику, которая предназначена для отражения того, насколько важно слово для документа в коллекции. Значение TF-IDF термина увеличивается пропорционально тому, сколько раз слово появляется в документе, а затем компенсируется количеством документов в корпусе, содержащих это слово.Это помогает приспособиться к тому факту, что некоторые слова в целом встречаются чаще. Конечным результатом является то, что мы получаем список слов, ранжированных по тому, насколько они важны для корпуса в целом:

    Верхний термин TF-IDF для 3892 полей "Запрос информации" Shoreline College

    Тем не менее, я не собираюсь утверждать, что я полностью осознал, что происходит в процессе векторизации TF-IDF. Для более глубокого анализа извлечения ключевых слов с помощью TF-IDF ознакомьтесь с руководством Кавиты Ганесан по TF-IDF.

    Следующие шаги

    Если вы раньше погружались в НЛП или машинное обучение, то теперь вы понимаете, что эти воды очень быстро становятся глубже. Цель этой статьи - предоставить «неглубокий конец», который те из нас, кто плохо знаком с НЛП, могут использовать, чтобы получить свое основание, и все же достичь чего-то полезного. Он написан с точки зрения новичка (меня!), Который разделяет свои позиции в НЛП с другими новичками (вами!) - и, надеюсь, предоставляет вам ценный набор инструментов начального уровня, который вы можете использовать в следующей электронной таблице на 8000 строк.

    Результат этого процесса предназначен для предоставления вам набора точек данных, которые вы можете использовать для лучшего понимания отзывов пользователей, содержащихся в больших неструктурированных наборах данных. Это также должно помочь вам легче сосредоточить будущую аналитическую и исследовательскую деятельность. Как только вы освоите базовый процесс, описанный выше, приступайте к настройке переменных и параметров. Когда вы освоитесь со всем, что вы можете здесь делать, вы будете готовы изучить множество других способов использования этих библиотек и инструментов.Пожалуйста, поделитесь тем, что вы узнали!

    Извлечение ключевых слов из текста с использованием nlp и машинного обучения

    Вкратце, извлечение ключевых слов - это методика автоматического обнаружения важных слов, которые могут использоваться для представления текста и могут использоваться для моделирования темы.

    Это очень эффективный способ получить представление о большом количестве неструктурированных текстовых данных. Возьмем пример: интернет-порталы розничной торговли, такие как Amazon, позволяют пользователям просматривать продукты.Мы хотим получить представление о конкретном продукте, скажем, о популярном смартфоне, мы не можем просматривать все без исключения обзоры. Скорее, мы могли бы использовать методы извлечения ключевых слов, чтобы найти обзоры, в которых особо упоминаются камера, аккумулятор, производительность или любой другой атрибут.

    Это полностью зависит от вариантов использования, и количество приложений может быть безграничным.

    Здесь, в этой статье, мы возьмем реальный набор данных и выполним извлечение ключевых слов с помощью контролируемых алгоритмов машинного обучения.Мы попытаемся извлечь теги фильма из текста синопсиса данного сюжета фильма.

    Реальный вариант использования упомянутой задачи - пометить фильм дополнительными тегами, отличными от жанров. Это может быть очень полезной информацией для зрителя, чтобы решить, смотреть фильм или нет. Такая автоматизированная система извлечения тегов / ключевых слов также поможет создать лучшие системы рекомендаций для предсказания похожих фильмов и поможет пользователям узнать, чего ожидать от фильма.

    Теги в фильмах основаны на сходстве элементов повествования или эмоциональной реакции на фильм.Мы можем получить хорошее представление об элементах повествования и возможных эмоциональных откликах, просто проанализировав синопсис сюжета фильма.

    Для этого упражнения мы будем использовать набор данных, предоставленный лабораторией RiTUAL (Исследования в области понимания текста и анализа языка). Более подробная информация доступна здесь: http://ritual.uh.edu/mpst-2018/.

    Этот набор данных содержит около 14 тыс. Синопсисов фильмов, полученных в наборе для обучения, проверки и тестирования. Все графики разделены на один или несколько тегов. Здесь 71 уникальный тег.

    Сначала мы импортируем набор данных во фрейм данных pandas. Данные можно скачать отсюда. Ниже показано, как набор данных выглядит в необработанном виде:

    1. Понимание набора данных

    Из приведенного выше набора данных давайте внимательно рассмотрим разные столбцы:

    1. imdb_id: База данных Интернет-фильмов (IMDb) - самый популярный и авторитетный источник информации о фильмах и сериалах. Для каждого цифрового контента IMDb генерирует уникальный идентификатор, который принимается во всем Интернете.Здесь imdb_id - это уникальный идентификатор, который должен быть уникальным для каждой точки данных. Если есть повторяющиеся imdb_id, это просто означает, что у нас есть повторяющиеся точки данных в наших данных, и нам нужно их удалить.
    2. title: название фильма
    3. plot_synopsis: Краткое содержание сюжета - это повествовательное объяснение сюжета фильма, означающее краткое изложение сценария. Он представил главного героя и то, что он делает в фильме. Ниже приводится синопсис сюжета фильма «Гензель и Гретель» (imdb_id: tt1380833):

    «Гензель и Гретель - маленькие дети бедного дровосека.Когда на земле царит голод, вторая жестокая жена дровосека решает увести детей в лес и оставить их там на произвол судьбы, чтобы она и ее муж не умерли от голода, потому что дети съесть слишком много. Дровосек выступает против этого плана, но в конце концов неохотно подчиняется плану своей жены. Они не знали, что в детской спальне Гензель и Гретель …… '

    1. split: этот столбец определяет, принадлежит ли точка данных к набору поездов, тестов или проверок.
    2. synopsis_source: предоставляет информацию об источнике синопсиса, будь то IMDb или Википедия.
    3. теги: Теги - это теги для фильма. Для одного фильма может быть несколько значений. Это будет наш ярлык с предсказанием. Если мы присмотримся внимательнее, в одном теге может быть пробел или знак «-». Мы хотим, чтобы наши теги имели похожую форму, и поэтому мы заменим пробелы и дефис на подчеркивание (‘_’). Также мы будем разделять теги пробелом вместо запятой. Вот как это выглядит:

    2.Проверить наличие недостающих и повторяющихся данных

    К счастью, ни в одном из столбцов нет пропущенного текста, но в наборе данных наверняка есть повторяющиеся данные.

    Как обсуждалось ранее, если в столбце «imdb_id» есть дубликаты, то данные должны дублироваться. Но здесь есть несколько точек данных, где «imdb_id» отличается, но содержание для «title», «plot_synopsis» и «synopsis_source» одинаково. Взгляните на изображение ниже:

    Мы будем удалять такие повторяющиеся точки с помощью кода ниже:

    данные = mpst_df.drop_duplicates ([‘title’, ’plot_synopsis’, ‘ptags’])

    Приведенный выше код удалит все повторяющиеся строки с одинаковыми «title», «plot_synopsis» и «ptags», за исключением первой записи.

    3. Изучение данных

    3.1 Теги для фильма

    Как обсуждалось ранее, фильм может состоять из более чем одного тега, и это будет интересная информация для изучения.

    # tags_count - массив, содержащий количество тегов для каждого фильма
    sns.countplot (tags_count)
    plt.title («Количество тегов в синопсисе»)
    plt.xlabel («Количество тегов»)
    plt.ylabel («Количество тегов»)
    plt.show ()

    Есть 5516 фильмов, которые содержат только один тег и 1 фильм, который помечен для 25 тегов.

    3.2 Теги частотный анализ

    Было бы неплохо проанализировать частоту тегов, чтобы узнать о частых и редких тегах. Здесь мы можем сделать вывод, что «убийство» является наиболее частым тегом (5782 случая), а «христианский фильм» - наименее частым тегом (42 случая).

    sorted_freq_df = freq_df.sort_values ​​(0, ascending = False)
    sorted_freq_df.head (-1) .plot (kind = 'bar', figsize = (16,7), legend = False)
    i = np.arange (71 )
    plt.title ('Частота всех тегов')
    plt.xlabel ('Теги')
    plt.ylabel ('Counts')
    plt.show ()

    Если рассматривать только 20 лучших тегов, то вот как это выглядит:

    3.3 WordCloud для тегов

    Создание облака слов текста синопсиса сюжета для определенного тега поможет нам понять, какие слова наиболее часто используются для этого тега.Мы создадим облако слов для тега убийства.

    # Создание столбца, чтобы указать, существует ли тег убийства или нет для фильма
    data [‘ptags_murder’] = [1, если «убийство» в tgs.split () else 0 для tgs в data.ptags]

    # создание корпуса для фильмов с тегом убийства
    murder_word_cloud = ”
    для сюжета в data [data [‘ ptags_murder ’] == 1] .plot_synopsis:
    murder_word_cloud = plot +‘ ‘

    из wordcloud импортировать WordCloud

    # создание облака слов
    wordcloud = WordCloud (ширина = 800, высота = 800, словосочетания = False,
    background_color = ’white’).генерировать (murder_word_cloud)

    plt.figure (figsize = (10,10))
    plt.imshow (wordcloud)
    plt.title («Слова в сюжетах фильмов с тегом убийства»)
    plt.axis («off»)
    plt.show ( )

    Здесь мы видим такие слова, как убийство, полиция, покушение, обвинение и т. Д., Семантически связаны с тегом убийство. Мы можем провести такой анализ для всех тегов, но, поскольку нам нужно охватить множество других вещей, не рекомендуется увеличивать длину блога, включая анализ всех этих тегов.

    4. Предварительная обработка текста

    Текст в необработанном формате содержит такие вещи, как HTML-теги, специальные символы и т. Д., Которые необходимо удалить перед использованием текста для построения модели машинного обучения. Ниже приведена процедура, которую я использовал для обработки текста.

    1. Удаление тегов HTML
    2. Удаление специальных символов, таких как #, _, - и т. Д.
    3. Преобразование текста в нижний регистр
    4. Удаление стоп-слов
    5. Операция по вытяжке

    ## функция удаления HTML-тегов
    def striphtml (data):
    cleanr = re.A-Za-z] + ’,’ ‘, syn_processed) # удаление специальных символов
    words = word_tokenize (str (syn_processed.lower ())) # устройство в слова и преобразование в младшие

    # syn_processed = ’‘ .join (str (stemmer.stem (j)) for j in words if j not in stop_words and len (j)! = 1) # Удаление игнорируемых слов и объединение в предложение
    return syn_processed

    5. Разделение обучения, проверки и тестирования

    Это довольно просто, поскольку стратегия разделения уже упоминается в самом наборе данных.

    поезд = данные [данные ['split'] == 'поезд']
    val = данные [данные ['split'] == 'val']
    тест = данные [данные ['split'] == 'тест' ]

    6.Изменение текста

    Мы можем использовать несколько техник определения характеристик текста, таких как набор слов с n-граммами, TFIDF с n-граммами, Word2vec (среднее и взвешенное), Sentic Phrase, TextBlob, тематическое моделирование LDA, NLP / текстовые функции и т. Д.

    Дополнительный ресурс, чтобы узнать о функциях текста

    Для простоты я использовал TFIDF с настройкой 1,2,3 грамма, что на самом деле дает неплохой результат.

    векторизатор = TfidfVectorizer (min_df = 0.00009, smooth_idf = True, tokenizer = lambda x: x.split (), sublinear_tf = False, ngram_range = (1,3))
    x_train = vectorizer.fit_transform (train ['processing_plot'])
    x_val = vectorizer.transform (val ['processing_plot'])
    x_test = vectorizer.transform (тест ['обработанный_площадь'])

    TFIDF с (1,3) граммами сгенерировал менее 7 миллионов функций. Ниже 2 ресурса помогут вам узнать больше о TFIDF:

    7. Моделирование машинного обучения

    Прежде чем перейти к моделированию, давайте обсудим показатели оценки. Выбор показателей оценки - самая важная задача, поскольку это немного сложно в зависимости от цели задачи.

    Наша проблема - это проблема классификации с несколькими метками, когда может быть несколько меток для одной точки данных. Мы хотим, чтобы наша модель максимально предсказывала правильные категории, избегая при этом неправильного прогноза. Точность - не очень хороший показатель для этой задачи. -1)

    Давайте разберемся, как рассчитать микро-усредненную точность, и вспомним на примере.допустим, для набора данных система

    Истинно-положительный (TP1) = 12
    Ложно-положительный (FP1) = 9
    Ложно-отрицательный (FN1) = 3

    Тогда точность (P1) и возврат (R1) будут 57,14 и 80, а для другого набора данных система будет

    .

    Истинно-положительный (TP2) = 50
    Ложно-положительный (FP2) = 23
    Ложно-отрицательный (FN2) = 9

    Тогда точность (P2) и отзыв (R2) будут 68,49 и 84,75

    Теперь средняя точность и отзыв системы, использующей метод микро-среднего, составляет

    .

    Микро-среднее значение точности = (TP1 + TP2) / (TP1 + TP2 + FP1 + FP2) = (12 + 50) / (12 + 50 + 9 + 23) = 65.96
    Микро-среднее значение отзыва = (TP1 + TP2) / (TP1 + TP2 + FN1 + FN2) = (12 + 50) / (12 + 50 + 3 + 9) = 83,78

    Приведенное выше объяснение заимствовано из этого замечательного блога.

    Еще кое-что перед тем, как перейти к моделированию.

    Давайте посмотрим на исследовательскую работу издателя набора данных, о которой я уже упоминал (ссылка на статью) в начале. В качестве показателей оценки они использовали показатель микро F1 вместе с отзывом тегов и изученными тегами. Ниже приводится их результат:

    Максимальное количество F1-micro в списке - 37.8. Посмотрим, сколько мы сможем получить с помощью простой модели.

    Чтобы решить проблему классификации с несколькими метками, мы должны использовать классификатор OneVsRest, который одновременно классифицирует один класс итеративно. Узнайте больше здесь.

    Я пробовал использовать машину опорных векторов и логистическую регрессию. Логистическая регрессия оказывается лучшим вариантом.

    classifier = OneVsRestClassifier (SGDClassifier (loss = ’log’, альфа = 1e-5, штраф = ’l1 ′), n_jobs = -1)
    classifier.fit (x_train, y_train)
    прогнозы = классификатор.предсказать (x_test) print («micro f1 score:», metrics.f1_score (y_test, predictions, average = «micro»))
    print («потеря Хэмминга:», metrics.hamming_loss (y_test, predictions)) —– вывод—–

    счет micro f1: 0,34867686650469504
    потери Хэмминга: 0,04710189661231041

    Мы получили довольно хороший микро-F1 (0,349 против 0,378, лучший результат, упомянутый в статье) с моделью LR.

    Финальная уловка!

    Точность и отзыв зависят от TP, FP, TN и FN. Все эти показатели зависят от прогнозов (0 или 1), но не от вероятности прогноза.

    Что, если мы найдем способ использовать вероятность и проверим, улучшает ли он счет микро F1 или нет. Для этого мы будем использовать тот факт, что порог по умолчанию для прогнозирования равен 0,5. Это просто означает, что мы присваиваем 1, если вероятность предсказания составляет 0,5 или выше, и 0 в противном случае.

    Здесь мы попробуем разные пороговые значения, чтобы узнать порог, который максимизирует оценку микро-F1.

    Давайте попробуем установить пороговые значения от 0,20 до 0,30.

    yhat_val_prob = классификатор.pred_proba (x_val)
    для t в списке (диапазон (20, 31, 1)):
    print (t * 0,01)
    pred_lb = np.asarray (yhat_val_prob> t * 0,01, dtype = 'int8')
    print (“ micro f1 scoore: ”, metrics.f1_score (y_val, pred_lb, average = 'micro'))

    —–вывод—–

    0,2 ​​
    scoore micro f1: 0,37533010563380287
    0,21
    scoore micro f1: 0,3761086785674189
    0,22
    scoore micro f1: 0,3761457378551788

    0,23
    scoore micro f1: 0,37720425084666587
    0,24
    scoore micro f1: 0.3766496254

    2
    0,25
    микро f1 scoore: 0,3773150950248154
    0,26
    микро f1 scoore: 0,378451509747248
    0,27
    микро f1 scoore: 0,3784528656435954
    0,28
    микро f1 scoore: 0,37878787878787873
    0,29
    микро f1 scoore: 0,377741831122614
    0,3
    микро f1 scoore: 0,3768382352941177

    Из приведенного выше мы видим, что, используя 0,28 в качестве порогового значения, мы можем получить лучший результат микро F1 около 0,379 в наборе данных проверки.

    Посмотрим, какой результат может дать тот же порог для набора тестовых данных.

    pred_lb = np.asarray (yhat_test_prob> 0,28, dtype = ’int8 ′)

    print («micro f1 score:», metrics.f1_score (y_test, pred_lb, average = «micro»))
    print («hamming loss:», metrics.hamming_loss (y_test, pred_lb))

    —–вывод—–

    счет micro f1: 0,3737731458059294
    потеря Хэмминга: 0,05899764066633302

    Здесь мы улучшили результаты на тестовых данных с 0,349 до 0,374, просто изменив пороговые значения.

    Мы можем улучшить результат, используя меньше тегов, больше данных или сложные техники НЛП.

    Извлечение ключевых слов помогает предприятиям обрабатывать очень большие текстовые данные за короткий промежуток времени и позволяет получить из них полезную информацию. В случае отзывов клиентов мы можем получить данные о том, о чем говорят клиенты, что им нравится или не нравится.

    Около 80% всех сгенерированных данных являются неструктурированными, и определение ключевых слов - отличный способ узнать релевантные вещи, такие как тема или важные слова, из неструктурированных данных.

    Первоисточник: https://anandborad.github.io/MPST/

    Как извлечь ключевые слова из текста с TF-IDF и Python Scikit-Learn

    by Kavita Ganesan

    Еще в 2006 году, когда мне пришлось использовать TF-IDF для извлечения ключевых слов в Java, я закончил тем, что написал весь код с нуля.Тогда не существовало ни Data Science, ни GitHub, и библиотеки были ограничены.

    Сегодня мир сильно изменился. У вас есть несколько библиотек и репозиториев с открытым исходным кодом на Github, которые обеспечивают достойную реализацию TF-IDF. Если вам не нужен большой контроль над вычислением математики TF-IDF, я настоятельно рекомендую повторно использовать библиотеки из известных пакетов, таких как MLLib от Spark или scikit-learn Python.

    Одна проблема , которую я заметил с этими библиотеками, заключается в том, что они предназначены в качестве предварительного шага для других задач, таких как кластеризация, моделирование тем и классификация текста.TF-IDF можно использовать для извлечения важных ключевых слов из документа, чтобы понять, что характеризует документ. Например, если вы имеете дело со статьями Википедии, вы можете использовать tf-idf для извлечения слов, уникальных для данной статьи. Эти ключевые слова можно использовать как очень простое резюме документа и для текстовой аналитики, когда мы смотрим на эти ключевые слова в совокупности.

    В этой статье я покажу вам, как можно использовать scikit-learn для извлечения ключевых слов из документов с помощью TF-IDF.Мы сделаем это специально для набора данных переполнения стека. Если вам нужен доступ к полной версии Jupyter Notebook , перейдите в мой репозиторий.

    Важное примечание: Я предполагаю, что люди, следующие этому руководству, уже знакомы с концепцией TF-IDF. Если нет, пожалуйста, ознакомьтесь с концепцией, прежде чем читать дальше. В Интернете есть несколько видеороликов, которые интуитивно объясняют, что это такое. Для более академического объяснения я бы порекомендовал свою докторскую степень.Объяснение советника D.

    Набор данных

    В этом примере мы будем использовать набор данных Stack Overflow, который немного шумный и имитирует то, с чем вы можете иметь дело в реальной жизни. Вы можете найти этот набор данных в моем репозитории с учебниками.

    Обратите внимание, что есть двух файлов . Более крупный файл, stackoverflow-data-idf.json с 20 000 сообщений, используется для вычисления обратной частоты документов (IDF). Меньший файл, stackoverflow-test.json с 500 сообщениями, будет использоваться в качестве тестового набора, из которого мы будем извлекать ключевые слова.Этот набор данных основан на общедоступном дампе Stack Overflow из Google Big Query.

    Давайте взглянем на наш набор данных. Приведенный ниже код считывает одну строку json на строку из data / stackoverflow-data-idf.json в фрейм данных pandas и распечатывает его схему и общее количество сообщений.

    Здесь строк = Истина просто означает, что мы обрабатываем каждую строку в текстовом файле как отдельную строку json.

    Прочтите файл json и распечатайте схему и общее количество сообщений о переполнении стека.Схема и общее количество постов.

    Обратите внимание, что этот набор данных Stack Overflow содержит 19 полей, включая заголовок, текст сообщения, теги, даты и другие метаданные, которые нам не нужны для этого руководства. В этом уроке нас больше всего интересуют тело и заголовок. Они станут нашим источником текста для извлечения ключевых слов.

    Теперь мы создадим поле, которое объединяет body и title , так что у нас есть два в одном поле. Мы также напечатаем вторую текстовую запись в нашем новом поле, чтобы увидеть, как выглядит текст.

    Ой, это выглядит не очень читаемым! Ну, это из-за всей очистки, которая была произведена в pre_process (..) . Вы можете сделать намного больше в pre_process (..) , например, удалить все разделы кода и нормализовать слова до его корня. Для простоты мы выполним лишь небольшую предварительную обработку.

    Создание словаря и подсчета слов для IDF

    Теперь нам нужно создать словарь и начать процесс подсчета. Мы можем использовать CountVectorizer для создания словаря из всего текста в нашем df_idf ['text'] , за которым следует количество слов в словаре:

    Результат последних двух строк из приведенного выше кода является разреженным. матричное представление отсчетов.Каждый столбец представляет собой слово в словаре. Каждая строка представляет документ в нашем наборе данных, где значениями являются количество слов.

    Обратите внимание, , что при таком представлении количество слов может быть равно 0, если слово не появилось в соответствующем документе.

    Здесь мы передаем два параметра в CountVectorizer: max_df и stop_words . Первый - просто игнорировать все слова, которые встречаются в 85% документов, поскольку они могут быть неважными.Последний - это настраиваемый список стоп-слов. Вы также можете использовать стоп-слова, родные для sklearn, установив stop_words = 'english' . Список стоп-слов, используемый в этом руководстве, можно найти здесь.

    Результирующая форма word_count_vector будет (20000,124901), поскольку в нашем наборе данных (строках) имеется 20 000 документов, а размер словаря составляет 124 901.

    В некоторых приложениях интеллектуального анализа текста, таких как кластеризация и классификация текста, мы обычно ограничиваем размер словаря.Это действительно легко сделать, установив max_features = vocab_size при создании экземпляра CountVectorizer. В этом руководстве давайте ограничим размер словаря до 10 000:

    Теперь давайте посмотрим на 10 слов из нашего словаря:

      ['сериализация', 'частный', 'структура', 'общедоступный', 'класс', 'содержит ',' свойства ',' строка ',' сериализовать ',' попытка ']  

    Милый, это в основном связано с программированием.

    TfidfTransformer для вычисления IDF

    Пришло время вычислить значения IDF.

    В приведенном ниже коде мы, по сути, берем разреженную матрицу из CountVectorizer ( word_count_vector ) для генерации IDF, когда вы вызываете fit (...) :

    Чрезвычайно важный момент : IDF всегда должен быть основаны на большом корпусе и должны представлять тексты, которые вы будете использовать для извлечения ключевых слов. Я видел в Интернете несколько статей, в которых вычисление IDF выполняется с использованием нескольких документов. Вы проиграете целиком взвешивания IDF, если оно не основано на большом корпусе, например:

    1. ваш словарный запас становится слишком маленьким, а
    2. у вас ограниченная способность наблюдать за поведением слов, о которых вы действительно знаете.

    Вычисление TF-IDF и извлечение ключевых слов

    После того, как мы вычислили наш IDF, мы готовы вычислить TF-IDF, а затем извлечь основные ключевые слова из векторов TF-IDF.

    В этом примере мы извлечем основные ключевые слова для вопросов в data / stackoverflow-test.json . Этот файл данных содержит 500 вопросов с полями, идентичными полям data / stackoverflow-data-idf.json , как мы видели выше. Мы начнем с чтения нашего тестового файла, извлечения необходимых полей - заголовка и тела - и объединения текстов в список.

    Следующим шагом является вычисление значения tf-idf для данного документа в нашем тестовом наборе путем вызова tfidf_transformer.transform (...) . Это генерирует вектор оценок tf-idf.

    Затем мы сортируем слова в векторе в порядке по убыванию значений tf-idf и затем перебираем, чтобы извлечь первые n ключевых слов. В приведенном ниже примере мы извлекаем ключевые слова для первого документа в нашем тестовом наборе.

    Метод sort_coo (...) по существу сортирует значения в векторе с сохранением индекса столбца.Когда у вас есть индекс столбца, очень легко найти соответствующее значение слова, как вы могли бы видеть в extract_topn_from_vector (...) , где мы делаем feature_vals.append (feature_names [idx]) .

    Некоторые результаты!

    В этом разделе вы увидите вопрос о переполнении стека, за которым следуют соответствующие извлеченные ключевые слова.

    Вопрос об интеграции подключаемого модуля Eclipse
    Фактические извлеченные ключевые слова.

    Из приведенных выше ключевых слов главные ключевые слова действительно имеют смысл, они говорят о eclipse , maven , интегрировать , war и tomcat , которые все уникальны для этого конкретного вопроса.

    Есть пара ключевых слов, которые можно было бы исключить, например, , вероятность и, возможно, даже , проект . Вы можете сделать это, добавив больше общих слов в свой стоп-лист. Вы даже можете создать свой собственный стоп-лист, очень специфичный для вашего домена.

    А теперь давайте посмотрим на другой пример.

    Вопрос об импорте SQL
    Фактически извлеченные ключевые слова

    Даже со всеми тегами html, благодаря предварительной обработке, мы можем извлечь здесь несколько довольно хороших ключевых слов.Последнее слово , соответственно, можно квалифицировать как стоп-слово. Вы можете продолжать запускать разные примеры, чтобы получить представление о том, как улучшить результаты.

    Вуаля! Теперь вы можете извлекать важные ключевые слова из любого текста!

    Ресурсы

    Следите за моим блогом, чтобы узнать больше об интеллектуальном анализе текста, НЛП и машинном обучении с прикладной точки зрения.

    Эта статья изначально была опубликована на сайте kavita-ganesan.com.

    Извлечение ключевых слов из текста в Excel без кодирования

    Keyword Extractor API извлекает ключевые слова из текстовых данных.Он генерирует обширный список релевантных ключевых слов и фраз, чтобы сделать исследование более ориентированным на контекст. Keyword Extractor API может помочь в автоматизации резюмирования текста, улучшении SEO и создании облака ключевых слов. Это мощный инструмент для анализа текста, который можно использовать для индексации данных, создания облаков тегов и ускорения времени поиска.

    Во-первых, мы кратко познакомим вас с базовой технологией, управляющей API-интерфейсом ParallelDots Keyword Extractor.

    API экстрактора ключевых слов помогает находить самые важные ключевые слова в тексте.Оценка релевантности рассчитывается для каждого ключевого слова на основе статистического анализа, а результаты возвращаются с сортировкой по релевантности. Он использует известный алгоритм синтаксической сети Google и статистический анализ текста для извлечения важных ключевых слов из текстовых данных.

    Использование средства извлечения ключевых слов в надстройке ParallelDots для Excel

    Для начала вам необходимо сначала зарегистрировать учетную запись ParallelDots (если вы еще этого не сделали), а затем загрузить и установить надстройку Excel на свой компьютер.После установки следуйте инструкциям ниже

    1. Войдите в свою учетную запись надстройки ParallelDots Excel: введите свои учетные данные, чтобы активировать функции надстройки.
    2. Используйте функцию извлечения ключевых слов надстройки ParallelDots Excel:

    Используя функцию paralleldots_keywords , вы можете извлекать ключевые слова из любых текстовых данных.

    Рассмотрим следующий пример, где фраза «Роджер Федерер - самый высокооплачиваемый спортсмен в мире на 2020 год, поскольку пандемия COVID-19 сбила футболиста Лионеля Месси с вершины рейтинга».”Использует paralleldots_keywords для извлечения ключевых слов, как показано на изображении ниже:

    Наш API извлечения ключевых слов успешно генерирует обширный список наиболее релевантных ключевых слов и фраз. Это также делает процесс исследования ключевых слов для поисковой оптимизации более контекстным.

    API также можно использовать на 14 различных языках с помощью функции надстройки Excel paralleldots_keywords (Cell_Number, «lang_code»), как показано в примере ниже. Этот API обычно называется Multilingual Keyword Extractor.

    Также прочитайте здесь, как использовать API анализа настроений в Excel без написания кода.

    Зарегистрируйтесь, чтобы использовать надстройку ParallelDots Excel и начать свой путь к аналитике текста. Пожалуйста, напишите нам по адресу [email protected], если у вас возникнут какие-либо вопросы или отзывы.

    Щелкните здесь, чтобы узнать больше о функции надстройки ParallelDots для Excel.

    Если вы еще не загрузили надстройку, загрузите ее бесплатно отсюда.

    Ankit обладает более чем семилетним предпринимательским опытом, охватывающим различные роли в разработке программного обеспечения и управлении продуктами с использованием ИИ в своей основе.В настоящее время он является соучредителем и техническим директором ParallelDots. В ParallelDots он возглавляет группы разработчиков и разработчиков, которые создают решения корпоративного уровня, которые используются для нескольких клиентов из списка Fortune 100.
    Выпускник IIT Kharagpur, Анкит работал в Rio Tinto в Австралии, а затем вернулся в Индию, чтобы запустить ParallelDots.

    Последние сообщения Анкит Сингх (посмотреть все)

    Что такое ключевые слова и как их использовать?

    Последнее обновление

    Ключевое слово - это слово, которое люди отправляют вам, чтобы получить информацию по этой теме.Например, если вы создадите ключевое слово «Купон», когда кто-то отправит текстовое сообщение «Купон», они будут ожидать получения информации о купонах и аналогичных предложениях.

    Ключевые слова в основном используются по двум причинам:

    1. Чтобы отправить предустановленное сообщение любому, кто отправит текст по ключевому слову

    2. Чтобы создать группу подписчиков, чтобы вы могли обновлять их по этой теме по мере необходимости.

    Мы объясним это подробнее ниже, а также о том, как создавать ключевые слова, управлять подписчиками, отправлять сообщения с ключевыми словами и многое другое.

    Как создать ключевое слово

    1. Перейдите в раздел «Ключевые слова» в меню «Настройки».
    2. Нажмите кнопку «Добавить ключевое слово».
    3. Введите новое ключевое слово (например, ЗАДАНИЯ, Купоны и т. Д.). Это то, что люди будут писать вам, чтобы подписаться на это ключевое слово.
    4. Введите свой автоматический ответ (см. Ниже).
    5. Щелкните Далее.
    6. Убедитесь, что вы ввели правильную информацию, и нажмите «Купить».

    Об ответах по ключевым словам

    Ответы по ключевым словам - это сообщения, которые автоматически отправляются подписчикам, как только они вводят ключевое слово.Например, риэлтор может создать ключевое слово для дома и включить в ответ подробные сведения о нем.

    Они могли посоветовать людям: «Отправьте текст в OAKROAD на номер 423-218-0111, чтобы получить информацию об этом доме!» Как только кто-то напишет на OAKROAD, ему будет отправлен автоматический ответ - подробная информация о доме.

    Другой вариант - поблагодарить людей за выбор ключевого слова. В этом случае ваш автоматический ответ может быть таким: «Спасибо за подписку! Теперь вы будете получать обновления по [ключевому слову] ».

    Ответы не являются обязательными, но предоставляют отличные возможности для немедленного получения людьми нужной информации.

    Как отредактировать или удалить ключевое слово

    Ключевое слово нельзя изменить (вам нужно удалить его и создать новое), но вы можете изменить ответ по ключевому слову и контакты группы ключевых слов. Есть два способа редактировать контакты группы ключевых слов.

    Из ключевых слов в меню настроек

    1. Щелкните «Изменить» под ключевым словом, групповые контакты которого вы хотите изменить.
    2. В разделе «Подписчики ключевых слов» нажмите «Просмотр». Вы попадете на страницу контактов группы (т.е. страницу группы редактирования).
    3. Добавьте и удалите контакты по мере необходимости. Для получения дополнительной информации просмотрите нашу страницу контактов группы.

    Из групп под контактами Контакты

    1. Щелкните группу ключевых слов, контакты которой вы хотите отредактировать.
    2. Добавьте и удалите контакты по мере необходимости. Для получения дополнительной информации просмотрите нашу страницу контактов группы.

    Удаление ключевого слова

    1. Перейдите в раздел «Ключевые слова» в меню «Настройки».
    2. Щелкните Edit под ключевым словом, которое вы хотите удалить.
    3. Нажмите красную кнопку «Удалить» внизу.
    4. Подтвердить.

    Обратите внимание: удаление ключевого слова не приводит к удалению группы ключевых слов или контактов в ней. Однако вы можете изменить имя группы ключевых слов или удалить группу ключевых слов только после того, как было удалено ее ключевое слово.

    Как отправить сообщение подписчикам по ключевым словам

    Если вы создали ответ для своего ключевого слова, это сообщение будет автоматически отправлено всем новым подписчикам.Помимо автоматического ответа, отправка сообщения списку подписчиков по ключевым словам аналогична отправке любого другого группового сообщения.

    Как контакты отписываются по ключевым словам?

    Любой контакт, который пишет «СТОП [ключевое слово]», будет исключен из вашего списка ключевых слов. Однако они по-прежнему могут получать текстовые сообщения с вашего текстового номера. Если контакт отправляет сообщение просто «СТОП», вы больше не сможете отправлять текстовое сообщение этому контакту. Контакт также будет автоматически заархивирован. Для получения более подробной информации посетите нашу страницу «Архивирование контактов».

    В целях соответствия всем контактам отправляется сообщение об отказе от рассылки при первом отправке им текстового сообщения. Для ключевых слов сообщение об отказе от рассылки - «Ответить СТОП [Ключевое слово], чтобы отказаться от сообщений [Ключевое слово]. Ответьте STOP, чтобы отказаться от всех сообщений с этого номера ». Для получения дополнительной информации посетите нашу страницу SMS 101.

    .

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *