Как определить ключевые слова в тексте: Ключевые слова. Учимся понимать текст

Содержание

Rake, YAKE!, TextRank — NTA на vc.ru

Речь пойдет про алгоритмы выделения ключевых слов Rake, YAKE! И TextRank. Выделение ключевых слов становится все более актуальным с постоянным ростом объемов текстовой информации, которую необходимо каким-то образом классифицировать по тематике. Рассмотренные модели обладают интересными свойствами и преимуществами по сравнению с классическими алгоритмами, поскольку не требуют обучения.

1679 просмотров

В условиях значительного потока информации, в том числе и текстовой, появляется необходимость фильтровать ее автоматически, с помощью алгоритмов. Одним из возможных подходов к выделению смысла текста и оценке его релевантности является задача извлечения ключевых слов. Идея заключается в том, чтобы выделить слова или фразы, которые являются наиболее важными для всего текста и передают его основную тематику.

Алгоритмы без учителя обладают преимуществом в условиях большого объема данных – нет необходимости в разметке данных, которая для данной задачи является достаточно трудоемкой.

Дополнительной характеристикой методов, о которых пойдет речь, является отсутствие моделей. Все 3 метода основаны на эвристиках, которые заданы заранее, а не обучаются. Это позволяет обрабатывать каждый текст отдельно и не требует большой выборки текстов.

Основной идеей алгоритма является то, что ключевые слова зачастую находятся в окружении стоп-слов и пунктуации.

Обычно в множество стоп-слов входят предлоги, союзы и другие функциональные части речи. В большинстве приложений интеллектуального текстового анализа стоп-слова считаются незначимыми и убираются на этапе предобработки, однако в данном методе играют важную роль.

Стоп-слова и пунктуация расценивается как разделители фраз – текст разбивается по этим элементам на фразы кандидаты. Далее фразы-кандидаты ранжируются по метрике deg(w)/freq(w) и выбираются k кандидатов с наибольшим значением метрики.

Метрика основана на следующей логике:

  • freq(w) – Частота слова в тексте, поощряет часто встречающиеся слова
  • deg(w) — Определяется как сумма совместных появлений других слов с этим словом. Совместным появлением считается появление в одной фразе. Данная метрика поощряет слова, которые часто встречаются в длинных кандидатах
  • freq(w)/deg(w) – Поощряет слова, которые появляются в основном в длинных кандидатах

YAKE!

Этот метод похож по смыслу на Rake, однако была убрана идея о выделении фраз на основе стоп-слов. В данном методе используется стандартная для текстового анализа методика выделения слов и фраз с помощью токенизации. Фактически такая методика позволяет проверить все сочетания слов на их важность, а не только разделенные стоп-словами. YAKE! использует более сложную метрику, чем Rake – она собирается из 5 отдельных метрик.

Casing

Метрика Casing основана на идее о том, что ключевые слова зачастую могут быть названиями или аббревиатурами. Она измеряет количество раз, когда слово в тексте встречается с большой буквы или является аббревиатурой (написано полностью большими буквами).

Где:

  • TF(U(w)) – Количество раз, когда слово начинается с большой буквы
  • TF(A(w)) – Количество раз, когда слово отмечается алгоритмом, как аббревиатура (Состоит из больших букв)
  • TF(w) – Общая частота слова

Word Position

Авторы утверждают, что ключевые слова чаще стоят в начале текста. Из-за этого вводится метрика Word Position, которая учитывает положение слова относительно других.

Где:

  • Senw – множество позиций слова в документе

Word Frequency

Как и в Rake учитывается частота слова. В данном случае частота слова нормируется с учетом среднего и стандартного отклонения частоты:

Где:

  • TF(w) – Частота слова в тексте

Word Relatedness to Context

Авторы утверждают, что данная метрика способна оценивать насколько слово похоже на стоп-слово – насколько оно важно для контекста. Метрика использует количество слов, появляющихся слева и справа от слова-кандидата

Где:

  • WL – отношение количества слов слева от кандидата к количеству всех слов, которые появляются вместе с ним
  • WR – отношение количества слов справа от кандидата к количеству всех слов, которые появляются вместе с ним
  • PL – Отношение количества разных слов, которые появляются слева от кандидата к MaxTF
  • PR — Отношение количества разных слов, которые появляются справа от кандидата к MaxTF

Утверждается, что стоп-слова имеют высокое значение метрики WRel

DifSentence

Эта метрика учитывает количество предложений, в которых используется слово-кандидат.

Где:

  • SF(w) – Частота появления слова в предложениях
  • # Sentences – Количество предложений в тексте

Итоговая метрика

Итоговая метрика составляется из описанных выше метрик.

Далее происходит сортировка ключевых слов по этой метрике и выбирается k наиболее значимых.

TextRank

Метод TextRank наиболее сильно отличается от двух предыдущих. Он использует идею, что любой текст можно представить в виде графа, где слова являются вершинами, а связи между ними – ребрами графа. После переведения текста в графовое представление используется классическая метрика важности вершин графа PageRank.

Построение графа

Для построения графа вокруг каждого слова берется контекст – берутся все слова, которые находятся на расстоянии n-слов от главного. Например, для контекста размера 2 берутся два слова слева и два слова справа от текущего. Все слова в контексте текущего связываются с ним ребрами графа.

PageRank

Рассмотрим метрику, которая используется для выделения важных вершин на графе.

Где:

  • S(Vi)S(Vi) – важность i-ой вершины
  • In(Vi)In(Vi) – множество вершин, имеющих входящие в i-ую вершину ребра
  • Out(Vi) – множество вершин, связанных с i-ой вершиной исходящими из нее ребрами
  • dd –Коэффициент затухания, выбирается пользователем

Важность инициализируется случайными числами и потом итеративно сходится к правильным значениям.

Таким образом, важность слова определяется связью с другими важными словами.

Python-реализация алгоритмов

Для демонстрации работы алгоритмов используем текст про алгоритм Евклида из Википедии.

TextRank

Все три алгоритма решают одну и ту же задачу с разных сторон и с использованием разной логики. Результаты работы алгоритмов из-за этого отличаются. Нельзя однозначно сказать, какой из них лучше решает конкретную задачу. На отдельной задаче имеет смысл тестировать качество каждого из алгоритмов и делать выбор исходя из этого.

Как оптимизировать плотность ключевых слов на сайте: пошаговая инструкция

2649 24 2

SEO – Читать 14 минут

Прочитать позже

Анастасия Сотула

Редактор блога Serpstat

Нередко у специалистов по поисковому продвижению существует сильное искушение добавить как можно большее количество ключевых слов в созданный контент. Однако Google вряд ли понравится подобная «оптимизация», и в результате вы можете столкнуться с серьезным штрафом за переспам. Тем не менее, добавлять релевантные ключевики в текст можно и нужно. В конце концов, без этого SEO становится практически невозможным.

Наряду с качественным контентом и оптимизированным дизайном, ранжирование по правильным запросам помогает вашему сайту выделиться из толпы и стать ближе к вершине страниц результатов поисковых систем (SERP).

Содержание

1. Плотность ключевых слов: что это
2. Как рассчитать плотность ключевых слов на странице
3. Оптимальное количество ключевых слов для сайта: как определить
— Небольшой трюк, или как определить плотность ключевых слов, которая работает
4. Грамотное вхождение ключевых слов: как добавить на страницу
5. Ключевые слова LSI: что это и какую роль они играют
6. Как проверить плотность ключевых слов в тексте
FAQ
Заключение

Но, сколько ключевых слов должно быть в тексте? Как определить те самые значения «много» или «мало»? В нашем руководстве мы рассмотрим основы, разберемся, почему плотность ключевых слов важна, и предложим функциональные формулы и простые инструменты, которые помогут убедиться, что ваши SEO стратегии работают должным образом. Поехали!

Плотность ключевых слов: что это

Начнем с определений. Плотность вхождения ключевых слов в SEO – это отношение целевого поискового запроса к общему количеству слов на странице. Также равнозначно используется термин «частота ключевых слов».

Какое бы название вы не выбрали, сути это не меняет: данный показатель по-прежнему является неотъемлемой частью хорошей поисковой оптимизации. Только грамотно оптимизированный контент выходит вперед.

Почему частота вхождения ключевых слов важна для стратегии SEO?

Сегодня процесс ранжирования не такой, как раньше. После того, как Google поумнел и пересмотрел свои алгоритмы проверки вхождения ключевых слов, поисковая оптимизация стала больше ориентироваться на создание привлекательного и информативного контента. Стратегия «чем больше раз используешь запрос, тем лучше» канула в небытие.

Означает ли это, что плотность ключевых слов в тексте теперь не важна? На самом деле все с точностью до наоборот. Когда Google или другая поисковая система просматривает контент на веб-сайте, они не читают содержание страницы в привычном нам смысле. Вместо этого поисковик сканирует текст, чтобы найти определенные слова, которые встречаются чаще других.

Естественно, он пропускает различные предлоги, без которых повседневная речь в принципе невозможна. Он ищет потенциальные поисковые запросы. Чем выше плотность ключевых слов, тем больше вероятность, что вся страница посвящена этой теме.

Таким образом, для SEO по-прежнему важно уделять внимание поисковым запросам при создании контента. Но, в отличие от прошлого, это больше касается общего контекста текста, а не использования конкретного термина столько раз, сколько возможно.

Как рассчитать плотность ключевых слов на странице

Наверняка, чтобы грамотно оптимизировать контент для своего сайта, вы захотите определить, какая оптимальная плотность ключевых слов должна присутствовать в статье. На самом деле, сделать это очень просто. Подсчет производится по простой математической формуле:

ЧКС = КПС / ОКС * 100.

Где,

  • ЧКС – это количество ключевых слов в тексте;
  • КПС – количество повторений слова;
  • ОКС – общее количество слов в документе.

Например, вы пишите статью про поисковую оптимизацию. Аббревиатура SEO у вас будет использоваться 20 раз, а общее количество слов в тексте – 1000. Тогда по формуле (20/1000)*100, получаем плотность ключевых слов равную 2%.

Если же вы хотите рассчитать частоту фразы в документе, то понадобится немного другая формула:

(КПФ * КСФ/ОКС) *100.

Где,

  • КПФ – количество повторений фразы в документе;
  • КСФ – количество слов во фразе;
  • ОКС – общее количество слов в тексте.

Данные формулы полезны при определении оптимальной частоты вхождений в контенте, который вы только планируете создать. Для готовых статей существует так называемый SEO анализатор текста. Это специальные платформы или программное обеспечение, созданное для автоматизации ряда задач специалистов по поисковому продвижению. Подобные сервисы позволяют проверить плотность ключевых слов онлайн, провести полный семантический анализ текста, указав точные значения воды, тошноты и других параметров, учитываемых поисковиками. О них мы поговорим далее в нашей статье.

Оптимальное количество ключевых слов для сайта: как определить

Если вы используете текст с небольшим количеством релевантных запросов, поисковые системы могут просто не обратить на него внимания. В то же время, если страницы переполнены ключевыми словами, роботы поисковиков могут счесть это за спам, оштрафовать ваш сайт или даже исключить его из индексации.

Что больше всего разочаровывает в этом, так это то, что нет никаких правил, указывающих на идеальное соотношение длины текста и как часто вхождения ключевых слов должны в нем повторяться.

Некоторые маркетологи клянутся, что 1-2% – это идеальное значение частоты, другие отвечают, что она не должно превышать 4%. При всем этом оптимальная плотность ключевых слов для Яндекса и Google будет отличаться.

На самом же деле, все сводится к общей длине вашего текста. Очевидно, что 4%-ная плотность для статьи из 1500 слов будет более естественной, чем такая же величина в аннотации из 1000 символов. Поэтому, в первую очередь, стремитесь к тому, чтобы ваш контент звучал естественно, а определение ключевых слов в тексте была практически непосильной задачей для читателя в виду их максимальной органичности.

С этим соглашается и Мэтт Каттс из Google, указывая на то, что лучше написать длинный текст и естественным образом вставить в него необходимые запросы: «Прочтите свою статью вслух или попросите кого-нибудь прочесть ее. Если контент не раздражает и не утомляет другого человека, значит, у вас все хорошо».

Небольшой трюк, или как определить плотность ключевых слов, которая работает

Чтобы достичь идеала, вы можете попробовать 100 раз, совершив 99 ошибок. Или же есть более безболезненный способ узнать лучшую плотность ключевых слов онлайн, не набивая собственные шишки? Ответ прост: посмотрите, что сделали те, кто уже достиг вашей желаемой цели.

Для SEO это золотое правило работает как нельзя лучше: ваш конкурент – лучший советчик! И это действительно так. Ваши конкуренты, занимающие первые места в поисковой выдаче, уже определили методом проб и ошибок, какая должна быть плотность ключевых слов. Вам остается только проанализировать их страницы и сделать свой контент еще лучше.

Грамотное вхождение ключевых слов: как добавить на страницу

Как только контент будет готов, вам нужно добавить поисковые запросы и обеспечить достаточное количество ключевых слов на странице. Однако, чтобы оптимизировать статью правильно, важно понимать, где именно использовать ключевики.

Давайте рассмотрим, где должны быть размещены релевантные вхождения в сео тексте:

  1. Заголовок. Это не только то, что пользователь видит первым при поиске, и благодаря чему принимает решение о том, читать или не читать дальше. Оптимизированный заголовок также помогает алгоритму Google знать, о чем ваш контент, и позволяет сайту получить более высокий рейтинг поиска.
  2. Title. Данный метатег является небольшой аннотацией, которая попадает в поисковую выдачу, поэтому в него важно вписать самый важный запрос.

3. Подзаголовки. Убедитесь, что вы используете хотя бы один заголовок второго уровня h3, а также не забудьте проверить вхождение ключевых слов в нем.

4. Основное содержание страницы. Ключевые слова в тексте – это важный элемент его оптимизации для поисковых систем. Именно в теле статьи необходимо использовать большую часть вхождений, достигая оптимальной частоты. После того, как все запросы будут вставлены, обязательно проведите анализ плотности ключевых слов онлайн. Для эффективного SEO продвижения проверка текста на академическую тошноту важна, поэтому не пренебрегайте ею.

5. URL. Размещение ключевых слов в веб-адресе страницы также поможет вам повысить рейтинг, поскольку алгоритмы Google сначала считывают его.

Ключевые слова в веб-адресе страницы URL

Как вы уже знаете, проверка частотности ключевых слов в тексте позволяет определить не заспамлена ли страница поисковыми запросами. Однако помимо количества вхождений для грамотного SEO-продвижения также имеет значение и то, где вы их размещаете. Добавляйте ключевики равномерно, не забывая оптимизировать все элементы контента.

Ключевые слова LSI: что это и какую роль они играют

Скрытое семантическое индексирование – это алгоритм, используемый поисковыми системами для обнаружения слов, похожих на основные SEO фразы в контенте (LSI). Данный механизм помогает поисковикам лучше понять, о чем ваш текст, и, таким образом, показывать его целевой аудитории.

Ключевые слова LSI

Ключевые слова LSI играют интересную роль в SEO, которая выходит далеко за рамки исключительно технической оптимизации:

  1. Создание контента, который любят поисковые системы. Раньше использовалась тактика добавления большого количества поисковых запросов для повышения рейтинга в выдаче. Сегодня, как мы уже упоминали, подобные методы наказуемы. Так как оптимизировать текст, избегая переспама вхождениями? Здесь на сцену и выходят ключевые слова LSI, позволяющие использовать синонимы основных поисковых запросов из семантического ядра. Это придает контенту более естественный вид, а также оказывает положительное влияние на семантический анализ текста и его результаты.
  2. Вовлеченность читателей. Если вы поставите себя на место пользователя, то поймете, что текст, в котором из предложения в предложение упоминается одно и то же слово, вряд ли можно назвать интересным и вызывающим желание продолжать чтение. В сети Интернет доступно огромное количество информации, поэтому проще найти другой сайт, чем мучить себя горе-оптимизированной статьей. Ключевики LSI позволяют разбавлять содержание разнообразными словами и писать тексты, которые будут одинаково хорошо восприняты как поисковыми машинами, так и пользователями.
  3. Повышение рейтинга в поисковых системах. LSI помогают создавать уникальный контент по одной и той же теме, сохраняя его высокое качество. Поисковые системы ценят страницы, содержание которых грамотно оптимизировано и интересно пользователям, что, в свою очередь, положительно сказывается на рейтинге сайта в выдаче.

Неважно, прописываете ли вы ключевые слова в Ворде или любой другой программе, уделите особое внимание подбору LSI фраз. Их наличие в тексте положительно скажется не только на качестве контента, но и его индексировании поисковиками.

Как проверить плотность ключевых слов в тексте

Если вы предпочитаете олдскульные методы, то проверка ключевых слов в тексте может быть проведена вручную, используя формулы, которые мы давали выше. Однако сегодня имеется множество удобных онлайн инструментов, которые в считанные секунды и с предельной точностью произведут подсчет.

Рассмотрим лишь некоторые из них:

  • Advego. Данный SEO анализатор текста позволяет бесплатно провести анализ плотности ключевых слов, а также определить ряд других параметров. Специальное обучение не требуется: интерфейс построен таким образом, что разобраться с ним сможет любой человек. Также, используя данный инструмент, вы сможете проверить текст на воду, тошноту, а также посмотреть не только процентное соотношение, но и количество вхождений.

Анализатор ключевых слов Advego

  • Serpstat. Это многофункциональная SEO-платформа, которая позволяет достаточно точно определить плотность ключевых слов, проверить вхождения в метатегах. Чтобы начать работу, необходимо добавить собранную семантику на сайт и кластеризировать ее.

Семантика и кластеризация в Serpstat

Текстовая аналитика ключевого слова

  • Istio. Еще один бесплатный анализатор плотности ключевых слов. Чтобы начать работу с сервисом, достаточно просто добавить свой текст или же ссылку на страницу, если он уже залит на сайт. После этого несложного действия вам будет доступна проверка плотности ключевых слов онлайн.

Анализатор плотности ключевых слов Istio

С современными технологиями анализ ключевых слов в тексте не вызовет сложностей даже у новичка. Процедура занимает считанные секунды, и в результате вы получаете развернутые данные, на основании которых можете улучшать контент. А если вы задаетесь вопросом, что означает в ключевых словах тот или иной параметр, в каждом анализаторе вы найдете подробные объяснения.

Хотите узнать, как с помощью Serpstat оптимизировать сайт?
Нажимайте на космонавта и заказывайте бесплатную персональную демонстрацию сервиса! Наши специалисты вам все расскажут! 😉

Что такое плотность ключевых слов?

Это соотношение числа вхождений поискового запроса к общему количеству слов в тексте.

Какой использовать сервис проверки плотности ключевых слов?

Проверка плотности ключевых слов может быть осуществлена с помощью разных сервисов, таких как Advego, Serpstat, Istio и других. Они также позволяют проверить текст на воду. Вам нужно попробовать и выбрать тот, который будет наиболее удобным именно для вас.

Где взять ключевые слова для целевого поиска?

Подбор ключевых слов может производится в ручном режиме, используя, например, Google поиск, сайты конкурентов и т.д., а также при помощи специальных инструментов, таких как Keyword Tool.

Как не переборщить с плотностью ключевых слов?

Когда вы закончили поиск ключевых слов, в Ворде составьте также список LSI фраз, которые помогут наполнить контент синонимами и не спамить основными поисковыми запросами.

Заключение

Поисковые системы – это не люди. Они не читают ваш контент, а просто оценивают его по ряду факторов. Если вы используете правильное сочетание ключевых слов, ссылочного веса и стратегий обратных ссылок, вам удастся получить хороший рейтинг в поисковой выдаче.

Одним из ключевых моментов для поисковых систем сегодня является качество контента. Следовательно, не перегружайте свой сайт релевантными вхождениями без надобности и не недооценивайте определение плотности ключевых слов. Семантически богатый, интересный, уникальный и грамотно оптимизированный текст – ваш билет на верхние позиции в поисковой выдаче.

Чтобы быть в курсе всех новостей блога Serpstat, подписывайтесь на рассылку. А также вступайте в чат любителей Серпстатить и подписывайтесь на наш канал в Telegram.

Сэкономьте время на изучении Serpstat

Хотите получить персональную демонстрацию сервиса, тестовый период или эффективные кейсы использования Serpstat?

Оставьте заявку и мы свяжемся с вами 😉

Оцените статью по 5-бальной шкале

4.81 из 5 на основе 14 оценок

Нашли ошибку? Выделите её и нажмите Ctrl + Enter, чтобы сообщить нам.

Рекомендуемые статьи

SEO

Инна Arsa

Голосовой поиск: как получать больше трафика из мобильной выдачи

SEO +1

Анастасия Сотула

Топ-20 SEO-мифов и заблуждений

SEO

Станислав Романов

Как онлайн-школам получить первых клиентов? 10 приемов

Кейсы, лайфхаки, исследования и полезные статьи

Не успеваешь следить за новостями? Не беда! Наш любимый редактор подберет материалы, которые точно помогут в работе. Только полезные статьи, реальные кейсы и новости Serpstat раз в неделю. Присоединяйся к уютному комьюнити 🙂

Нажимая кнопку, ты соглашаешься с нашей политикой конфиденциальности.

Поделитесь статьей с вашими друзьями

Вы уверены?

Спасибо, мы сохранили ваши новые настройки рассылок.

Сообщить об ошибке

Отменить

Обзор методов извлечения ключевых слов

[Эта статья была впервые опубликована на bnosac ::открытые аналитические помощники и любезно предоставлены R-блогерами]. (Вы можете сообщить о проблеме с содержанием на этой странице здесь)


Хотите поделиться своим контентом с R-блогерами? нажмите здесь, если у вас есть блог, или здесь, если у вас его нет.

В этом блоге мы покажем 6 методов извлечения ключевых слов, которые позволяют находить ключевые слова в простом тексте . Ключевые слова — это часто встречающиеся слова, которые каким-то образом встречаются вместе в простом тексте. Типичными примерами являются Нью-Йорк, Монте-Карло, смешанные модели, брюссельский транспорт, общественный транспорт, центральный вокзал, p-значения, …

. более релевантное для бизнеса краткое изложение текста. Для этого мы будем использовать пакет R udpipe (документы по адресу https://CRAN.R-project.org/package=udpipe или https://bnosac.github.io/udpipe/en), который является ядром R. пакет, необходимый для выполнения этого типа обработки t ext. В основном мы покажем, как легко извлекать ключевые слова следующим образом:

1. Поиск ключевых слов с помощью тегов частей речи для идентификации существительных
2. Поиск ключевых слов на основе словосочетаний и совпадений
3. поиск ключевых слов на основе алгоритма Textrank
4. поиск ключевых слов на основе RAKE (быстрое автоматическое извлечение ключевых слов)
5. Поиск ключевых слов путем поиска фраз (именных фраз / глагольных фраз)
6. Поиск ключевых слов на основе результатов анализа зависимостей (получение темы текста)

Эти методы позволят вам перейти от показа глупых графиков слов к более релевантным графикам, содержащим ключевые слова.

Пример

В качестве примера мы собираемся использовать

отзыв на испанском языке клиентов, посещающих квартиру AirBnB в Брюсселе . Эти данные являются частью пакета udpipe R. Мы извлекаем испанский текст и аннотируем его с помощью пакета udpipe R. Annotation выполняет токенизацию , тегирование частей речи, лемматизацию и анализ зависимостей .

 библиотека (водопровод)
библиотека (textrank)
## Первый шаг: Возьмите испанскую модель udpipe и аннотируйте текст. Примечание: это занимает около 3 минут
данные (brussels_reviews)
комментарии <- подмножество (brussels_reviews, язык %in% "es")
ud_model <- udpipe_download_model (язык = "испанский")
ud_model <- udpipe_load_model(ud_model$file_model)
x <- udpipe_annotate (ud_model, x = комментарии $ обратная связь)
x <- as. data.frame(x) 

Когда у нас есть аннотация, поиск ключевых слов становится проще простого. Покажем, как это легко сделать.

Вариант 1: Извлечение только существительных

Самый простой способ найти ключевые слова — просмотреть существительных . Поскольку у каждого термина есть тег Parts of Speech, если вы аннотировали текст с помощью пакета udpipe, вы можете легко сделать это следующим образом.

 stats <- subset(x, upos %in% "NOUN")
статистика <- txt_freq(x = статистика$лемма)
библиотека (решетка)
stats$key <- factor(stats$key, level = rev(stats$key))
barchart(key ~ freq, data = head(stats, 30), col = "cadetblue", main = "Наиболее часто встречающиеся существительные", xlab = "Freq") 

Вариант 2: Сочетания и совпадения

Хотя существительные — отличное начало, вас, вероятно, интересуют многословные выражения. Вы можете получить многословное выражение, глядя либо на словосочетания (слова, следующие друг за другом), либо на совпадения слов в каждом предложении, либо на совпадения слов, которые находятся близко друг к другу. Эти подходы можно реализовать следующим образом с помощью пакета udpipe R. Если мы объединим это с выбором только существительных и прилагательных , это становится уже приятно.

 ## Словосочетание (слова, следующие друг за другом)
статистика <- keywords_collocation(x = x,
термин = "токен", группа = c ("doc_id", "paragraph_id", "sentence_id"),
ngram_max = 4)
## Совпадения: как часто слова встречаются в одном и том же предложении, в данном случае только существительные или прилагательные.
статистика <- совпадение(x = подмножество(x, upos %in% c("СУЩЕСТВИТЕЛЬНОЕ", "ADJ")),
термин = "лемма", группа = c("doc_id", "paragraph_id", "sentence_id"))
## Совместные появления: как часто слова следуют друг за другом
статистика <- совпадение(x = x$лемма,
релевантно = x$upos %in% c("СУЩЕСТВИТЕЛЬНОЕ", "ADJ"))
## Совместное появление: как часто слова следуют друг за другом, даже если мы пропустим 2 слова между ними.
статистика <- совпадение(x = x$лемма,
релевантно = x$upos %in% c("СУЩЕСТВИТЕЛЬНОЕ", "ADJ"), skipgram = 2)
голова (статистика)
term1     term2 cooc
Баррио Тихийо   36
estacion      трен   30
общественный транспорт 23
центро    сьюдад   23
плено    центро   20
вокзал   центральный   19

Визуализировать эти совпадения можно с помощью сетевого графика для 30 наиболее часто встречающихся существительных и прилагательных.

 библиотека (igraph)
библиотека (ggraph)
библиотека (ggplot2)
wordnetwork <- голова (статистика, 30)
wordnetwork <- graph_from_data_frame(wordnetwork)
ggraph(wordnetwork, layout = "fr") +
geom_edge_link (aes (width = cooc, edge_alpha = cooc), edge_color = "розовый") +
geom_node_text (aes (метка = имя), col = "темно-зеленый", размер = 4) +
theme_graph (base_family = "Arial Narrow") +
тема (легенда.позиция = "нет") +
labs(title = "Сочетания на расстоянии 3 слов", subtitle = "Существительные и прилагательные") 

Вариант 3: TextRank (сеть слов, упорядоченная Google Pagerank)

Другой подход для обнаружения ключевых слов — Textrank . Textrank — это алгоритм, реализованный в пакете textrank R. Алгоритм позволяет суммировать текст, а также позволяет извлекать ключевые слова. Это делается путем построения сети из слов путем проверки того, следуют ли слова друг за другом. Вдобавок к этой сети применяется алгоритм «Google PageRank» для извлечения релевантных слов, после чего релевантные слова, следующие друг за другом, объединяются для получения ключевых слов. В приведенном ниже примере нас интересует поиск ключевых слов с использованием этого алгоритма существительных или прилагательных, следующих друг за другом. На графике ниже видно, что ключевые слова объединяют слова в многословные выражения.

 статистика <- textrank_keywords(x$lemma,
релевантно = x$upos %in% c("СУЩЕСТВИТЕЛЬНОЕ", "ADJ"),
ngram_max = 8, sep = "")
stats <- subset (stats$keywords, ngram > 1 и freq >= 5)
библиотека (облако слов)
wordcloud(words = stats$keyword, freq = stats$freq) 

Вариант 4: Быстрое автоматическое извлечение ключевых слов: RAKE

Следующий базовый алгоритм называется RAKE, что является аббревиатурой от Rapid Automatic Keyword Extraction . Он ищет ключевые слова, просматривая непрерывную последовательность слов, не содержащую нерелевантных слов. А именно путем

  1. вычисления балла для каждого слова, которое является частью любого ключевого слова-кандидата, это делается с помощью
    • среди слов ключевых слов-кандидатов алгоритм проверяет, сколько раз встречается каждое слово и сколько раз оно встречается вместе с другими словами
    • Каждое слово получает балл, который представляет собой отношение степени слова (сколько раз оно встречается вместе с другими словами) к частоте слова
  2. оценка RAKE для полного ключевого слова-кандидата рассчитывается путем суммирования оценок каждого из слов, определяющих ключевое слово-кандидат
 статистика <- keywords_rake(x = x,
термин = "токен", группа = c ("doc_id", "paragraph_id", "sentence_id"),
релевантно = x$upos %in% c("СУЩЕСТВИТЕЛЬНОЕ", "ADJ"),
ngram_max = 4)
голова (подмножество (статистика, частота> 3))
               ключевое слово ngram freq     rake
идеальные условия     2    4 2. 000000
уникальная пега     2    7 2.000000
большое место     2    6 1,

0 большие анфитрионы     2    4 1,809717 общественный транспорт     2   21 1.685714 buenos anfitriones     2    9 1.662281

Вариант 5: Фразы

Следующий вариант — извлечь фразы. Они определяются как последовательность тегов частей речи . Распространенным типом фраз являются именные фразы или глагольные фразы. Как это работает? Части тегов Speech перекодируются в одну из следующих однобуквенных букв: (A: прилагательное, C: сочинительный союз, D: определитель, M: модификатор глагола, N: существительное или собственное имя, P: предлог). Затем вы можете определить регулярное выражение, чтобы указать последовательность тегов частей речи, которые вы хотите извлечь из текста.

 ## Простые словосочетания существительных (прилагательное+существительное, пре-/постпозиция, необязательный определитель и другое прилагательное+существительное)
x$phrase_tag <- as_phrasemachine(x$upos, type = "upos")
статистика <- keywords_phrases(x = x$phrase_tag, term = x$token,
шаблон = "(A|N)+N(P+D*(A|N)*N)*",
is_regex = TRUE, ngram_max = 4, подробно = FALSE)
голова (подмножество (статистика, ngram > 2))
                        ключевое слово ngram freq
Гар дю Миди     3   12
pleno centro de Bruselas     4    6
15 минут на пирог     4    4
нет явных дел     3    4
первый опыт с Airbnb     4    3
Северный вокзал     3    3 

Вариант 6: Используйте выходные данные синтаксического анализа зависимости для получения номинального предмета и его прилагательного

В последнем варианте мы покажем, как использовать результаты синтаксического анализа зависимостей . Когда вы выполнили аннотацию с помощью udpipe, поле dep_rel указывает, как слова связаны друг с другом. Токен связан с родителем с помощью token_id и head_token_id . Поле dep_rel указывает, как слова связаны друг с другом. Типы отношений определены на http://universaldependencies.org/u/dep/index.html. Для этого упражнения мы возьмем слова, которые имеют отношение зависимости 9.0140 nsubj , указывающий на номинальный предмет , и мы добавляем к этому прилагательное, которое изменяет номинальный предмет.

Таким образом, мы можем сочетать то, о чем говорят люди, с прилагательным, которое они используют, говоря о предмете.

 статистика <- объединить(х, х,
by.x = c("doc_id", "paragraph_id", "sentence_id", "head_token_id"),
by.y = c("doc_id", "paragraph_id", "sentence_id", "token_id"),
все.х = ИСТИНА, все.у = ЛОЖЬ,
суффиксы = c("", "_parent"), sort = FALSE)
stats <- subset(stats, dep_rel %in% "nsubj" & upos %in% c("NOUN") & upos_parent %in% c("ADJ"))
stats$term <- вставить(stats$lemma_parent, stats$lemma, sep = "")
статистика <- txt_freq(stats$term)
библиотека (облако слов)
wordcloud(words = stats$key, freq = stats$freq, min. freq = 3, max.words = 100,
random.order = FALSE, colors = brewer.pal(6, "Dark2")) 

Теперь дело за вами. Можете ли вы сделать то же самое в своем собственном тексте?

Кредиты: Этот анализ был бы невозможен без аннотированных банков деревьев на испанском языке (https://github.com/UniversalDependencies/UD_Spanish-GSD, в частности, доступных через http://universaldependencies.org) и UDPipe C++ библиотека и модели предоставлены Миланом Стракой (https://github.com/ufal/udpipe). Все кредиты должны идти туда.

К оставить комментарий для автора, перейдите по ссылке и прокомментируйте в их блоге: bnosac :: открыть аналитические помощники .


R-bloggers.com предлагает ежедневных обновления по электронной почте новостей R и руководств по изучению R и многим другим темам. Нажмите здесь, если вы хотите опубликовать или найти работу R/data-science.


Хотите поделиться своим контентом с R-блогерами? нажмите здесь, если у вас есть блог, или здесь, если у вас его нет.

Как найти правильные ключевые слова в понимании прочитанного?

Чтение часто воспринимается многими студентами как вызов для IELTS. Но если принять надлежащие стратегии чтения с беглым просмотром и сканированием, эту проблему можно преодолеть. Одним из важных действий при беглом просмотре является поиск ключевых слов в отрывке и их подчеркивание.

Во время сканирования вы также можете пометить ключевые слова в вопросе как вашу склонность сопоставлять их с похожими словами в отрывке. Поскольку отрывки длинные и сложные, выяснение ключевых слов поможет вам читать более эффективно.
1. Найдите ключевые слова в прочитанном отрывке
Важной частью беглого просмотра отрывка является подчеркивание ключевых слов. Пока вы читаете отрывок, вы можете определить важные ключевые слова в абзацах, которые также помогут вам лучше понять данную информацию.

  • В этот раз вам следует подчеркнуть ключевые слова, чтобы понять абзац, извлекая из него важную информацию.
  • Вы определенно можете подчеркнуть некоторые ключевые слова, такие как имена, местоположения, факты, цифры и т. д.

Например:

  • Имена (имена ученых, людей и т. д., вовлеченных в историю)
  • Места (город, город, страна и т. д.)
  • Годы или даты (1978, 12
  • 5 06 окт. 90 1982 и т. д.)
  • Цифры (1,2 миллиона, 20000 и т. д.)
  • Вы можете пометить любое слово или фразу, написанные с заглавной буквы, например. названия книг, названия событий и т. д.

Причина выделения этих ключевых слов заключается в том, чтобы найти удобную ссылку из отрывка. Если у вас есть вопрос, относящийся к 19 году78, вам было бы легко найти его в отрывке, если бы вы уже подчеркнули его при чтении отрывка. В противном случае вам пришлось бы прочитать весь отрывок, чтобы найти, где упоминается 1978 год, и, следовательно, это отняло бы ваше время.

2. Найдите ключевые слова в вопросах для чтения

В процессе сканирования, т. е. поиска ответа на вопрос, вам сначала необходимо внимательно прочитать вопрос, чтобы найти важные ключевые слова, которые вы можете отметить, и в то же время понять смысл вопроса.

 

Иногда ваши ключевые слова являются синонимами или похожими словами, а не точным ключевым словом, как указано в отрывке, и, следовательно, вы можете попытаться понять его значение, чтобы правильно связать его с нужным абзацем. Однако близлежащие слова и умение перефразировать помогут вам понять смысл вопроса.
Давайте возьмем пример  о том, как найти рассматриваемые ключевые слова и похожие ключевые слова в отрывке.

 

Вопрос:

Рекомендации  о __________________ даны  будущей жене .

 

Заявление о прохождении:

Ее гости часто дразнят невесту  о ее муже и дают ей советы  о супружеской жизни.

 

Ключевые слова в вопросе Похожие ключевые слова в параграфе
Рекомендации Advice0265
About About
Are Given Give
Wife-to-be Bride
ANSWER: MARRIED LIFE

 

Explanation is as follows :
Если вы прочитали вопрос, вы можете определить ключевые слова, такие как «будущая жена», «рекомендации» и слово рядом с пробелом «о».

Таким образом, может случиться так, что ключевые слова вопроса не совпадают с тем, что в отрывке. В этом случае вам может понадобиться перефразировать их или выяснить их значение. Здесь, в отрывке, слово «невеста» используется вместо «будущая жена» и «совет» вместо «рекомендации».

Кроме того, следует отметить, что рассматриваемое слово «дается» грамматически перефразируется как «дать» в утверждении отрывка.

Еще одна важная вещь, на которую следует обратить внимание, это то, что слово «примерно» — это точно такое же слово рядом с пробелом в вопросе, какое вы можете найти в утверждении отрывка.

Таким образом, вы можете найти ответ как «супружеская жизнь».

*Примечание. Всегда помните, что совпадающие ключевые слова помогут вам найти абзац и его утверждения для справки, но, в конце концов, все зависит от понимания вопроса, без которого ответы будут неверными. Следовательно, вам следует вместо этого попытаться сопоставить информацию или значение.

Практические вопросы
Вопрос 1:

Прочитайте следующие короткие отрывки и вопросы, чтобы узнать ключевые слова. Заполните ключевые слова в таблице ниже:

Сверхтвердый металл был получен в лаборатории путем сплавления титана и золота. По словам американских физиков, этот сплав является самым твердым из известных металлических веществ, совместимых с живыми тканями. По их словам, этот материал в четыре раза тверже чистого титана и может применяться для изготовления долговечных медицинских имплантатов.

Источник: http://www.bbc.com/news/science-environment-36855705

Самое твердое вещество, открытое в лаборатории, образовано соединением титана и золота после того, как они ……………

Keywords in question Similar keywords in paragraph
   
   
   

 

Вопрос 2:

Землетрясения представляют постоянную опасность для тех, кто живет вдоль Апеннинского хребта в Италии. На протяжении столетий тысячи людей погибли в результате подземных толчков, равных или ненамного более сильных, чем то, что произошло ранним утром в среду.

http://www.bbc.com/news/science-environment-37176502
Какой части Италии постоянно угрожают землетрясения?

Keywords in question Similar keywords in paragraph
   
   
   

 

Question 3:

But look closer at the специфика любого землетрясения и детали гораздо сложнее. Тирренский бассейн или море, лежащее к западу от Италии, между материком и Сардинией/Корсикой, медленно раскрывается. Ученые говорят, что это способствует расширению или «растягиванию» Апеннин, которое работает со скоростью 3 мм в год. Добавьте к этому движение в Адриатике, где земная кора вращается против часовой стрелки, и вы получите чертовски сложную картину. Италию буквально толкают и тянут во все стороны.

http://www.bbc.com/news/science-environment-37176502

 

При глубоком изучении подробностей землетрясения обнаруживается, что оно очень _________

7 Ключевые слова in question
Similar keywords in paragraph
   
   
   

 

Вопрос 4:

Все мы помним событие 2009 года в Аквиле (магнитудой 6,3), в результате которого погибло 295 человек. Но вернемся еще дальше к Авеццано (магнитуда 6,9-7,0) в 1915 году, унесшем 30 000 жизней; и до 1703 года, когда в результате трех землетрясений магнитудой 6 погибло не менее 10 000 человек. К счастью, мы больше не видим смертей такого масштаба, и это из-за более надежного строительства, лучшей подготовки и более скоординированного реагирования на чрезвычайные ситуации постфактум. .

http://www.bbc.com/news/science-environment-37176502

 

Что из перечисленного НЕ является причиной того, что при землетрясениях силой от 6 до 7 баллов погибают редко?

  1. Good planning and preparation
  2. Quakes are not seen anymore
  3. Effective construction of buildings
  4. Handling emergency situation well
Keywords in question Similar keywords in paragraph
   
. Тирренский бассейн или море, лежащее к западу от Италии, между материком и Сардинией/Корсикой, медленно раскрывается. Ученые говорят, что это способствует расширению или «растягиванию» Апеннин, которое работает со скоростью 3 мм в год. Добавьте к этому движение в Адриатике, где земная кора вращается против часовой стрелки, и вы получите чертовски сложную картину. Италию буквально толкают и тянут во все стороны.

http://www.bbc.com/news/science-environment-37176502

 

Значительный эффект можно наблюдать в западном регионе Италии, где находится (i)_________. Установлено, что она постепенно расширяется, приводя к ситуации  (ii)_________ со скоростью (iii)_____ в год.

 

 
Ключевые слова, о которых идет речь Похожие ключевые слова в параграфе
 0260
   
   

ANSWERS:

1.

Keywords in question Similar keywords in paragraph
Hardest substance Сверхтвердый металл
Обнаружен в лаборатории Изготовлен в лаборатории
Комбинация Вместе
ANSWER: MELTED

 

2.

Keywords in question Similar keywords in paragraph
Of Italy Of Italy
Всегда Постоянно присутствует
Угроза Опасность
7

 

3.

Keywords in question Similar keywords in paragraph
Particulars of an earthquake Specifics of any quake
Studied deeply Look closer
Гораздо больше Очень
ОТВЕТ: СЛОЖНО

 

9

  • 4 9.
  • 60256
  • Основные слова Аналогичные ключевые слова в пункте
    .

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    Copyright © 2025
    Дропшиппинг в России.
    Сообщество поставщиков дропшипперов и интернет предпринимателей.
    Все права защищены.
    ИП Калмыков Семен Алексеевич. ОГРНИП: 313695209500032.
    Адрес: ООО «Борец», г. Москва, ул. Складочная 6 к.4.
    E-mail: mail@russia-dropshipping.ru. Телефон: +7 (499) 348-21-17