Реклама на сайте (разместить):


Реклама и пожертвования позволяют нам быть независимыми!

Хрулёв О.А. Применение частотного анализа в соционике. Новая методика определения авторства текста, 2010

Материал из Соционика-вики
Перейти к: навигация, поиск

Фрагменты статьи


Постановка задачи


Пусть дан текст на русском языке. Попробуем решить следующие задачи:

1. Определение автора из множества известных, книги которых у нас уже проанализированы.

2. Определение основных факторов оказывающих наибольшее влияние на распределение частот слов в тексте.

3. Определение соционического типа автора текста с помощью частотного анализа.

Новая методика определения авторства по тексту на естественном языке

Первая попытка создания методики для определения автора текста была сделана еще в самом начале 20 века Морозовым. Позднее она была подвергнута критике специалистом по теории вероятностей и математической статистике Марковым.

Уже в наше время была предложена интересная методика определения авторства текста с использованием буквенной и грамматической информации, которая использует формальную математическую модель последовательности букв (и любых других элементов) текста как реализации цепи Маркова.

Известный пример с определением авторства романа "Тихий Дон", об ответе на которой спорят несколько десятилетий, показывает, что данная проблема до сих пор актуальна. В настоящий момент, в связи с бурным развитием вычислительной техники встает вопрос о попытках автоматизировать этот процесс. В частности, математиком Хетсо была предложена методика на основе следующих параметров:


Средняя длина слова в буквах, вычисляемая на основании выборок размером 500 текстовых слов.

Общее распределение длины слова.

Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений.

Общее распределение длины предложения.

Лексический спектр текста на уровня словаря.

Лексический спектр текста на уровне текста.

Индекс разнообразия лексики.

C помощью нее он провел компьютерный анализ текстов Шолохова, подтвердивший его авторство.

Известно, что клуб любителей творчества Пушкина собирал информацию о частотном распределении слов великого поэта. На это занятие им понадобилось несколько лет кропотливого труда. К счастью, с приходом новейших технологий, туже самую операцию компьютер способен сделать за несколько минут с гораздо большей точностью.

Методика, которая описывается в этой статье, была случайно получена мной в качестве побочного эффекта при исследовании возможности определения соционического типа автора текста на естественном языке. До этого я не читал материалов по данной теме.

Cлова русского языка имеют огромную разницу в распределении частот. Например, слово "время" встречается в 500 раз чаще чем "удивительный". В качестве эталона распределения частот слов русского языка был взят частотный словарь Шарова (общее количество различных слов более 60000), который составлен на основе анализа 40 миллионов слов и является более адекватным чем аналогичный известный частотный словарь Засориной, который был составлен в 1977 году и использовал для анализа всего лишь 1 миллион слов.

В базу данных Oracle были закачаны результаты частотного анализа 104 книг 38 человек (количество книг для каждого писателя было от 1 до 14) общим размером более 30 Мегабайт чистого текста, в которых использовано почти 6 миллионов слов. Для анализа были написаны несколько программ на PL/SQL.


Алгоритм


Составление частотного словаря для каждой книги.

На основе нескольких книг создается частотный словарь писателя.

C помощью частотного словаря Шарова происходит нормализация. То есть полученные значения частоты употребления слов делятся на средние в русском языке.

Вводится понятие расстояния между словарями, как сумма квадратов разностей частот между отдельными анализируемыми словами.

При этом если слово есть в одном словаре, но совсем отсутствует в другом, то оно не учитывается (для чего это сделано объясняется ниже)

Учитываются первые 5000-10000 наиболее употребляемых слов русского языка.

В качестве результата берется словарь с минимальным расстоянием.

Если взять больше 10000 слов, то редкие слова оказывают слишком большое влияние на результат, если меньше, то информации становится недостаточно. Учитывая такое количество слов текст должен быть достаточно большим, желательно от 30 Kb, причем чем больше, тем лучше. На текстах малой длины частоты неустойчивы и сильно зависят от предметной области. К аналогичным выводам пришел польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения: "границей объема текста (ниже которой результаты не достоверны, а выше – достоверны) является пять тысяч словоформ".

По данному методу для всех 104 книг автор был определен верно в 102 случаях с двумя ошибками определения для Александра Пушкина "Том 7. История Пугачева. Исторические статьи и материалы" и "Том 9. Письма". Также при правильном определении авторства для для нескольких небольших рассказов Николая Гоголя разница между следующим писателем была не очень большой. Для книг, не участвовавших в формировании словаря данный метод не проверялся, можно понять, что он будет работать на следующем примере.

Были взяты 38 словарей писателей. 104 словаря для книг, в том числе пять из них Льва Толстого.

Данная статья не претендует на полноценное исследование, так как, например, для оценки надежности новой методики определения авторства нужно обработать гораздо большое число книг и источников информации. Возможно я это сделаю в будущем.


Список литературы


Н.А. Морозов Новое орудие объективного исследования древних документов


А.А. Марков Об одном применении статистического метода


Г. Хетсо Методика, основанная на методах математической статистики


Л.И. Бородкин Математические методы и компьютер в задачах атрибуции текстов


О.В. Кукушкина, А.А. Поликарпов, Д.В. Хмелёв Определение авторства текста с использованием буквенной и грамматической информации


С.А. Шаров Частотный словарь Шарова


Л.Н. Засорина Частотный словарь Засориной


Р.М. Фрумкина Психолингвистик

Цитируется по источнику

Комментарии и обсуждение[править]

Статью можно улучшить?
✍ Редактировать 💸 Спонсировать 🔔 Подписаться 📩 Переслать 💬 Обсудить
Позвать друзей