Jump to ContentJump to Main Navigation
Show Summary Details
More options …

Information Technology and Management Science

The Journal of Riga Technical University

1 Issue per year

Open Access
Online
ISSN
2255-9094
See all formats and pricing
More options …

Markov Chains in the Task of Author’s Writing Style Profile Construction/ Markova ķēžu pielietošanas iespēju izpēte autora stila identifikācijai/ Исследование возможностей применения Марковских цепей для идентификации авторского стиля

Pavels Osipovs / Andrejs Rinkevics / Galina Kuleshova / Arkady Borisov
Published Online: 2015-03-11 | DOI: https://doi.org/10.1515/itms-2014-0018

Abstract

This paper examines the possibility of using Markov chains when constructing a profile of author’s writing style. Thus, the constructed profile can be then used to analyze other texts and calculate their level of similarity. The extraction of the unique profile of text writing style that is characteristic of a specific human can be a topical task in many spheres of human activity. As an example, the task of detecting authorship for scientific and fiction texts can be mentioned. The paper describes a basic theoretical apparatus used for profile construction, software implementation of the experimental system as well as the experiments made and provides experimental results and their analysis.

Rakstā aprakstīts pētījums par Markova ķēžu pielietošanu autora stila modeļu būvēšanai. Autora stila modelēšana ir aktuāls uzdevums. Pielietojot šādu modeli, to var salīdzināt ar dažādiem citiem tekstiem, kuriem autorība nav zināma. Šī salīdzinājuma rezultāts ir līdzības līmenis starp diviem tekstiem; ja tas ir pietiekami augsts, tad mēs varam teikt, ka abus tekstus rakstījis viens un tas pats cilvēks. Autora stila modeļa izmantošanas process ir iedalīts divās daļās: modeļa apmācība un tā izmantošana teksta analīzei. Modeļa apmācība balstīta uz tekstiem, kuriem autorība ir zināma. Tā rezultātā apmācīts modelis saglabā indivīdu teikumus un frāzes būvniecības iezīmes. Svarīga pieejas iezīme šajā stadijā ir prasība izmantot liela apjoma tekstu apmācības procesā. Izmantošanas posmā, apmācīts modelis tiek izmantots, lai aprēķinātu stila līdzības līmeni ar analizēto tekstu. Apskatīts teorētiskais pamats, kā būvēt Markova ķēdes grafu, balstoties uz autora tekstu, kā arī apskatīta iespēja turpmākai teksta attīrīšanai, pirms tas tiek izmantots, lai apmācītu modeli, un tā ietekme uz gala klasifikācijas rezultātu. Veikti dažādi eksperimenti, lai novērtētu parametru ietekmi uz izmantoto algoritmu klasifikācijas efektivitāti. Galīgais līmenis ir tad, ja pareizie rezultāti sasniedz 60-80 %, kas ir samērā labi. Tālākai izpētei vajadzētu palielināt klasifikācijas precizitāti.

В статье описано исследование возможностей применения Марковских цепей в задаче построения модели авторского стиля. Моделирование особенностей стилистики человека является актуальной задачей. Имея такую модель, возможно сравнивать с ней различные тексты, авторство которых не установлено. Итогом такого сравнения будет уровень сходства авторских стилей двух текстов. Если он достаточно высок, то можно говорить о том, что оба текста написал один и тот же человек. Использование модели авторского стиля делится на две условные части: обучение модели и непосредственно ее использование для анализа текста. Построение модели происходит на наборах текстов, для которых заведомо известно авторство. В итоге созданная модель хранит в себе особенности построения фраз и словосочетаний конкретного человека. Важной особенностью подхода на данном этапе является требование использовать для обучения тексты большого объёма. На этапе использования обученная модель применяется для вычисления уровня сходства стиля с анализируемым текстом. Рассмотрена основная теоретическая база построения графа Марковской цепи, основываясь на авторском тексте. Рассматривается возможность дополнительной очистки текста перед его использованием для обучения модели и влияние этого на итоговый результат классификации. Произведены различные эксперименты для оценки влияния параметров используемого алгоритма на эффективность классификации. Итоговый уровень корректных результатов находится в районе 60-80 %, что сравнительно неплохо. Дальнейшие исследования должны увеличить уровень распознавания

Keywords : Formalization of author’s writing style; level of texts similarity; Markov chain

References

  • [1] P. A. Osipov and A. N. Borisov, “Abnormal action detection based on Markov models”, in Automatic Control and Computer Sciences, vol. 45, no. 2. 2011, pp. 94-105. http://dx.doi.org/10.3103/S0146411611020052CrossrefGoogle Scholar

  • [2] The GraphML File Format. [Online]. Available: http://graphml.graphdrawing.org. [Accessed 05 July, 2014].Google Scholar

  • [3] M. S. Elayidom, C. Jose et al, “Text classification for authorship attribution analysis”, in Advanced Computing: An International Journal, ACIJ, vol. 4, no. 5, Sep. 2013, 10 p.Google Scholar

  • [4] N. Homem and J. P. Carvalho, “Authorship Identification and Author Fuzzy Fingerprints” in Fuzzy Information Processing Society (NAFIPS), 2011 Annual Meeting of the North American, 978-1-61284-968-3/11/2011 IEEE, 2011, pp. 1-6.Google Scholar

  • [5] A. Metwally, D. Agrawal and A. Abbadi “Efficient Computation of Frequent and Top-k Elements in Data Streams”, University of California, Santa Barbara, USA, Tech. Rep. 2005-23, September, 2005.Google Scholar

  • [6] R. M. Dabagh “Authorship attribution and statistical text analysis”, in Metodološki zvezki, vol. 4, no. 2, 2007, pp. 149-163.Google Scholar

  • [7] R. Zheng, Yi Qin, Z. Huang, H. Chen, “Authorship analysis in cybercrime investigation”, H. Chen et al. (Eds.): ISI 2003, LNCS 2665, Springer-Verlag Berlin Heidelberg, 2003, pp. 59-73.Google Scholar

  • [8] P. N. Bennett, S. T. Dumais and E. Horvitz. “The combination of text classifiers using reliability indicators”, Information Retrieval, vol. 8, no. 1, pp. 67-100, 2005.Google Scholar

  • [9] C. Sanderson and S. Guenter, “On Authorship Attribution via Markov Chains and Sequence Kernels,” 18th International Conference on Pattern Recognition, ICPR 2006, Aug. 20-24, 2006, Hong Kong, China. http://dx.doi.org/10.1109/ICPR.2006.899CrossrefGoogle Scholar

  • [10] E. Stamatatos, W. Daelemans et al., “Overview of the Author Identification Task at PAN 2014”, CLEF Conference, PAN part, Sheffield, UK, Sep. 15-18, 2014.Google Scholar

  • [11] H. P. Langtangen, “A Primer on Scientific Programming with Python”, in Texts in Computational Science and Engineering, vol. 6. 4th ed. 2014, XXXI, 872 p. ISBN 978-3-642-54959-5.Google Scholar

  • [12] J. R. Johansson, P.D. Nation and F. Nori, “QuTiP: An open-source Python framework for the dynamics of open quantum systems”, in Computer Physics Communications, vol. 183, Issue 8, 2012, pp. 1760-1772. http://dx.doi.org/10.1016/j.cpc.2012.02.021 Web of ScienceCrossrefGoogle Scholar

About the article

Published Online: 2015-03-11

Published in Print: 2014-12-01


Citation Information: Information Technology and Management Science, ISSN (Online) 2255-9094, DOI: https://doi.org/10.1515/itms-2014-0018.

Export Citation

© Riga Technical University. This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License. BY-NC-ND 3.0

Comments (0)

Please log in or register to comment.
Log in