Классификация пользователей по данным из сети интернет
Abstract
Проведен анализ способов сбора информации о пользователях на различных площадках в сети интернет. Рассмотрен способ извлечения информации из социальной сети ``ВКонтакте''. Для создания информационной базы исследования было выбрано наиболее информативный, на наш взгляд, раздел - список групп, в которых состоит пользователь. В процессе исследования был разработан алгоритм разбора текста до уровня понимания компьютером. С помощь наивного байесовского классификатора реализована классификация социального положения пользователя. Этот же алгоритм без каких-либо изменений можно адаптировать к классификации интересов пользователя.
References
2. Обработка естественного языка в Node.js. - URL: https://medium.com/devschacht/natural-language-processing-for-node-js-da990c7dd886.
3. Domingos P., Pazzani M. On the optimality of the simple Bayesian classifier under zero-one loss // Machine Learning. – 1997. – no. 29. – P. 103-137.
1. Авторы сохраняют за собой права на авторство своей работы и предоставляют журналу право первой публикации этой работы с правом после публикации распространять работу на условиях лицензии Creative Commons Attribution License, которая позволяет другим лицам свободно распространять опубликованную работу с обязательной ссылокой на авторов оригинальной работы и оригинальную публикацию в этом журнале.
2. Авторы сохраняют право заключать отдельные договора на неэксклюзивное распространение работы в том виде, в котором она была опубликована этим журналом (например, размещать работу в электронном архиве учреждения или публиковать в составе монографии), с условием сохраниения ссылки на оригинальную публикацию в этом журнале. с. Политика журнала разрешает и поощряет размещение авторами в сети Интернет (например в институтском хранилище или на персональном сайте) рукописи работы как до ее подачи в редакцию, так и во время ее редакционной обработки, так как это способствует продуктивной научной дискуссии и положительно сказывается на оперативности и динамике цитирования статьи