Извлечение текстовых данных из документов формата PDF, DOCX (DOC) с помощью сторонних библиотек

  • В.В. Ширяев Алтайский государственный университет Email: asmuddi628@gmail.com
  • А.В. Турчановская Алтайский государственный университет Email: turcanovskaa@gmail.com
Ключевые слова: извлечение текстовых данных, библиотеки для работы с текстовыми документами, обработка текстовых документов, сбор данных

Аннотация

В статье проведен сравнительный анализ библиотек таких языков программирования как: C#,  Java, Python. В сравнении уделяется особое внимание возможности извлечения текстовых данных из большого количества однотипных документов формата PDF и DOCX (DOC). Рассмотрены основные проблемы применения библиотек.

Литература

%
Опубликован
2019-12-29
Как цитировать
Ширяев В., Турчановская А. Извлечение текстовых данных из документов формата PDF, DOCX (DOC) с помощью сторонних библиотек // Труды семинара по геометрии и математическому моделированию, 2019, № 5. С. 158-160. URL: http://journal.asu.ru/psgmm/article/view/7258.