Извлечение текстовых данных из документов формата PDF, DOCX (DOC) с помощью сторонних библиотек

  • В.В. Ширяев Алтайский государственный университет Email: asmuddi628@gmail.com
  • А.В. Турчановская Алтайский государственный университет Email: turcanovskaa@gmail.com

Abstract

В статье проведен сравнительный анализ библиотек таких языков программирования как: C#,  Java, Python. В сравнении уделяется особое внимание возможности извлечения текстовых данных из большого количества однотипных документов формата PDF и DOCX (DOC). Рассмотрены основные проблемы применения библиотек.

References

%
Published
2019-12-29
How to Cite
Ширяев В., Турчановская А. Извлечение текстовых данных из документов формата PDF, DOCX (DOC) с помощью сторонних библиотек // Труды семинара по геометрии и математическому моделированию, 2019, № 5. P. 158-160. URL: http://journal.asu.ru/psgmm/article/view/7258.