Применение ледж-коэффициента в задаче бинарной классификации биомедицинских данных с ДНК-микрочипов
УДК 519.23 ББК 22.1я431
Abstract
В связи с развитием технологий, используемых в современных биомедицинских исследованиях, происходит увеличение объема информации, подлежащей анализу. Одним из актуальных примеров является класс задач бинарной классификации многомерных данных, полученных с ДНК-микрочипов [1, 2]. Такая информация представлена значениями числовых признаков, количество которых измеряется тысячами, что значительно увеличивает время анализа данных. Для качественного решения рассматриваемых задач классификации широко используются алгоритмы фильтрации, поскольку среди методов отбора признаков они являются наиболее вычислительно эффективными. Идея этого подхода состоит в выборе подмножества признаков, упорядоченных согласно некоторой заданной мере [3]. Однако, распространенные в настоящее время алгоритмы фильтрации не вполне сосредоточены на выявлении связи между числовым и бинарным признаками, свойственной рассматриваемым задачам. В связи с этим для ее оценивания в работе [4] был введен ледж-коэффициент корреляции, в статье [5] предложены алгоритмы по его вычислению, в работе [6] описан алгоритм фильтрации, основанный на применении ледж-коэффициента
References
2. Mohammed A., Biegert G., Adamec J., Helikar T. CancerDiscover: An integrative pipeline for cancer biomarker and cancer class prediction from high-throughput sequencing data // Oncotarget. – 2018. – V. 9(2). – P. 2565–2573.
3. Hira Z., Gillies D. A review of feature selection and feature extraction methods applied on microarray data // Advances in Bioinformatics. – 2015. – V. 2015. – P. 1-13.
4. Дронов С.В., Петухова Р.В. Один вид связи между номинальной и бинарной переменными // Известия АлтГУ. – 2010. – №1/2 (65). – С. 34–36.
5. Дронов С.В., Бойко И.Ю. Метод оценки степени связи бинарного и номинального показателей // ПДМ. – 2015. – №4(30). – С. 109-119.
6. Бойко И.Ю., Дронов C.В. Критические точки распределения ледж-коэффициента // Сборник трудов Всероссийской конференции по математике «МАК-2016», Барнаул, 29 июня - 1 июля 2016 г. – Барнаул: Изд-во АлтГУ, 2016. – С. 13–15.
7. Gravier E. A prognostic DNA signature for T1T2 node-negative breast cancer patients // Genes, Chromosomes and Cancer. – 2010. – V.49(12). – P. 1125–1134.
8. Анисимов Д.С., Подлесных С.В., Колосова Е.А., Щербаков Д.Н., Петрова В.Д., Джонстон С.А., Лазарев А.Ф., Оскорбин Н.М., Шаповал А.И., Рязанов М.А. Анализ многомерных данных пептидных микрочипов с использованием метода проекции на латентные структуры // Математическая биология и информатика. – 2017. – №2(25). – С. 435-445.