Москва, г. Москва и Московская область, Россия
Москва, г. Москва и Московская область, Россия
Институт цитологии и генетики СО РАН
Новосибирск, Новосибирская область, Россия
с 01.01.2019 по настоящее время
Институт цитологии и генетики СО РАН
Новосибирский государственный университет
Российский университет дружбы народов (Аграрно-Технологический Институт, профессор)
с 01.01.2020 по 01.01.1921
Москва, г. Москва и Московская область, Россия
Одна из классических задач биоинформатики - поиск повторов и статистически неоднородных участков последовательностей ДНК и полных геномов микроорганизмов. Теоретические подходы к исследованию сложности текста последовательностей макромолекул - ДНК, РНК и белков – развивались до появления полных геномных последовательностей и получили новый импульс в связи с распространением технологий массового параллельного секвенирования и бурным ростом доступных данных. Рассматриваются современные компьютерные методы и существующие программы оценки сложности текста ДНК и построения профиля свойств для анализа структуры геномов микроорганизмов. Дан обзор доступных онлайн-программ для поиска и визуализации повторов текста. Представлена собственная компьютерная реализация метода оценки лингвистической сложности текста и сжатия по Лемпелю-Зиву для выявления структурных особенностей и аномалий геномов микроорганизмов. Представлены примеры профилей анализа сложности текста. Рассмотрено применение оценок сложности к анализу последовательности генома коронавируса SARS-CoV2, последовательности вируса эндемического паротита Mumps Orthorubulavirus. Выявлены участки низкой сложности текста.
биоинформатика, биофизические модели, сложность текста, геномы микроорганизмов
1. Simoes R.P., Wolf I.R., Correa B.A., Valente G.T. Uncovering patterns of the evolution of genomic sequence entropy and complexity. Mol Genet Genomics, 2021, vol. 296, no. 2, pp. 289-298, doi:https://doi.org/10.1007/s00438-020-01729-y.; ; EDN: https://elibrary.ru/LPJHMT
2. Orlov Y.L., Potapov V.N. Complexity: an internet resource for analysis of DNA sequence complexity. Nucleic Acids Res., 2004, vol. 32, pp. W628-W633, doi:https://doi.org/10.1093/nar/gkh466.; ; EDN: https://elibrary.ru/UEOOZR
3. Bartal A., Jagodnik K.M. Progress in and Opportunities for Applying Information Theory to Computational Biology and Bioinformatics. Entropy (Basel), 2022, vol. 24, no. 7, pp. 925, doi:https://doi.org/10.3390/e24070925.; ; EDN: https://elibrary.ru/SYQCHZ
4. Bernaola-Galvan P., Carpena P., Gomez-Martin C., Oliver J.L. Compositional Structure of the Genome: A Review. Biology (Basel), 2023, vol. 12, no. 6, p. 849, doi:https://doi.org/10.3390/biology12060849.; ; EDN: https://elibrary.ru/NHYAEN
5. Chang C.H., Hsieh L.C., Chen T.Y., Chen H.D., Luo L., Lee H.C. Shannon information in complete genomes. J. Bioinform. Comput. Biol., 2005, vol. 3, no. 3, pp. 587-608, doi:https://doi.org/10.1142/s0219720005001181.
6. Olson W.K., Zhurkin V.B. Modeling DNA deformations. Curr Opin Struct Biol., 2000, vol. 10, no. 3, pp. 286-297, doi:https://doi.org/10.1016/s0959-440x(00)00086-5.; DOI: https://doi.org/10.1016/S0959-440X(00)00086-5; EDN: https://elibrary.ru/YEPDOS
7. Orlov Y.L., Filippov V.P., Potapov V.N., Kolchanov N.A. Construction of stochastic context trees for genetic texts. In Silico Biol., 2002, vol. 2, no. 3, pp. 233-247.; EDN: https://elibrary.ru/LHKSSZ
8. Chanda P., Costa E., Hu J., Sukumar S., Van Hemert J., Walia R. Information Theory in Computational Biology: Where We Stand Today. Entropy, 2020, vol. 22, no. 6, p. 627, doi:https://doi.org/10.3390/e22060627.; DOI: https://doi.org/10.3390/E22060627; EDN: https://elibrary.ru/HIYYCF
9. Akbari Rokn Abadi S., Mohammadi A., Koohi S. A new profiling approach for DNA sequences based on the nucleotides' physicochemical features for accurate analysis of SARS-CoV-2 genomes. BMC Genomics, 2023, vol. 24, no. 1, p. 266, doi:https://doi.org/10.1186/s12864-023-09373-7.; ; EDN: https://elibrary.ru/FIMOIM
10. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., 1997, vol. 25, no. 17, pp. 3389-3402, doi:https://doi.org/10.1093/nar/25.17.3389.
11. Berselli M., Lavezzo E., Toppo S. NeSSie: a tool for the identification of approximate DNA sequence symmetries. Bioinformatics, 2018, vol. 34, no. 14, pp. 2503-2505, doi:https://doi.org/10.1093/bioinformatics/bty142.
12. Andersen E.S. Prediction and design of DNA and RNA structures. New Biotechnology, 2010, vol. 27, no. 3, pp. 184-193, doi:https://doi.org/10.1016/j.nbt.2010.02.012.
13. Shi X., Teng H., Sun Z. An updated overview of experimental and computational approaches to identify non-canonical DNA/RNA structures with emphasis on G-quadruplexes and R-loops. Brief Bioinform., 2022, vol. 23, no. 6, pp. bbac441, doi:https://doi.org/10.1093/bib/bbac441.; ; EDN: https://elibrary.ru/ZJRIIP
14. Narad P., Kumar A., Chakraborty A., Patni P., Sengupta A., Wadhwa G., Upadhyaya K.C. Transcription Factor Information System (TFIS): A Tool for Detection of Transcription Factor Binding Sites. Interdiscip Sci., 2017, vol. 9, no. 3, pp. 378-391, doi:https://doi.org/10.1007/s12539-016-0168-5.; ; EDN: https://elibrary.ru/YGCZXI
15. Сафронова Н.С., Пономаренко М.П., Абнизова И.И., Орлова Г.В., Чадаева И.В., Орлов Ю.Л. Фланкирующие повторы мономеров определяют пониженную контекстную сложность сайтов однонуклеотидных полиморфизмов в геноме человека. Вавиловский журнал генетики и селекции, 2015, т. 19, № 6, с. 668-674, doi:https://doi.org/10.18699/VJ15.092.; EDN: https://elibrary.ru/VDUSEN
16. Vityaev E.E., Orlov Y.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. Computer system "Gene Discovery" for promoter structure analysis. In Silico Biol., 2002, vol. 2, pp. 257-262.; EDN: https://elibrary.ru/LHBQUT
17. Babenko V., Chadaeva I., Orlov Y. Genomic landscape of CpG rich elements in human genome. BMC evolutionary biology, 2017, vol. 17, suppl. 1, pp. 19, doi:https://doi.org/10.1186/s12862-016-0864-0.; ; EDN: https://elibrary.ru/WIOPUO
18. Babenko V.N., Bogomolov A.G., Babenko R.O., Galieva E.R., Orlov Y.L. CpG islands’ clustering uncovers early development genes in the human genome. Computer Science and Information Systems, 2018, vol. 15, no. 2, рр. 473-485, doi:https://doi.org/10.2298/CSIS170523004B.; ; EDN: https://elibrary.ru/YBPQWD
19. Орлов Ю.Л., Левицкий В.Г., Смирнова О.Г., Подколодная О.А., Хлебодарова Т.М., Колчанов Н.А. Статистический анализ последовательностей ДНК, содержащих сайты формирования нуклеосом. Биофизика, 2006, т. 51, с. 608-14 .; EDN: https://elibrary.ru/HVJAPR
20. Goh W.S., Orlov Y., Li J., Clarke N.D. Blurring of high-resolution data shows that the effect of intrinsic nucleosome occupancy on transcription factor binding is mostly regional, not local. PLoS Comput Biol., 2010, vol. 6, no. 1, e1000649, doi:https://doi.org/10.1371/journal.pcbi.1000649.
21. Дергилев А.И., Спицина А.М., Чадаева И.В., Свичкарев А.В., Науменко Ф.М., Кулакова Е.В., Витяев Е.Е., Чен М., Орлов Ю.Л. Компьютерный анализ совместной локализации сайтов связывания транскрипционных факторов по данным ChIP-seq. Вавиловский журнал генетики и селекции, 2016, т. 20, № 6, с. 770-778, doi:https://doi.org/10.18699/VJ16.194 .; ; EDN: https://elibrary.ru/XGWPRV
22. Alipanahi B., Delong A., Weirauch M.T., Frey B.J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat Biotechnol., 2015, vol. 33, no. 8, pp. 831-838, doi:https://doi.org/10.1038/nbt.3300.; ; EDN: https://elibrary.ru/UONPCZ
23. Митина А.В., Орлов Ю.Л. Оценка лингвистической сложности генетических последовательностей штаммов SARS-CoV-2. Сборник научных трудов VII Съезда Биофизиков России: в 2 томах, том 1 - Краснодар: Типография ФГБОУ ВО «КубГТУ», 2023, c. 330, doi:https://doi.org/10.26297/SbR6.2023.001 .; EDN: https://elibrary.ru/ZWOUEO
24. Orlov Y.L., Gusev V.D., Miroshnichenko L.A. LZcomposer: Decomposition of Genomic Sequences by Repeat Fragments. Biofizika, 2003, vol. 48, suppl. 1, pp. S7-S16.
25. Wu C., Chen J., Liu Y., Hu X. Improved Prediction of Regulatory Element Using Hybrid Abelian Complexity Features with DNA Sequences. International Journal of Molecular Sciences, 2019, vol. 20, no. 7, p. 1704, doi:https://doi.org/10.3390/ijms20071704.; ; EDN: https://elibrary.ru/MNWKWH
26. Орлов Ю.Л., Митина А.В., Суслов В.В., Дергилев А.И. Компьютерные оценки информационной сложности геномов прокариот. Тезисы докладов 4-й Всероссийской конференции по астробиологии «Геологические, биологические и биогеохимические процессы в решении астробиологических задач» 27 февраля - 2 марта 2023 г., г.Пущино. Институт физико-химических и биологических проблем почвоведения РАН, с. 20-22.
27. Суслов В.В., Афонников Д.А., Подколодный Н.Л., Орлов Ю.Л. Особенности геномного контекста и GC состав генома прокариот в связи с эволюцией среды обитания. Палеонтологический журнал, 2013, т. 47, № 9, с. 1056-1060, doi:https://doi.org/10.1134/S0031030113090220.; ; EDN: https://elibrary.ru/SLECQX
28. Safronova N.S., Babenko V.N., Orlov Y.L. 117 Analysis of SNP containing sites in human genome using text complexity estimates. Journal of Biomolecular Structure and Dynamics, 2015, vol. 33, suppl. 1, pp. 73-74, doi:https://doi.org/10.1080/07391102.2015.1032750.
29. Дергилев А.И., Орлова Н.Г., Митина А.В., Орлов Ю.Л. Применение методов оценки сложности текста к анализу геномных кластеров сайтов связывания транскрипционных факторов. Сборник научных трудов VII Съезда Биофизиков России: в 2 томах, том 1 - Краснодар: Типография ФГБОУ ВО «КубГТУ», 2023, с. 335-336, doi:https://doi.org/10.26297/SbR6.2023.001.; EDN: https://elibrary.ru/VPSVOJ
30. Dergilev A.I., Orlova N.G., Dobrovolskaya O.B., Orlov Y.L. Statistical estimates of multiple transcription factors binding in the model plant genomes based on ChIP-seq data. J Integr Bioinform., 2021, vol. 19, no. 1, p. 20200036, doi:https://doi.org/10.1515/jib-2020-0036.; ; EDN: https://elibrary.ru/ZSKKWD
31. Принглаева А.М., Дергилев А.И., Панова А.Д., Орлов Ю.Л. Сложность текста и структура повторов генома на примере коронавируса. Марчуковские научные чтения 2020: Тезисы Междунар. конф., посв. 95-летию со дня рождения акад. Г. И. Марчука Новосибирск, 19-23 октября 2020 г. Ин-т вычислит. математики и матем. геофизики СО РАН, Новосибирск: ИПЦ НГУ, 2020, с. 167, doi:https://doi.org/10.24411/9999-017A-2020-10295 .
32. Галиева А.Г., Лузин А.Н., Орлова Н.Г., Куликова Д.К., Дергилев А.И., Орлов Ю.Л. Биоинформационные подходы для анализа точек мутации генома коронавируса. В сборнике: Молекулярная диагностика и биобезопасность-2021. COVID-19: эпидемиология, диагностика, профилактика: сборник тезисов Онлайн-конгресса с международным участием (28-29 апреля 2021 г., Москва). М.: ФБУН ЦНИИ Эпидемиологии Роспотребнадзора, 2021, 144 с.; EDN: https://elibrary.ru/CWVVYP
33. Antao R., Mota A., Machado J.A.T. Kolmogorov complexity as a data similarity metric: application in mitochondrial DNA. Nonlinear Dyn., 2018, vol. 93, no. 3, pp. 1059-1071.; DOI: https://doi.org/10.1007/s11071-018-4245-7; EDN: https://elibrary.ru/YGNXBB
34. Dheemanth H.N. LZW Data Compression. American Journal of Engineering Research (AJER), 2014, vol. 3, no. 2, pp. 22-26.
35. Putta P., Orlov Y.L., Podkolodnyy N.L., Mitra C.K. Relatively conserved common short sequences in transcription factor binding sites and miRNA. Вавиловский журнал генетики и селекции, 2011, т. 15, № 4, с. 750-756.; EDN: https://elibrary.ru/OOZBSR
36. Orlov Y.L., te Boekhorst R., Abnizova I.I. Statistical measures of the structure of genomic sequences: entropy, complexity, and position information. J Bioinform Comput Biol., 2006, vol. 4, pp. 523-536.
37. Popov O., Segal D.M., Trifonov E.N. Linguistic complexity of protein sequences as compared to texts of human languages. Biosystems, 1996, vol. 38, no. 1, pp. 65-74, doi:https://doi.org/10.1016/0303-2647(95)01568-x.
38. Troyanskaya O.G., Arbell O., Koren Y., Landau G.M., Bolshoy A. Sequence complexity profiles of prokaryotic genomic sequences: a fast algorithm for calculating linguistic complexity. Bioinformatics, 2002, vol. 18, no. 5, pp. 679-688.; DOI: https://doi.org/10.1093/bioinformatics/18.5.679; EDN: https://elibrary.ru/YJNURG
39. Lu R., Zhao X., Li J. et al. Genomic characterisation and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding. Lancet, 2020, vol. 395, no. 10224, pp. 565-574, doi:https://doi.org/10.1016/S0140-6736(20)30251-8.; ; EDN: https://elibrary.ru/OXXXZO
40. Hu B., Guo H., Zhou P. et al. Characteristics of SARS-CoV-2 and COVID-19. Nat Rev Microbiol., 2021, vol. 19, pp. 141-154, doi:https://doi.org/10.1038/s41579-020-00459-7.; ; EDN: https://elibrary.ru/KIMHKQ
41. Рубальская Т.С., Ерохов Д.В., Жердева П.Е., Милихина А.В., Гаджиева А.А., Тихонова Н.Т. Генотипирование вируса эпидемического паротита (Paramyxoviridae: Orthorubulavirus: Mumps Orthorubulavirus) как элемент лабораторного подтверждения инфекции. Вопросы вирусологии, 2023, т. 68, № 1, с. 59-65.; DOI: https://doi.org/10.36233/0507-4088-157; EDN: https://elibrary.ru/VBCVCZ
42. Su S.B., Chang H.L., Chen A.K. Current Status of Mumps Virus Infection: Epidemiology, Pathogenesis, and Vaccine. Int J Environ Res Public Health, 2020, vol. 17, no. 5, p. 1686, doi:https://doi.org/10.3390/ijerph17051686.; ; EDN: https://elibrary.ru/MEQMRD
43. Юминова Н.В., Контарова Е.О., Балаев Н.В., Артюшенко С.В., Контаров Н.А., Россошанская Н.В., Сидоренко Е.С., Гафаров Р.Р., Зверев В.В. Вакцинопрофилактика кори, эпидемического паротита и краснухи: задачи, проблемы и реалии. Эпидемиология и Вакцинопрофилактика, 2011, т. 4, № 59, с. 40-44.; EDN: https://elibrary.ru/NZABMX
44. Chao H., Zhang S., Hu Y., Ni Q., Xin S., Zhao L., Ivanisenko V.A., Orlov Y.L., Chen M. Integrating omics databases for enhanced crop breeding. J Integr Bioinform., 2023, doi:https://doi.org/10.1515/jib-2023-0012.; ; EDN: https://elibrary.ru/QFMFLQ
45. Orlov Y.L., Bragin A.O., Babenko R.O., Dresvyannikova A.E., Kovalev S.S., Shaderkin I.A., Orlova N.G., Naumenko F.M. Integrated Computer Analysis of Genomic Sequencing Data Based on ICGenomics Tool. In: Advances in Intelligent Systems, Computer Science and Digital Economics. CSDEIS 2019, AISC 1127, International Journal of Intelligent Systems and Applications (IJISA), 2020, pp. 154-164, doi:https://doi.org/10.1007/978-3-030-39216-1_15.; ; EDN: https://elibrary.ru/FPHYVY