КОМПЬЮТЕРНЫЕ ПРОГРАММЫ ОЦЕНКИ СЛОЖНОСТИ ТЕКСТА ДНК ДЛЯ АНАЛИЗА СТРУКТУРЫ ГЕНОМОВ МИКРООРГАНИЗМОВ
Аннотация и ключевые слова
Аннотация (русский):
Одна из классических задач биоинформатики - поиск повторов и статистически неоднородных участков последовательностей ДНК и полных геномов микроорганизмов. Теоретические подходы к исследованию сложности текста последовательностей макромолекул - ДНК, РНК и белков – развивались до появления полных геномных последовательностей и получили новый импульс в связи с распространением технологий массового параллельного секвенирования и бурным ростом доступных данных. Рассматриваются современные компьютерные методы и существующие программы оценки сложности текста ДНК и построения профиля свойств для анализа структуры геномов микроорганизмов. Дан обзор доступных онлайн-программ для поиска и визуализации повторов текста. Представлена собственная компьютерная реализация метода оценки лингвистической сложности текста и сжатия по Лемпелю-Зиву для выявления структурных особенностей и аномалий геномов микроорганизмов. Представлены примеры профилей анализа сложности текста. Рассмотрено применение оценок сложности к анализу последовательности генома коронавируса SARS-CoV2, последовательности вируса эндемического паротита Mumps Orthorubulavirus. Выявлены участки низкой сложности текста.

Ключевые слова:
биоинформатика, биофизические модели, сложность текста, геномы микроорганизмов
Текст
Текст произведения (PDF): Читать Скачать
Список литературы

1. Simoes R.P., Wolf I.R., Correa B.A., Valente G.T. Uncovering patterns of the evolution of genomic sequence entropy and complexity. Mol Genet Genomics, 2021, vol. 296, no. 2, pp. 289-298, doi:https://doi.org/10.1007/s00438-020-01729-y.

2. Orlov Y.L., Potapov V.N. Complexity: an internet resource for analysis of DNA sequence complexity. Nucleic Acids Res., 2004, vol. 32, pp. W628-W633, doi:https://doi.org/10.1093/nar/gkh466.

3. Bartal A., Jagodnik K.M. Progress in and Opportunities for Applying Information Theory to Computational Biology and Bioinformatics. Entropy (Basel), 2022, vol. 24, no. 7, pp. 925, doi:https://doi.org/10.3390/e24070925.

4. Bernaola-Galvan P., Carpena P., Gomez-Martin C., Oliver J.L. Compositional Structure of the Genome: A Review. Biology (Basel), 2023, vol. 12, no. 6, p. 849, doi:https://doi.org/10.3390/biology12060849.

5. Chang C.H., Hsieh L.C., Chen T.Y., Chen H.D., Luo L., Lee H.C. Shannon information in complete genomes. J. Bioinform. Comput. Biol., 2005, vol. 3, no. 3, pp. 587-608, doi:https://doi.org/10.1142/s0219720005001181.

6. Olson W.K., Zhurkin V.B. Modeling DNA deformations. Curr Opin Struct Biol., 2000, vol. 10, no. 3, pp. 286-297, doi:https://doi.org/10.1016/s0959-440x(00)00086-5.

7. Orlov Y.L., Filippov V.P., Potapov V.N., Kolchanov N.A. Construction of stochastic context trees for genetic texts. In Silico Biol., 2002, vol. 2, no. 3, pp. 233-247.

8. Chanda P., Costa E., Hu J., Sukumar S., Van Hemert J., Walia R. Information Theory in Computational Biology: Where We Stand Today. Entropy, 2020, vol. 22, no. 6, p. 627, doi:https://doi.org/10.3390/e22060627.

9. Akbari Rokn Abadi S., Mohammadi A., Koohi S. A new profiling approach for DNA sequences based on the nucleotides' physicochemical features for accurate analysis of SARS-CoV-2 genomes. BMC Genomics, 2023, vol. 24, no. 1, p. 266, doi:https://doi.org/10.1186/s12864-023-09373-7.

10. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., 1997, vol. 25, no. 17, pp. 3389-3402, doi:https://doi.org/10.1093/nar/25.17.3389.

11. Berselli M., Lavezzo E., Toppo S. NeSSie: a tool for the identification of approximate DNA sequence symmetries. Bioinformatics, 2018, vol. 34, no. 14, pp. 2503-2505, doi:https://doi.org/10.1093/bioinformatics/bty142.

12. Andersen E.S. Prediction and design of DNA and RNA structures. New Biotechnology, 2010, vol. 27, no. 3, pp. 184-193, doi:https://doi.org/10.1016/j.nbt.2010.02.012.

13. Shi X., Teng H., Sun Z. An updated overview of experimental and computational approaches to identify non-canonical DNA/RNA structures with emphasis on G-quadruplexes and R-loops. Brief Bioinform., 2022, vol. 23, no. 6, pp. bbac441, doi:https://doi.org/10.1093/bib/bbac441.

14. Narad P., Kumar A., Chakraborty A., Patni P., Sengupta A., Wadhwa G., Upadhyaya K.C. Transcription Factor Information System (TFIS): A Tool for Detection of Transcription Factor Binding Sites. Interdiscip Sci., 2017, vol. 9, no. 3, pp. 378-391, doi:https://doi.org/10.1007/s12539-016-0168-5.

15. Сафронова Н.С., Пономаренко М.П., Абнизова И.И., Орлова Г.В., Чадаева И.В., Орлов Ю.Л. Фланкирующие повторы мономеров определяют пониженную контекстную сложность сайтов однонуклеотидных полиморфизмов в геноме человека. Вавиловский журнал генетики и селекции, 2015, т. 19, № 6, с. 668-674, doi:https://doi.org/10.18699/VJ15.092.

16. Vityaev E.E., Orlov Y.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. Computer system "Gene Discovery" for promoter structure analysis. In Silico Biol., 2002, vol. 2, pp. 257-262.

17. Babenko V., Chadaeva I., Orlov Y. Genomic landscape of CpG rich elements in human genome. BMC evolutionary biology, 2017, vol. 17, suppl. 1, pp. 19, doi:https://doi.org/10.1186/s12862-016-0864-0.

18. Babenko V.N., Bogomolov A.G., Babenko R.O., Galieva E.R., Orlov Y.L. CpG islands’ clustering uncovers early development genes in the human genome. Computer Science and Information Systems, 2018, vol. 15, no. 2, рр. 473-485, doi:https://doi.org/10.2298/CSIS170523004B.

19. Орлов Ю.Л., Левицкий В.Г., Смирнова О.Г., Подколодная О.А., Хлебодарова Т.М., Колчанов Н.А. Статистический анализ последовательностей ДНК, содержащих сайты формирования нуклеосом. Биофизика, 2006, т. 51, с. 608-14 .

20. Goh W.S., Orlov Y., Li J., Clarke N.D. Blurring of high-resolution data shows that the effect of intrinsic nucleosome occupancy on transcription factor binding is mostly regional, not local. PLoS Comput Biol., 2010, vol. 6, no. 1, e1000649, doi:https://doi.org/10.1371/journal.pcbi.1000649.

21. Дергилев А.И., Спицина А.М., Чадаева И.В., Свичкарев А.В., Науменко Ф.М., Кулакова Е.В., Витяев Е.Е., Чен М., Орлов Ю.Л. Компьютерный анализ совместной локализации сайтов связывания транскрипционных факторов по данным ChIP-seq. Вавиловский журнал генетики и селекции, 2016, т. 20, № 6, с. 770-778, doi:https://doi.org/10.18699/VJ16.194 .

22. Alipanahi B., Delong A., Weirauch M.T., Frey B.J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat Biotechnol., 2015, vol. 33, no. 8, pp. 831-838, doi:https://doi.org/10.1038/nbt.3300.

23. Митина А.В., Орлов Ю.Л. Оценка лингвистической сложности генетических последовательностей штаммов SARS-CoV-2. Сборник научных трудов VII Съезда Биофизиков России: в 2 томах, том 1 - Краснодар: Типография ФГБОУ ВО «КубГТУ», 2023, c. 330, doi:https://doi.org/10.26297/SbR6.2023.001 .

24. Orlov Y.L., Gusev V.D., Miroshnichenko L.A. LZcomposer: Decomposition of Genomic Sequences by Repeat Fragments. Biofizika, 2003, vol. 48, suppl. 1, pp. S7-S16.

25. Wu C., Chen J., Liu Y., Hu X. Improved Prediction of Regulatory Element Using Hybrid Abelian Complexity Features with DNA Sequences. International Journal of Molecular Sciences, 2019, vol. 20, no. 7, p. 1704, doi:https://doi.org/10.3390/ijms20071704.

26. Орлов Ю.Л., Митина А.В., Суслов В.В., Дергилев А.И. Компьютерные оценки информационной сложности геномов прокариот. Тезисы докладов 4-й Всероссийской конференции по астробиологии «Геологические, биологические и биогеохимические процессы в решении астробиологических задач» 27 февраля - 2 марта 2023 г., г.Пущино. Институт физико-химических и биологических проблем почвоведения РАН, с. 20-22.

27. Суслов В.В., Афонников Д.А., Подколодный Н.Л., Орлов Ю.Л. Особенности геномного контекста и GC состав генома прокариот в связи с эволюцией среды обитания. Палеонтологический журнал, 2013, т. 47, № 9, с. 1056-1060, doi:https://doi.org/10.1134/S0031030113090220.

28. Safronova N.S., Babenko V.N., Orlov Y.L. 117 Analysis of SNP containing sites in human genome using text complexity estimates. Journal of Biomolecular Structure and Dynamics, 2015, vol. 33, suppl. 1, pp. 73-74, doi:https://doi.org/10.1080/07391102.2015.1032750.

29. Дергилев А.И., Орлова Н.Г., Митина А.В., Орлов Ю.Л. Применение методов оценки сложности текста к анализу геномных кластеров сайтов связывания транскрипционных факторов. Сборник научных трудов VII Съезда Биофизиков России: в 2 томах, том 1 - Краснодар: Типография ФГБОУ ВО «КубГТУ», 2023, с. 335-336, doi:https://doi.org/10.26297/SbR6.2023.001.

30. Dergilev A.I., Orlova N.G., Dobrovolskaya O.B., Orlov Y.L. Statistical estimates of multiple transcription factors binding in the model plant genomes based on ChIP-seq data. J Integr Bioinform., 2021, vol. 19, no. 1, p. 20200036, doi:https://doi.org/10.1515/jib-2020-0036.

31. Принглаева А.М., Дергилев А.И., Панова А.Д., Орлов Ю.Л. Сложность текста и структура повторов генома на примере коронавируса. Марчуковские научные чтения 2020: Тезисы Междунар. конф., посв. 95-летию со дня рождения акад. Г. И. Марчука Новосибирск, 19-23 октября 2020 г. Ин-т вычислит. математики и матем. геофизики СО РАН, Новосибирск: ИПЦ НГУ, 2020, с. 167, doi:https://doi.org/10.24411/9999-017A-2020-10295 .

32. Галиева А.Г., Лузин А.Н., Орлова Н.Г., Куликова Д.К., Дергилев А.И., Орлов Ю.Л. Биоинформационные подходы для анализа точек мутации генома коронавируса. В сборнике: Молекулярная диагностика и биобезопасность-2021. COVID-19: эпидемиология, диагностика, профилактика: сборник тезисов Онлайн-конгресса с международным участием (28-29 апреля 2021 г., Москва). М.: ФБУН ЦНИИ Эпидемиологии Роспотребнадзора, 2021, 144 с.

33. Antao R., Mota A., Machado J.A.T. Kolmogorov complexity as a data similarity metric: application in mitochondrial DNA. Nonlinear Dyn., 2018, vol. 93, no. 3, pp. 1059-1071.

34. Dheemanth H.N. LZW Data Compression. American Journal of Engineering Research (AJER), 2014, vol. 3, no. 2, pp. 22-26.

35. Putta P., Orlov Y.L., Podkolodnyy N.L., Mitra C.K. Relatively conserved common short sequences in transcription factor binding sites and miRNA. Вавиловский журнал генетики и селекции, 2011, т. 15, № 4, с. 750-756.

36. Orlov Y.L., te Boekhorst R., Abnizova I.I. Statistical measures of the structure of genomic sequences: entropy, complexity, and position information. J Bioinform Comput Biol., 2006, vol. 4, pp. 523-536.

37. Popov O., Segal D.M., Trifonov E.N. Linguistic complexity of protein sequences as compared to texts of human languages. Biosystems, 1996, vol. 38, no. 1, pp. 65-74, doi:https://doi.org/10.1016/0303-2647(95)01568-x.

38. Troyanskaya O.G., Arbell O., Koren Y., Landau G.M., Bolshoy A. Sequence complexity profiles of prokaryotic genomic sequences: a fast algorithm for calculating linguistic complexity. Bioinformatics, 2002, vol. 18, no. 5, pp. 679-688.

39. Lu R., Zhao X., Li J. et al. Genomic characterisation and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding. Lancet, 2020, vol. 395, no. 10224, pp. 565-574, doi:https://doi.org/10.1016/S0140-6736(20)30251-8.

40. Hu B., Guo H., Zhou P. et al. Characteristics of SARS-CoV-2 and COVID-19. Nat Rev Microbiol., 2021, vol. 19, pp. 141-154, doi:https://doi.org/10.1038/s41579-020-00459-7.

41. Рубальская Т.С., Ерохов Д.В., Жердева П.Е., Милихина А.В., Гаджиева А.А., Тихонова Н.Т. Генотипирование вируса эпидемического паротита (Paramyxoviridae: Orthorubulavirus: Mumps Orthorubulavirus) как элемент лабораторного подтверждения инфекции. Вопросы вирусологии, 2023, т. 68, № 1, с. 59-65.

42. Su S.B., Chang H.L., Chen A.K. Current Status of Mumps Virus Infection: Epidemiology, Pathogenesis, and Vaccine. Int J Environ Res Public Health, 2020, vol. 17, no. 5, p. 1686, doi:https://doi.org/10.3390/ijerph17051686.

43. Юминова Н.В., Контарова Е.О., Балаев Н.В., Артюшенко С.В., Контаров Н.А., Россошанская Н.В., Сидоренко Е.С., Гафаров Р.Р., Зверев В.В. Вакцинопрофилактика кори, эпидемического паротита и краснухи: задачи, проблемы и реалии. Эпидемиология и Вакцинопрофилактика, 2011, т. 4, № 59, с. 40-44.

44. Chao H., Zhang S., Hu Y., Ni Q., Xin S., Zhao L., Ivanisenko V.A., Orlov Y.L., Chen M. Integrating omics databases for enhanced crop breeding. J Integr Bioinform., 2023, doi:https://doi.org/10.1515/jib-2023-0012.

45. Orlov Y.L., Bragin A.O., Babenko R.O., Dresvyannikova A.E., Kovalev S.S., Shaderkin I.A., Orlova N.G., Naumenko F.M. Integrated Computer Analysis of Genomic Sequencing Data Based on ICGenomics Tool. In: Advances in Intelligent Systems, Computer Science and Digital Economics. CSDEIS 2019, AISC 1127, International Journal of Intelligent Systems and Applications (IJISA), 2020, pp. 154-164, doi:https://doi.org/10.1007/978-3-030-39216-1_15.


Войти или Создать
* Забыли пароль?