Идентификация и визуализация коротких несовершенных повторов

Тандемные повторы в ДНК — это две или более приблизительные копии нуклеотидных паттернов. Было показано, что тандемные являются причиной заболеваний человека,
могут играть роль в регуляции и эволюции и являются важными лабораторными и аналитическими инструментами. Обширные знания о размере шаблона, количестве копий, истории мутаций и т.д. для тандемных повторов ограничено тем, что их нелегко обнаружить их в данных геномных последовательностей. В этой статье мы представляем новый алгоритм для нахождения тандемных повторов, который работает без необходимости указания шаблона или размера рисунка. Согласно нашей модели тандемных повторов по проценту идентичности и частоты вставкам между соседними копиями шаблонов и использовать критерии распознавания статистически на основе.

Показана скорость алгоритма и его способность обнаруживать тандемные повторы, которые претерпели значительные мутационные изменения в ходе анализа 4 последовательностей: the human frataxin gene, the human beta T cellreceptor locus sequence и 2 искусственных дрожжевых хромосомы.

Предлагаются следующие программы для анализа последовательностей  ДНК:

Repeats_Finder

scr1

scr2

Программа предназначена для поиска несовершенных повторов различных типов в нуклеотидных последовательностях.

Виды повторов

В зависимости от типа соответствия рассмотрим следующие типы повторов:

Прямой повтор — две (L, K) сегменты расположены в той же ориентации в одной цепи ДНК;

Симметричный — две (L, K) сегменты расположены в противоположной ориентации в одной нити ДНК;.

Прямые дополнительные повторы — два сегмента расположены в той же ориентации в различных нитях ДНК;.

Обратные повторы — два сегмента расположены в противоположной ориентации в разных строках ДНК

Функции программы

Программа выполняет поиск повторов по группам кластеров (L, K). После поиска запускается процедура оптимизации, состоящая из следующих этапов:

конкатенация групп (L, K) в одном наборе . Во время этого:

Границы повторов расширяются, если есть совпадающие нуклеотиды;

Все богатые повторы  удаляются.

Программа предназначена для визуализации результатов поиска повторов и является частью программы  OligoRep.

Информация о визуализации

Различные виды повторов (direct, symmetrical, direct complementary, inversed) отображены  различными цветами.
Каждый повтор строится на отдельной двухцепочечной ДНК.
Двойным щелчком мыши по конкретному повтору можно узнать дополнительную информацию, такую как:

Длина копии
Номер позиции несоответсвия
Позиция в строке ДНК-мишени
Содержимое отмеченной нуклеотидной последовательности

Нуклеотидные позиции расположены в верхней части изображения на полосе. Нуклеотиды отмечены следующими цветами:

А — аденин (желтый)
Т — тимин (коричневый)
G — гуанин (черный)
C — цитозин (белый)

Элементы управления

Очистить
Очистить область изображения
Max +
Min  —
Изменение масштаба
Двойной щелчок
Повторить структуру и визуализацию содержимого

Oligonucleotids repeats finder:

http://lcg.nsu.ru/ru/repeats-finder/

Авторы работы: В.В. Базин, П.С. Косарев, В.Н. Бабенко