Двунаправленные лучшие хиты пропускают множество ортологов в богатых дупликацией кланах, таких как растения и животные

  1. Концептуальные преимущества и ограничения ВВН
  2. Производительность ВВН по данным моделирования
  3. Границы BBH на реальных данных
  4. Таблица 1
  5. Выводы
  6. Имитированные наборы данных
  7. Таблица 2
  8. Реальные наборы данных
  9. Ортологический вывод

Два гена называются ортологами, если они произошли от своего последнего общего предка после события видообразования, и паралоги, если они возникли в результате события дублирования генов ( Фитч 1970 ). Точная идентификация ортологов и паралогов является обязательным условием для многих анализов в сравнительной геномике и активной области исследований ( Дессимоз и соавт. 2012 ). Одним простым и широко распространенным подходом к определению ортологии является метод двунаправленного наилучшего попадания (BBH) (также известный как взаимное наилучшее попадание или взаимное взрывное попадание): вызывать в качестве ортологов все пары генов между двумя видами, которые являются более сходными (то есть с наивысшим выравниванием счет) друг к другу, чем к любому другому гену в других видах ( Overbeek и соавт. 1999 ). Мы и другие ранее отмечали, что, несмотря на свою простоту и существенные концептуальные ограничения (подробно изложенные ниже), результаты, полученные с помощью ВВН, порой оказываются на удивление надежными по сравнению с более сложными методами ( Hulsen et al. 2006 ; Альтенхофф и Дессимоз 2009 ; Салихос и Рокас 2011 ).

В недавней статье, опубликованной в Genome Biology and Evolution , Волк и Кунин (2012) исследовали связь между ВВН и ортологией, используя консервативный порядок генов в бактериальных и археальных геномах. Они наблюдали высокую согласованность в спаривании BBH среди соседних генов и пришли к выводу, что «по крайней мере у прокариот, гены, для которых имеются независимые доказательства ортологии, обычно образуют BBH и, наоборот, BBH могут служить сильным показателем генной ортологии». Действительно, в их рамках оценки почти все проверенные ВВН оказались добросовестными ортологами. Однако это не обязательно означает, что обратное утверждение («почти все ортологи являются ВВН») верно. Другими словами, наблюдение о том, что ВВН как предиктор ортологии имеет высокую точность, ничего не говорит о частоте его отзыва.

Здесь мы вновь рассмотрим вопрос о связи между ВВН и ортологией, используя три направления исследования. Во-первых, мы представляем концептуальные аргументы о преимуществах и ограничениях ВВН как предиктора ортологии. Во-вторых, мы используем недавнюю доступность инструмента моделирования эволюции генома для оценки эффективности ВВН в зависимости от скорости дупликации генов. Наконец, мы оцениваем эффективность ВВН на реальных биологических данных по всем кластерам из всех трех областей жизни. Эти разные линии подтверждают высокую точность BBH, наблюдаемую Волк и Кунин (2012) , но также демонстрируют, что ВВН может пропускать значительную часть ортологов в присутствии дублированных генов и, таким образом, является субоптимальным у животных и растений, где скорость дупликации генов сравнительно высока.

Концептуальные преимущества и ограничения ВВН

В качестве первого шага мы пытаемся понять из первых принципов, в каких сценариях BBH работает хорошо, а в каких - нет. Чтобы увидеть, где работает BBH, давайте рассмотрим мотивацию метода. Предполагая, что гены развиваются вдоль деревьев, у которых расщепления вызваны либо видообразованием, либо дупликацией генов, обратите внимание, что между любыми двумя видами ортологичные гены начинают расходиться после всех непаралогичных генов (то есть после всех паралогичных генов, которые охватывают два рассматриваемых вида). ). В самом деле, по определению, out-paralogs являются результатом дупликации генов, обязательно предшествующих видообразованию. Исходя из предположения о молекулярных часах или околомолекулярных часах, мы можем ожидать, что пары генов, которые начали расходиться позже, накапливали меньше изменений и, следовательно, имели в целом более высокий балл выравнивания, что мотивирует использование ВВН ( а ).

Исходя из предположения о молекулярных часах или околомолекулярных часах, мы можем ожидать, что пары генов, которые начали расходиться позже, накапливали меньше изменений и, следовательно, имели в целом более высокий балл выравнивания, что мотивирует использование ВВН ( а )

Показатели ВВН в концептуальных примерах. ( а ) ВВН восстанавливает ортологичную пару, потому что ортологичная пара ближе, чем паралогичная, из-за эволюции, накопленной между событиями дупликации и видообразования (выделено жирным шрифтом). ( б ) BBH идентифицирует только одну из двух ортологичных пар, а именно ту, которая имеет более высокий балл. Этот сценарий распространен, если дублирование происходит после интересующих видов. ( c ) ВВН идентифицирует паралоги, если у обоих видов отсутствует ортологичный аналог. Это может произойти, если скорость потери генов высока (например, после дупликации всего генома). ( d ) ВВН идентифицирует паралоги, если отклонение от молекулярных часов настолько сильно, что паралоги ближе по последовательности, несмотря на то, что начали расходиться перед ортологами.

Одним из важных ограничений ВВН является то, что он может обнаруживать только ортологию 1: 1: при наличии дупликации после последнего общего предка рассматриваемого вида некоторые виды могут содержать более одного ортологичного гена. Поскольку он выбирает только пару с наивысшей оценкой, BBH в лучшем случае идентифицирует подмножество ортологичных отношений, вызывая тем самым «ложные негативы» ( b ).

Обратите внимание, что с точки зрения ортологии и паралогии, нет никакого различия между «оригиналом» и «копией» генного дублирования. В игрушечном примере b мышь 5 может быть результатом дублирования мыши 6 в другой геномный локус. Хотя это может сделать мышь 5 более или менее интересной, чем мышь 6, с функциональной точки зрения, это не имеет значения с точки зрения ортологии, так как ортология определяется исключительно с точки зрения родовых отношений генов, а не их расположения в геноме. или функциональные соображения.

Чтобы увидеть, насколько проблематичными могут быть специфичные для линии происхождения дупликации для ВВН, рассмотрим ген, который подвергается независимому дупликации у двух видов, в результате чего m копий у одного вида и n копий у другого. В результате все m копий в первом виде ортологичны всем n копиям в другом ( m-to-n ортология), что приводит к Чтобы увидеть, насколько проблематичными могут быть специфичные для линии происхождения дупликации для ВВН, рассмотрим ген, который подвергается независимому дупликации у двух видов, в результате чего m копий у одного вида и n копий у другого ортологичные генные пары. Из них ВВН может максимально идентифицировать пар. Поэтому, если характерны дупликации по линии происхождения, ВВН пропустит большую часть ортологов.

Как насчет ложных срабатываний (ВВН, которые являются паралогами)? Во-первых, существует случай дифференциальной потери генов, который приводит к отсутствию ортологичных генов у двух видов и может привести к тому, что ВВН находится между паралогами ( с ; см. Также Дессимоз и соавт. 2006 ; Scannell et al. 2006 ). Во-вторых, отклонение от молекулярных часов может привести к тому, что паралогичные пары окажутся ближе, чем фактический ортолог ( d ). Наконец, пары с наивысшей оценкой не всегда являются эволюционными ближайшими парами ( Коски и Голдинг 2001 ). Например, недавно мы продемонстрировали разрушительное влияние артефактов, вызванных ошибками последовательности и сборки: неоднозначные символы приводят к возмущениям в оценках выравнивания, снижая точность ВВН ( Dalquen et al. 2013 ).

Эти теоретические соображения дают нам представление о потенциальных успехах и неудачах ВВН, но для оценки эффективности ВВН на практике мы обращаемся к эмпирическому анализу.

Производительность ВВН по данным моделирования

Чтобы количественно оценить влияние дупликации генов на долю ортологов, которые являются ВВН, мы смоделировали наборы данных из 30 геномов с различными уровнями дупликации, используя пакет программ ALF ( Dalquen et al. 2012 ; см. также Материалы и методы). Затем мы использовали Basic Alignment Search Tool (Blast) ( Altschul et al. 1990 ) идентифицировать пары генов ВВН и сравнить их с настоящими ортологами, как указано в программе моделирования. Для сравнения мы также проанализировали предсказания Inparanoid ( Остлунд и соавт. 2010 ) и OMA / GETHOGs ( Altenhoff et al. 2013 ). Мы вычислили тренды точности (доля предсказанных ортологов, которые являются настоящими ортологами) и отзыва (доля истинных ортологов, которые правильно предсказаны) как функции истинной доли отношений не-1-к-1, которые увеличиваются по мере увеличения скорости дупликации генов. В соответствии с двумя другими методами, точность ВВН оставалась на очень высоком уровне с увеличением частоты дупликации, что указывает на то, что почти все гены, образующие ВВН, являются добросовестными ортологами ( а ). Эта часть нашего анализа подтверждает результаты Волк и Кунин (2012) , Напротив, в отличие от поведения более сложных методов, отозвание ВВН быстро уменьшалось с увеличением частоты дублирования ( b ). Такое поведение указывает на то, что доля ортологов, которые являются ВВН, уменьшается по мере увеличения числа отношений, не связанных с 1-к-1.

Такое поведение указывает на то, что доля ортологов, которые являются ВВН, уменьшается по мере увеличения числа отношений, не связанных с 1-к-1

Взаимосвязь между долей ортологии не-1-к-1 и точностью / отзывом для ВВН (красным) на смоделированных наборах данных с различными пропорциями генов с историей дупликаций. Результаты для Inparanoid (зеленый) и OMA / GETHOG (синий) приведены для сравнения. Каждая точка соответствует среднему значению пяти повторностей. Столбики ошибок дают 95% доверительный интервал средних значений в обоих измерениях.

Чтобы убедиться, что наши результаты справедливы для разных уровней потерь, мы повторили анализ по восьми сценариям с различными комбинациями потери генов и уровней дупликации (см. Материалы и методы). Результаты были в высокой степени согласованы во всех условиях контроля ( дополнительные фиг. S1-S5 , Дополнительный материал онлайн).

Поскольку BBH иногда используют для посева ортологичных групп, например, в Inparanoid, мы также исследовали охват ортологичных групп (то есть кластеров n: m ортологов с Поскольку BBH иногда используют для посева ортологичных групп, например, в Inparanoid, мы также исследовали охват ортологичных групп (то есть кластеров n: m ортологов с   ) достигнутые BBH, OMA / GETHOGs и Inparanoid ) достигнутые BBH, OMA / GETHOGs и Inparanoid. Мы наблюдали, что даже при высоких показателях прироста и потери генов все три метода почти всегда восстанавливают по крайней мере одну из ортологичных пар, связанных с каждой ортологичной группой ( дополнительный рис. S7 , Дополнительный материал онлайн).

Границы BBH на реальных данных

Наконец, мы попытались оценить эффективность ВВН на шести непересекающихся наборах реальных геномов (20 архей, 20 Firmicutes, 20 γ-протеобактерий, 23 грибов, 20 животных и 12 растений; см. Также Материалы и методы). Поскольку истинные эволюционные связи в этом случае неизвестны, мы использовали ортологи, выведенные с помощью алгоритмов GETHOG и Inparanoid, в качестве эталона: рассматривая наборы пересечений и объединений ортологов, выведенные двумя методами, мы можем получить приблизительные оценки нижней и верхней границы для производительность ВВН. Мы проверили этот подход на смоделированных наборах данных, для которых мы знаем правду, и обнаружили, что результирующие линии тренда очень близки к истине ( дополнительный рис. S6 , Дополнительный материал онлайн).

Результаты этого анализа по шести наборам биологических данных представлены в и. В соответствии с результатами моделирования, вспоминание (красный) быстро падает с увеличением доли дублированных генов. Падение более выражено, чем для смоделированных данных, возможно, из-за дополнительных трудностей моделирования реальных последовательностей. Интересно, что хотя наш подход оценки дает относительно большие диапазоны неопределенности (отраженные в длинных пунктирных стрелках на графике), благоприятное направление неопределенности таково, что мы получаем очень непротиворечивую линию тренда между результатами, полученными от объединения и пересечения GETHOG. и инпараноид. Однако, как отмечено выше, ВВН является адекватным способом для посева ортологичных групп ( дополнительный рис. S8 , Дополнительный материал онлайн).

Точность и отзыв BBH на реальных наборах биологических данных, оцененных по пересечению и объединению наборов ортологов, выведенных Inparanoid и GETHOGs - пересечение, дающее нижнюю границу для точности и отзыва, и объединение, дающее верхнюю границу для точности и отзыва. Линии тренда изображают регрессию по средним точкам.

Таблица 1

Статистика, полученная путем сравнения BBH с пересечением и объединением прогнозов Inparanoid и GETHOG на реальных данных

Набор данных Набор данных   -   № Ортологичные пары% Ортологи, не относящиеся к 1 к 1%, пропущенные ВВН Археи 116, 187–202, 117 126 865–180 691 7,48–35,88 5,0–27,40 Metazoa 1 049 129–3 089 297 45,93–80,30 35,98–73,69 Viridiplantae 883 507–2 231 018 66,73–87,25 46,59–75,09 - № Ортологичные пары% Ортологи, не относящиеся к 1 к 1%, пропущенные ВВН Археи 116, 187–202, 117 126 865–180 691 7,48–35,88 5,0–27,40 Metazoa 1 049 129–3 089 297 45,93–80,30 35,98–73,69 Viridiplantae 883 507–2 231 018 66,73–87,25 46,59–75,09

Точность BBH на реальных данных (синий) оценить труднее из-за неблагоприятной ориентации диапазонов неопределенности, что приводит к большей неопределенности на склоне общей линии тренда. Тем не менее, результаты в значительной степени согласуются с моделируемыми данными, так как точность остается относительно высокой во всех наборах данных даже по консервативным оценкам, полученным путем пересечения GETHOG и Inparanoid.

Выводы

Учитывая важность концепции ортологии во многих геномных исследованиях, надежная идентификация ортологичных генов имеет решающее значение для многих последующих анализов. Часто методы, основанные на ВВН, используются для вывода ортологии, иногда предполагая эквивалентность между ними. Наши результаты подтверждают выводы Волк и Кунин (2012) что пары генов, которые являются ВВН, действительно могут быть ортологичными. Но в то же время наши концептуальные и эмпирические анализы показывают, что даже для относительно простых эволюционных сценариев ВВН может пропускать большую часть ортологичных отношений. На реальных биологических данных мы также наблюдаем, что доля дублированных генов и, следовательно, пропущенных ортологов значительна даже у бактерий и архей (5-50% пропущенных ортологов в зависимости от набора данных и строгости анализа). У растений и животных, где частота дупликации генов значительно выше, ВВН пропускает большую часть ортологов (по оценкам, пропущенные ортологи 55–60%).

В определенных обстоятельствах использование BBH, тем не менее, может быть оправдано. Например, мы показали выше, что ВВН эффективен при восстановлении семян ортологичной группы. Аналогично, в экспериментах, которые требуют только нескольких, но проверенных ортологов, эффективность ВВН является достаточной.

Тем не менее, если важна полнота прогнозирования ортологии, методы, имеющие дело с ортологией «многие ко многим», должны быть предпочтительнее, чем удобный, но изначально ограниченный подход ВВН.

Имитированные наборы данных

Мы смоделировали данные с ALF ( Dalquen et al. 2012 ) с использованием той же базовой установки, что и в предыдущем исследовании на основе моделирования прогнозирования ортологии ( Dalquen et al. 2013 ): мы использовали топологию с 30 видами, отобранными из дерева 224 γ-протеобактерий по оценке проекта OMA ( Altenhoff et al. 2011 ). Родовой геном состоял из 1000 аминокислотных последовательностей, отобранных из стационарного распределения модели замещения WAG ( Уилан и Голдман 2001 ), который также использовался для имитации замен. Длина последовательности была взята из гамма-распределения, подобранного по длинам генов бактериальных геномов. Цены на вставки и удаления были Мы смоделировали данные с ALF (   Dalquen et al за PAM на сайт, и длина каждой вставки и удаления была выбрана из распределения Zipfian с показателем степени 1.821 ( Беннер и Коэн 1993 ).

Мы создали пять сценариев с различной частотой дупликации генов, основанных на полученной пропорции генов с фоном дупликации. Помимо базовой линии без дублирования или потерь, мы выбрали четыре пропорции, которые находятся в пределах диапазона, который, как считается, присутствует у реальных видов ( Чжан 2003 ), от 10% до 40%. Коэффициент потери генов оставался постоянным, совпадая с частотой дублирования набора данных с 10% дублированиями (0,003 на ген на единицу PAM). Все моделирования были повторены пять раз, чтобы получить оценку дисперсии выборки (с учетом фиксированных параметров). Сводка параметров и ключевых статистических данных дана в.

Таблица 2

Основные статистические данные для смоделированных наборов данных

Кроме того, мы создали восемь сценариев, в которых мы варьировали и коэффициент потерь. В четырех сценариях показатели дублирования и потерь были установлены равными. Из оставшихся сценариев один имел долю генов с фоном дублирования 10% и коэффициентом потерь, который в три раза превышал коэффициент дублирования. Два из них имели долю 30% генов с фоном дупликации и уровнем потерь, равным одной трети или трехкратной частоте удвоения. Для последнего сценария мы устанавливаем уровень потерь равным нулю, а доля генов с фоном дублирования - 40%. Наконец, мы повторили все моделирования на меньшем наборе из 20 геномов, используя в качестве основного дерева видов случайную подвыборку дерева 37 видов млекопитающих из проекта OMA ( Altenhoff et al. 2011 ).

Реальные наборы данных

Мы собрали шесть наборов данных, охватывающих все царства древа жизни. За двумя исключениями, мы использовали деревья разных классов, как было установлено проектом OMA, и обрезали их до 20 листьев, многократно идентифицируя наиболее тесно связанные пары видов и удаляя один из них. Для набора данных Fungi мы использовали все 23 вида грибов, доступных в OMA, а для набора данных Viridiplantae мы использовали все 12 видов, являющихся частью OMA (см. дополнительные таблицы S1 – S6 , Дополнительный материал онлайн, для списка видов в каждом наборе данных). Мы не предполагали какого-либо вида дерева, так как тестируемые методы не требуют его в качестве входных данных.

Ортологический вывод

Для расчета BBH мы следовали методологии, описанной Волк и Кунин (2012) , Для каждого набора данных мы выполнили парное выравнивание последовательностей всех генов всех геномов, используя Blast с E- значением 0,01. Взрывные удары считались ВВН, если они забили Для расчета BBH мы следовали методологии, описанной   Волк и Кунин (2012)   ,  Для каждого набора данных мы выполнили парное выравнивание последовательностей всех генов всех геномов, используя Blast с E- значением 0,01 из самых результативных хит. Наряду с ВВН мы также использовали Inparanoid 4.1 ( Остлунд и соавт. 2010 ) и GETHOGs ( Altenhoff et al. 2013 ) на наборах данных. В последнем методе мы использовали опцию выведения видового дерева из данных и вывели набор индуцированных ортологичных пар генов из иерархических группировок.

На смоделированных наборах данных мы сравнили набор предполагаемых парных ортологов всех трех методов с набором истинных ортологов, полученных в результате моделирования. Чтобы оценить эффективность ВВН на реальных данных, мы сравнили ее вывод с наборами объединения и пересечения ортологичных пар из Inparanoid и GETHOG, которые мы рассматривали как настоящих ортологов.

Как насчет ложных срабатываний (ВВН, которые являются паралогами)?
Комментарии к этой заметке больше не принимаются.


декабрь, 2011
пн вт ср чт пт сб вс
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

Финансы. Инвестирование и правильное вложение средств. банки