Г.А. Андрианов,
О.С. Кременецкая
Выбор функции плотности вероятности распределения экспрессии генов
при обработке данных в методе RNA-Seq
В настоящий момент для выравнивания гистограммы распределения ридов, полученных в результате обработки транскриптомов различных особей, предлагают использовать отрицательное биномиальное распределение. В данной работе проанализировано «физическое» обоснование возникновения уширения пуассоновского распределения и сделан вывод, что истинный вид распределения есть действительно сложное распределение Пуассона (частным случаем которого является отрицательное биномиальное распределение), однако представляет собой другой частный случай данного распределения ‒ случай n-кратной (n ‒ случайная величина с распределением Пуассона) свертки случайных величин с экспоненциальным распределением, а не логарифмически распределенных случайных величин. Показано, что распределение интенсивности экспрессии генов у группы лиц, вычисленное по опубликованным данным, лучше описывается сверткой с экспоненциальным ядром.
КЛЮЧЕВЫЕ СЛОВА: отрицательное биномиальное распределение, RNA-Seq, сложное распределение Пуассона, экспрессия генов