Кластеризация с использованием двух матриц

У меня есть две матрицы, содержащие информацию из 40 образцов и 50000 генов. Матрица Expr содержит экспрессию гена для каждого гена и образцов; Матрица Methyl содержит состояние метилирования этих генов для каждого образца. Можно ли провести кластеризацию (по генам и / или образцам) на основе информации об экспрессии и метилировании ? Я знаю, как выполнить базовую иерархическую кластеризацию в R i.e; hclust(dist(M))но это только на одной матрице.. Есть идеи / советы ?

2 ответа

  1. Если вы хотите кластеризировать образцы на основе их сходства (dis)с учетом экспрессии генов и состояния метилирования, то вы можете считать, что экспрессия генов и состояние метилирования генов для всех 50000 генов являются «признаками» каждого образца.

    Таким образом, можно объединить обе матрицы Methyl и Expr, в результате чего получается матрица 40×100000, и вычислить dist() этой матрицы.

    Аналогично, если вы хотите кластеризировать гены на основе их различий, вы можете объединить обе матрицы в матрицу 80×50000

    Надеюсь, это поможет.

  2. Необходимо определить сходство, учитывающее обе матрицы.

    Наивно, это может быть так же просто, как

    dist <- dist(A) + dist(B)
    

    однако кластеризация в целом чрезвычайно чувствительна к масштабам, и эти проблемы делают любой такой подход очень сложным. Извините-нет» правильного » или автоматического решения этой проблемы.