目前进展

1) 用Rcpp改进算法,单独一个估参约,速度为之前的1/2,多组联合估参速度加快较明显,5组7h vs 1.2h

2) 完成simulation,确认EM结果

  • 如果用posterior更新pi,则得到的gama != simulated gama; 若只更新gama,则得到的average gama ≈ simulated gama

已解决:每轮pi值更新,n_risk_genes也应该相应改变。

3) 用Optim 更新gama, 并利用后验概率更新pi0, gama最后收敛,annota effect size增大

  • cutoff: 相对误差<1e-5,于第47轮收敛,第一轮1.8,收敛值为2.5

问题

  • 多组annotation收敛的标准
  • 多组注释是否要按这种方案得出posterior(13组一轮joint estimation 用时4.3h,平均一组跑47轮收敛)
  • 若用这种方案,则pi,gamma的初始值对收敛值影响不大 (不用管scalar pi0)

4) 按贺老师的方案,用optim同时估gamma和一个scalar pi0,初始值的设定对结果有时有很大影响

问题: 如何解决局部最优

5) 根据annota之间关联性筛选功能注释

现状:用不同注释下,所有在window中的mutation做overlap, 并用overlap占比做heatmap, >40% 则两两中删除一个,重复几次

问题:是否应该用不同注释下,窗口里的DNM做overlap

下周计划

  • 讨论3),4),5)存在的问题
  • 完成5)
  • 分析风险基因
  • 测试CHD data