目前进展
1) 用Rcpp改进算法,单独一个估参约,速度为之前的1/2,多组联合估参速度加快较明显,5组7h vs 1.2h
2) 完成simulation,确认EM结果
- 如果用posterior更新pi,则得到的gama != simulated gama; 若只更新gama,则得到的average gama ≈ simulated gama
已解决:每轮pi值更新,n_risk_genes也应该相应改变。
3) 用Optim 更新gama, 并利用后验概率更新pi0, gama最后收敛,annota effect size增大
- cutoff: 相对误差<1e-5,于第47轮收敛,第一轮1.8,收敛值为2.5
问题:
- 多组annotation收敛的标准
- 多组注释是否要按这种方案得出posterior(13组一轮joint estimation 用时4.3h,平均一组跑47轮收敛)
- 若用这种方案,则pi,gamma的初始值对收敛值影响不大 (不用管scalar pi0)
4) 按贺老师的方案,用optim同时估gamma和一个scalar pi0,初始值的设定对结果有时有很大影响
https://yfu1116.github.io/project/2021-03-25-optim-multi-scalar-pi-gama/
https://yfu1116.github.io/project/2021-04-07-optim-multi-scalar-pi-gama/
问题: 如何解决局部最优
5) 根据annota之间关联性筛选功能注释
现状:用不同注释下,所有在window中的mutation做overlap, 并用overlap占比做heatmap, >40% 则两两中删除一个,重复几次
问题:是否应该用不同注释下,窗口里的DNM做overlap
下周计划
- 讨论3),4),5)存在的问题
- 完成5)
- 分析风险基因
- 测试CHD data