Mumemto给的构建线性泛基因组的方法
完整工作流程
步骤1:找到所有基因组共有的序列(核心序列)
1 |
|
参数说明:
- 默认:匹配必须在所有序列中出现,且每个序列中只出现一次
-l 100
:设置最小匹配长度为100bp
步骤2:找到每个基因组特有的序列
1 |
|
参数说明:
-k 1
:匹配只需要在1个序列中出现-f 1
:每个序列中最多出现1次-l 100
:保持相同的最小长度标准
步骤3:合并序列构建代表基因组
方法A:直接拼接(简单方法)
1 |
|
方法B:更精细的合并策略
1 |
|
优化的完整命令序列
第一步:准备和核心序列分析
1 |
|
第二步:特有序列分析
1 |
|
第三步:可选的中间分析
1 |
|
后续处理建议
1. 序列提取和质量控制
1 |
|
2. 构建最终代表序列的策略
方案A:简单拼接
- 核心序列 + 所有特有序列
方案B:分层组织
- 主体:核心序列
- 附录:按基因组分组的特有序列
方案C:基于参考基因组的插入
- 选择一个参考基因组作为骨架
- 在适当位置插入其他基因组的特有序列
3. 参数调整建议
针对水稻基因组的特点:
1 |
|
验证和质量检查
1 |
|
这样您就能获得一个包含所有30个水稻基因组信息的代表性序列集,既包含保守的核心成分,也包含每个基因组的独特贡献。
输出文件:
Mumemto软件的输出文件格式总结如下:
主要输出文件类型
1. *.mums
文件
生成条件:当最大出现次数参数(
-f
)设置为1时生成(默认)格式:
1
[MUM长度] [各序列中偏移量的逗号分隔列表] [链方向指示符的逗号分隔列表(+/-)]
特点:
- 每行代表一个multi-MUM(多重最大唯一匹配)
- 在每个序列中最多出现一次
- 偏移量和链信息按
*.lengths
文件中的序列顺序排列 - 如果某个序列中不存在该MUM,对应字段留空
- 按匹配序列的字典序排序
2. *.lengths
文件
- 功能:定义输出中序列的顺序,包含每个输入序列的长度信息
3. *.bumbl
文件(v1.2新增)
- 性质:
*.mum
文件的二进制版本 - 优势:
- 文件更小
- 处理速度显著更快(对于大型数据集可快几个数量级)
- 特别适用于包含数百万个multi-MUM的大数据集
- 转换:可通过
mumemto convert -b <prefix>.bumbl > out.mums
转换为人类可读格式
4. *.mems
文件
生成条件:当允许每个序列中出现多于一次匹配时(
-f
> 1)格式:
1
[MEM长度] [每次出现的偏移量逗号分隔列表] [序列ID逗号分隔列表] [链方向指示符逗号分隔列表(+/-)]
特点:
- 偏移量顺序不固定
- 增加了序列ID字段来标识每个偏移量的来源序列
- 同样按字典序排序
重要说明
- 所有输出文件中的序列顺序都遵循
*.lengths
文件中定义的顺序 - 使用
convert
模块转换时,multi-MUM会按第一个序列中的位置排序,这对共线性分析很有用
Mumemto给的构建线性泛基因组的方法
https://lixiang117423.github.io/article/mumemto/