我的生物信息学知识合集 写在前面趁着这次培训,把学的东西都整理一下。不断更新,想到啥更新啥。。。。。。 软件推荐 ssh工具:目前在用的是Tabby,比较满意的是在一个窗口就可以实现ssh+文件的上传下载。 markdown工具:现在在用的是Typora,付费版本。 代码编辑工具: R:RStudio 其他:VS Code 软件安装VScode使用VScode主要是为了方便远程连接服务器进行远程开发。体验了几次, 2222-12-31 生物信息学 #生物信息学
BRAKER学习笔记 1 BRAKER3的优势 可以使用转录组和蛋白数据2 基因预测成功的关键 高质量的基因组:short scaffolds太多的话不会得到很准确的结果。 简单的序列名称:如Chr1这种是最好的。 要标记重复序列:the genome should be masked for repeats,避免对重复序列和低复杂度区域预测到基因结构;转录组数据比对是重复序列也会影响;在GeneMark-ES/ET/ 2025-04-25 生物信息学 #生物信息学
根际微生物调控水稻分蘖 1 材料方法 实验设计与样本采集 田间试验设计:使用182个基因组测序水稻品种(来自美国农业部水稻种质资源库的Mini-core集合),在两个田间(I和II)随机种植并重复。 微生物与表型数据收集:采集根际微生物样本(基于16S rRNA测序),统计分蘖数,每个品种3-6个生物学重复,共获得2,128个根样本和78,653,817条高质量测序序列。 数据分析:通过线性回归模型评估根际微生物 2025-04-24 文献阅读 #文献阅读
泛基因组工具PGGB文档学习 文献笔记泛基因组包含了所有的序列、基因组间的同源性和所有的变异类型。泛基因组可以用于变异检测、保守性估计、重组事件评估和推断系统发育关系。现有的方法使用reference的策略和tree-guide的方法构建泛基因组,这些方法得到的遗传变异信息会不完整,也不稳定。现有的方法基本上就是把与参考基因组足够相似的序列添加到参考基因组上,这些方法后对结构上高度可变的区域进行修剪处理,例如着丝粒和其他是卫星 2025-02-25 生物信息学 #生物信息学
部署GROBID和BioBERT GROBID安装重要是使用docker进行安装。 1docker pull grobid/grobid:0.8.1 运行1docker run --rm --init --ulimit core=0 -p 8070:8070 docker.1ms.run/grobid/grobid:0.8.1 使用 全量模式:有GPU的时候可以使用。 1docker run --rm --gpus all -- 2025-02-17 生物信息学 #生物信息学
ubuntu配置程序开机自动运行 以内网穿透工具frp为例。 要设置 frpc 在 Ubuntu 系统上开机自动启动,你可以创建一个 systemd 服务文件。以下是详细的步骤: 1. 创建 systemd 服务文件首先,使用文本编辑器创建一个新的服务文件。我们将其命名为 frpc.service。 1sudo nano /etc/systemd/system/frpc.service 2. 添加服务配置在打开的文件中,添加以下内 2025-01-21 生物信息 #生物信息学
葡萄Science文章基因组学和群体遗传学代码 参考文献 Dong Y, Duan S, Xia Q, et al. Dual domestications and origin of traits in grapevine evolution[J]. Science, 2023, 379(6635): 892-901. 基因组组装和注释12345678910111213141516171819202122232425262728293031 2025-01-07 生物信息学 #生物信息学
R包biohelpers使用说明 安装从GitHub上安装: 1devtools::install_github("lixiang117423/biohelpers") 常用的功能模块主成分分析(PCA)参数 data:数据框,行是样品,列是特征值,比如基因表达量表行为样品名称,列为基因名称。 sample:样品分组信息,有一列是sample,表示样品名称,需要和data的样品名称完全一致, pca.num:要保留计算结果中的多少 2024-12-26 生物信息学 #生物信息学
从NCBI批量获取物种的分类信息 软件下载从NCBI官方网站下载datasets和dataformat,chmod修改为可执行文件即可。 输入文件直接用拉丁名即可。但是不能是Hordeum vulgare L.这种格式,不然会报错: 12345678910111213The taxonomy name 'Hordeum vulgare L.' is not exact. Try using one of the suggested 2024-11-25 生物信息学 #生物信息学
全基因组DNA甲基化分析流程 测序原理甲基化的C在Bisulfite处理后不会发生变化;未发生甲基化的C在处理后会变为U,PCR扩增后会变为T. 因此甲基化比对时需要特定的基因组,所以需要对基因组进行转换:C->T 和 G->A. 上游分析DNA甲基化比对使用最广泛的比对软件是Bowtie2,因此选择Bowtie2作为比对器(不同的比对软件需要不同的index文件)。 基因组准备需要基因组序列文件,把gff3文件 2024-10-10 生物信息学 #生物信息学
bismark过程中的一个小细节 在最后一步bismark_methylation_extractor的时候,输出的.bedGraph 和 .bismark.cov是空文件,在目标目录下有一大堆的.temp文件。看了mapping这一步的结果的report和summary,是没有问题的。那肯定是哪里有问题了。 各种检索,终于是发现了问题所在,参考no bedGraph output #180: Your genome of in 2024-09-24
真菌分泌蛋白预测流程 软件配置DeepLoc 2.0参考文献: Thumuluri V, Almagro Armenteros J J, Johansen A R, et al. DeepLoc 2.0: multi-label subcellular localization prediction using protein language models[J]. Nucleic acids research, 2 2024-08-29 生物信息学 #生物信息学