我的生物信息学知识合集 写在前面趁着这次培训,把学的东西都整理一下。不断更新,想到啥更新啥。。。。。。 软件推荐 ssh工具:目前在用的是Tabby,比较满意的是在一个窗口就可以实现ssh+文件的上传下载。 markdown工具:现在在用的是Typora,付费版本。 代码编辑工具: R:RStudio 其他:VS Code 软件安装VScode使用VScode主要是为了方便远程连接服务器进行远程开发。体验了几次, 2222-12-31 生物信息学 #生物信息学
泛基因组工具PGGB文档学习 文献笔记泛基因组包含了所有的序列、基因组间的同源性和所有的变异类型。泛基因组可以用于变异检测、保守性估计、重组事件评估和推断系统发育关系。现有的方法使用reference的策略和tree-guide的方法构建泛基因组,这些方法得到的遗传变异信息会不完整,也不稳定。现有的方法基本上就是把与参考基因组足够相似的序列添加到参考基因组上,这些方法后对结构上高度可变的区域进行修剪处理,例如着丝粒和其他是卫星 2025-02-25 生物信息学 #生物信息学
部署GROBID和BioBERT GROBID安装重要是使用docker进行安装。 1docker pull grobid/grobid:0.8.1 运行1docker run --rm --init --ulimit core=0 -p 8070:8070 docker.1ms.run/grobid/grobid:0.8.1 使用 全量模式:有GPU的时候可以使用。 1docker run --rm --gpus all -- 2025-02-17 生物信息学 #生物信息学
ubuntu配置程序开机自动运行 以内网穿透工具frp为例。 要设置 frpc 在 Ubuntu 系统上开机自动启动,你可以创建一个 systemd 服务文件。以下是详细的步骤: 1. 创建 systemd 服务文件首先,使用文本编辑器创建一个新的服务文件。我们将其命名为 frpc.service。 1sudo nano /etc/systemd/system/frpc.service 2. 添加服务配置在打开的文件中,添加以下内 2025-01-21 生物信息 #生物信息学
葡萄Science文章基因组学和群体遗传学代码 参考文献 Dong Y, Duan S, Xia Q, et al. Dual domestications and origin of traits in grapevine evolution[J]. Science, 2023, 379(6635): 892-901. 基因组组装和注释12345678910111213141516171819202122232425262728293031 2025-01-07 生物信息学 #生物信息学
R包biohelpers使用说明 安装从GitHub上安装: 1devtools::install_github("lixiang117423/biohelpers") 常用的功能模块主成分分析(PCA)参数 data:数据框,行是样品,列是特征值,比如基因表达量表行为样品名称,列为基因名称。 sample:样品分组信息,有一列是sample,表示样品名称,需要和data的样品名称完全一致, pca.num:要保留计算结果中的多少 2024-12-26 生物信息学 #生物信息学
从NCBI批量获取物种的分类信息 软件下载从NCBI官方网站下载datasets和dataformat,chmod修改为可执行文件即可。 输入文件直接用拉丁名即可。但是不能是Hordeum vulgare L.这种格式,不然会报错: 12345678910111213The taxonomy name 'Hordeum vulgare L.' is not exact. Try using one of the suggested 2024-11-25 生物信息学 #生物信息学
全基因组DNA甲基化分析流程 测序原理甲基化的C在Bisulfite处理后不会发生变化;未发生甲基化的C在处理后会变为U,PCR扩增后会变为T. 因此甲基化比对时需要特定的基因组,所以需要对基因组进行转换:C->T 和 G->A. 上游分析DNA甲基化比对使用最广泛的比对软件是Bowtie2,因此选择Bowtie2作为比对器(不同的比对软件需要不同的index文件)。 基因组准备需要基因组序列文件,把gff3文件 2024-10-10 生物信息学 #生物信息学
bismark过程中的一个小细节 在最后一步bismark_methylation_extractor的时候,输出的.bedGraph 和 .bismark.cov是空文件,在目标目录下有一大堆的.temp文件。看了mapping这一步的结果的report和summary,是没有问题的。那肯定是哪里有问题了。 各种检索,终于是发现了问题所在,参考no bedGraph output #180: Your genome of in 2024-09-24
真菌分泌蛋白预测流程 软件配置DeepLoc 2.0参考文献: Thumuluri V, Almagro Armenteros J J, Johansen A R, et al. DeepLoc 2.0: multi-label subcellular localization prediction using protein language models[J]. Nucleic acids research, 2 2024-08-29 生物信息学 #生物信息学
遗传力的概念和计算 前言在作物育种过程中,通常会有多年多点的试验,这种试验通常叫做多环境试验(multi-environment trial,MET)。为了对MET进行准确的测量、最终实现实现MET的准确比较,育种学家通常会计算广义遗传力和狭义遗传力。这个文档主要有三个目的: 说清楚遗传力的概念; 展示使用合适的方法计算遗传力; 提供稳定的方法计算和比较田间试验的准确信。 遗传力的定义下图A中的公式表示表型可以用 2024-08-27 生物信息学 #生物信息学
自动下载校验fastq文件 首先,直接在ENA上检索想要下载的数据,如: 有两个信息很重要,MD5值和Aspera链接。 选择TSV下载格式将信息下载下来,然后使用R进行处理,获得最终要的数据格式。R代码如下: 1234567891011121314151617181920212223rm(list = ls())dir("data/生信挖掘/水稻多效基因/data/ENA下载信息/") %>% as.data. 2024-08-21 生物信息学 #生物信息学