NCBI爬取单子叶双子叶信息

import os
import requests
from bs4 import BeautifulSoup
import re

file_write = open("/home/lixiang/temp_file/latin.name.group.txt","w")
cot_list = ["eudicots", "monocots"]

file_open = open("/home/lixiang/temp_file/latin.name.txt","r")
file_read = file_open.readlines()
for name in file_read:
    url = "https://www.ncbi.nlm.nih.gov/taxonomy/?term=" + name.replace(" ","+")
    res = requests.get(url)
    soup = BeautifulSoup(res.text, 'html.parser')
    item = soup.find("div", class_="supp").find("p").text.split(",")
    for i in item:
        i = i.replace(" ","")
        if i in cot_list:
            write_content = name.replace("\n","") + "\t" + i.replace(" ","") + "\n"
            file_write.write(write_content)
            
file_write.close()

生物信息学

#生物信息学

NCBI爬取单子叶双子叶信息

https://lixiang117423.github.io/article/monocotdicotncbi/

作者

小蓝哥

发布于

2022年11月15日

许可协议

Ubuntu服务器Rstudio-server报错上一篇

blogdown部署到云服务器下一篇