使用靓汤导航到下一页

post_params = { 'term' : val, 'EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.PageSize' : 20, 'EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Pubmed_DisplayBar.sPageSize' : 20, 'coll_start' : 61, 'citman_count' : 20, 'citman_start' : 61, 'coll_start2' : 61, 'citman_count2' : 20, 'citman_start2' : 61, 'CollectionStartIndex': 1, 'CitationManagerStartIndex' : 1, 'CitationManagerCustomRange' : 'false', 'EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Entrez_Pager.cPage' : 3, 'EntrezSystem2.PEntrez.PubMed.Pubmed_ResultsPanel.Entrez_Pager.CurrPage' : 4, } """This part handles the scraping business""" post_args = urllib.urlencode(post_params) baseurl = 'http://www.ncbi.nlm.nih.gov' url = 'http://www.ncbi.nlm.nih.gov/pubmed/' page = urllib2.urlopen(url, post_args) page = page.read() soup = BeautifulSoup(page) soup.prettify()

1条回答

网友

1楼 · 发布于 2024-10-03 11:26:41

永远不要抓取PubMed总是有一个更简单的方法直接检索数据。安装并使用BioPython包。下面是一个简单的脚本，可以使用您的查询获取前10篇论文：

from Bio import Entrez, Medline

# Always tell NCBI who you are  
Entrez.email = "your_address@example.com"  

term="((oncology) AND breast cancer) AND resulted in"

handle = Entrez.esearch(db="pubmed", retmax=10, term=term)
record = Entrez.read(handle)

print record['Count']  # see how many hits in your search

for ref in record['IdList']:
    handle = Entrez.efetch(db="pubmed", id=ref, 
                           rettype="Medline", 
                           retmode="text")
    paper = Medline.read(handle)
    # Medline returns a dict from which we can extract the 
    # fields we desire
    print '-' * 30
    print paper['TI']
    print
    print paper['AB']

该手册内容广泛，但您只需阅读有关使用biopythonentrez搜索和获取记录以及使用biopythonmedline解析结果的部分。在

相关问题更多 >

编程相关推荐

热门问题

热门文章