我需要从一个非常有挑战性的网站上搜集一些信息
这是一个例子:
<div class="overview">
<span class="course_titles">Courses:</span>
<a href="/schools/courses/173/" class="course_name">Math101</a> (Math; Monday; Room 10);
<a href="/schools/student/1388/" class="coursestudent_name">Mark</a> 17,
<a href="/schools/student/1401/" class="coursestudent_name">Alex</a> 18, ),
<a href="/schools/courses/2693/" class="course_name">English101</a> (English; Thursdays; Room 12);
<a href="/schools/student/1403/" class="coursestudent_name">Sarah</a> 16,
<a href="/schools/student/1411/" class="coursestudent_name">Nancy</a> 17,
<a href="/schools/student/1390/" class="coursestudent_name">Casey</a> 17 ),
</div>
每门课程都有特定的学生,他们的年龄以他们的名字命名(那些随机的字符已经在里面了)。你知道吗
我需要与他们各自的学生,加上年龄刮每门课程。你知道吗
不幸的是,除了包罗万象的div类之外,没有固有的层次结构。我试着用BeautifulSoup按“coursestudent\u name”刮,然后添加所有具有“coursestudent\u name”属性的项目,但这样我就添加了每个课程的所有学员。你知道吗
我希望我能改变网站,但我不能。有人知道我怎样才能得到正确的学生每门课的信息吗?你知道吗
谢谢你!你知道吗
你可以用一点regex来获得学生年龄,而不是任何html标记
这将输出:
如果你能修改你的问题,让我们知道你到底在找什么。但是,这里有一个基本的示例,说明如何从这个页面获取数据。你知道吗
将输出:
您不需要正则表达式,只需解析锚定标记即可获得名称,并调用
next_sibling
来获得年龄文本拆分和剥离来获得年龄文本,找到coursestudent
之前的course_name
也将为您提供相关课程:相关问题 更多 >
编程相关推荐