使用Python查找XMLContent中的标记

2024-10-02 00:42:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样一个XML:

<?xml version="1.0" encoding="UTF-8"?>
<w:document xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing">
  <w:body>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="Normal" />
        <w:ind w:left="0" w:right="0" w:hanging="0" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve">Here are some simple text  like data 01.12.2015, place , country... </w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="Normal" />
        <w:ind w:left="0" w:right="0" w:hanging="0" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve">01.12.2015 </w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>09:23. Aksident trafiku me dëme materiale ne mes te veturave Golf 2 dhe Jeep. Te Tre Sheshirat.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>Informuar:PK</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
              <w:checked />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="0" w:name="__Fieldmark__1703_516377085" />
      <w:bookmarkStart w:id="1" w:name="__Fieldmark__1703_516377085" />
      <w:bookmarkStart w:id="2" w:name="__Fieldmark__1703_516377085" />
      <w:bookmarkEnd w:id="2" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,SHME</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="3" w:name="__Fieldmark__1707_516377085" />
      <w:bookmarkStart w:id="4" w:name="__Fieldmark__1707_516377085" />
      <w:bookmarkStart w:id="5" w:name="__Fieldmark__1707_516377085" />
      <w:bookmarkEnd w:id="5" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve"> SHZSH</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="6" w:name="__Fieldmark__1710_516377085" />
      <w:bookmarkStart w:id="7" w:name="__Fieldmark__1710_516377085" />
      <w:bookmarkStart w:id="8" w:name="__Fieldmark__1710_516377085" />
      <w:bookmarkEnd w:id="8" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,Shërbimet tjera</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="9" w:name="__Fieldmark__1713_516377085" />
      <w:bookmarkStart w:id="10" w:name="__Fieldmark__1713_516377085" />
      <w:bookmarkStart w:id="11" w:name="__Fieldmark__1713_516377085" />
      <w:bookmarkEnd w:id="11" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>10:33. Thyerje e shtëpive të banimit ( 2 shtëpi) në  Hajvali në  afërsi të Fsh. Ndërkombëtarë.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>Informuar:PK</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
              <w:checked />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="12" w:name="__Fieldmark__1717_516377085" />
      <w:bookmarkStart w:id="13" w:name="__Fieldmark__1717_516377085" />
      <w:bookmarkStart w:id="14" w:name="__Fieldmark__1717_516377085" />
      <w:bookmarkEnd w:id="14" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,SHME</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="15" w:name="__Fieldmark__1721_516377085" />
      <w:bookmarkStart w:id="16" w:name="__Fieldmark__1721_516377085" />
      <w:bookmarkStart w:id="17" w:name="__Fieldmark__1721_516377085" />
      <w:bookmarkEnd w:id="17" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve"> SHZSH</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="18" w:name="__Fieldmark__1724_516377085" />
      <w:bookmarkStart w:id="19" w:name="__Fieldmark__1724_516377085" />
      <w:bookmarkStart w:id="20" w:name="__Fieldmark__1724_516377085" />
      <w:bookmarkEnd w:id="20" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,Shërbimet tjera</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="21" w:name="__Fieldmark__1727_516377085" />
      <w:bookmarkStart w:id="22" w:name="__Fieldmark__1727_516377085" />
      <w:bookmarkStart w:id="23" w:name="__Fieldmark__1727_516377085" />
      <w:bookmarkEnd w:id="23" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr>
          <w:rFonts w:cs="Arial" w:ascii="Arial" w:hAnsi="Arial" />
          <w:lang w:eastAsia="ja-JP" />
        </w:rPr>
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>11:16. Shpërthim i gypit të uj</w:t>
      </w:r>
      <w:r>
        <w:rPr>
          <w:rFonts w:cs="Arial" w:ascii="Arial" w:hAnsi="Arial" />
          <w:lang w:eastAsia="ja-JP" />
        </w:rPr>
        <w:t>ësjellësit në Rr. “Ekrem Rexha”. Lagjja Kalabria.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr>
          <w:rFonts w:cs="Arial" w:ascii="Arial" w:hAnsi="Arial" />
          <w:lang w:eastAsia="ja-JP" />
        </w:rPr>
      </w:pPr>
      <w:r>
        <w:rPr>
          <w:rFonts w:cs="Arial" w:ascii="Arial" w:hAnsi="Arial" />
          <w:lang w:eastAsia="ja-JP" />
        </w:rPr>
        <w:t>13:19. Mungesë e ujit të pijshëm në fsh. Miradi e Eperme – Fushë Kosovë.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>Informuar:PK</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="24" w:name="__Fieldmark__1747_516377085" />
      <w:bookmarkStart w:id="25" w:name="__Fieldmark__1747_516377085" />
      <w:bookmarkStart w:id="26" w:name="__Fieldmark__1747_516377085" />
      <w:bookmarkEnd w:id="26" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,SHME</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="27" w:name="__Fieldmark__1751_516377085" />
      <w:bookmarkStart w:id="28" w:name="__Fieldmark__1751_516377085" />
      <w:bookmarkStart w:id="29" w:name="__Fieldmark__1751_516377085" />
      <w:bookmarkEnd w:id="29" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve"> SHZSH</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="30" w:name="__Fieldmark__1754_516377085" />
      <w:bookmarkStart w:id="31" w:name="__Fieldmark__1754_516377085" />
      <w:bookmarkStart w:id="32" w:name="__Fieldmark__1754_516377085" />
      <w:bookmarkEnd w:id="32" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,Shërbimet tjera</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
              <w:checked />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="33" w:name="__Fieldmark__1757_516377085" />
      <w:bookmarkStart w:id="34" w:name="__Fieldmark__1757_516377085" />
      <w:bookmarkStart w:id="35" w:name="__Fieldmark__1757_516377085" />
      <w:bookmarkEnd w:id="35" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>14:42. Aksident trafiku me dëme materiale  ne mes te veturave Opell dhe Kia . dardania te santea.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>Informuar:PK</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
              <w:checked />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="36" w:name="__Fieldmark__1761_516377085" />
      <w:bookmarkStart w:id="37" w:name="__Fieldmark__1761_516377085" />
      <w:bookmarkStart w:id="38" w:name="__Fieldmark__1761_516377085" />
      <w:bookmarkEnd w:id="38" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,SHME</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="39" w:name="__Fieldmark__1765_516377085" />
      <w:bookmarkStart w:id="40" w:name="__Fieldmark__1765_516377085" />
      <w:bookmarkStart w:id="41" w:name="__Fieldmark__1765_516377085" />
      <w:bookmarkEnd w:id="41" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t xml:space="preserve"> SHZSH</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="42" w:name="__Fieldmark__1768_516377085" />
      <w:bookmarkStart w:id="43" w:name="__Fieldmark__1768_516377085" />
      <w:bookmarkStart w:id="44" w:name="__Fieldmark__1768_516377085" />
      <w:bookmarkEnd w:id="44" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
      <w:r>
        <w:rPr />
        <w:t>,Shërbimet tjera</w:t>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="begin">
          <w:ffData>
            <w:name w:val="" />
            <w:enabled />
            <w:calcOnExit w:val="0" />
            <w:checkBox>
              <w:sizeAuto />
            </w:checkBox>
          </w:ffData>
        </w:fldChar>
      </w:r>
      <w:r>
        <w:instrText>FORMCHECKBOX</w:instrText>
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="separate" />
      </w:r>
      <w:bookmarkStart w:id="45" w:name="__Fieldmark__1771_516377085" />
      <w:bookmarkStart w:id="46" w:name="__Fieldmark__1771_516377085" />
      <w:bookmarkStart w:id="47" w:name="__Fieldmark__1771_516377085" />
      <w:bookmarkEnd w:id="47" />
      <w:r>
        <w:rPr />
      </w:r>
      <w:r>
        <w:fldChar w:fldCharType="end" />
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:numPr>
          <w:ilvl w:val="0" />
          <w:numId w:val="1" />
        </w:numPr>
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
        <w:t>15:49. Vjedhje në lokalin “ Gruda Hony Shop” Në Rr. “Tring Smajli”.</w:t>
      </w:r>
    </w:p>
    <w:p>
      <w:pPr>
        <w:pStyle w:val="NoSpacing" />
        <w:tabs>
          <w:tab w:val="left" w:pos="1290" w:leader="none" />
          <w:tab w:val="center" w:pos="5040" w:leader="none" />
        </w:tabs>
        <w:spacing w:lineRule="auto" w:line="360" />
        <w:ind w:left="1050" w:right="0" w:hanging="0" />
        <w:jc w:val="center" />
        <w:rPr />
      </w:pPr>
      <w:r>
        <w:rPr />
      </w:r>
    </w:p>
    <w:sectPr>
      <w:footerReference w:type="default" r:id="rId2" />
      <w:type w:val="nextPage" />
      <w:pgSz w:w="12240" w:h="15840" />
      <w:pgMar w:left="1080" w:right="900" w:header="0" w:top="1440" w:footer="720" w:bottom="1440" w:gutter="0" />
      <w:pgNumType w:fmt="decimal" />
      <w:formProt w:val="false" />
      <w:textDirection w:val="lrTb" />
      <w:docGrid w:type="default" w:linePitch="360" w:charSpace="4294965247" />
    </w:sectPr>
  </w:body>
</w:document>

在这个XML中,我有一对<w:p> </w:p>,其中一些<w:p>Description标记后面包含checkbox标记,还有一些是空的。
{JSON>需要为每个对象创建一个

我需要找到<w:p>标记来获取<w:t>内的文本,然后继续到另一个<w:p>标记,看看它是否包含复选框,如果是,则获取{}值,JSON将如下所示:

^{pr2}$

否则,如果Description标记后的标记不包含复选框,则JSON将只包含一个元素:

json['description'] = description

我的代码如下:

results = []
    default_positions = [m.start() for m in re.finditer('w:p', xml_content)]
        jsonobj = {}
        for position in default_positions:
        if .. :
            //code
            json['description'] = description
            json['checkbox_text'] = checkbox
        else:
            //code
            json['description'] = description

编辑:

如果我使用lxml来执行此操作:

all_namespace={'w':'http://schemas.openxmlformats.org/wordprocessingml/2006/main', 
       'o':'urn:schemas-microsoft-com:office:office' ,
       'r':'http://schemas.openxmlformats.org/officeDocument/2006/relationships',
       'v':'urn:schemas-microsoft-com:vml',
       'w10':'urn:schemas-microsoft-com:office:word',
       'wp':'http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing'}


mydoc = zipfile.ZipFile('data/test.docx')
xmlcontent = mydoc.read('word/document.xml')
document = etree.XML(xmlcontent)

json_list=[]
for p_el in document.xpath('//w:p[.//w:t]', namespaces={'w':'http://schemas.openxmlformats.org/wordprocessingml/2006/main'}):
    desc_els = p_el.xpath('./w:r/w:t', namespaces={'w':'http://schemas.openxmlformats.org/wordprocessingml/2006/main'})
    if desc_els:
        regexList = [r'(^\d\d:\d\d*)', r'(^\d\.\d\d:\d\d*)',r'(^\d\d\d\d:\d*)' ,r'(^\d\d\.\d\d:\d\d*)',r'(^\d\d\.\s\d\d:\d\d*)',r'(^\d\.\s\d\d:\d\d*)',r'(^\d\.\s\d\d\d\d:\d\d*)']
        for regex in regexList:
            if re.match( regex, desc_els[0].text, flags=0):
                new_json_obj = {}
                new_json_obj['description'] = desc_els[0].text
                checkbox_els = p_el.xpath('//w:r/w:checkBox', namespaces={'w':'http://schemas.openxmlformats.org/wordprocessingml/2006/main'})
                if checkbox_els:
                    print "THIS" , checkbox_els[0].text
                    if p_el.xpath('.//w:checked'):
                        new_json_obj['checkbox_state'] = 'True'
                    else:
                        new_json_obj['checkbox_state'] = 'False'
                json_list.append(new_json_obj)
print json.dumps(json_list)

结果我得到了这样的结论:

[{"description": "1. 07:48 Description 1"}, {"description": "1. 07:48 Description 2"} , {"description": "1. 07:48 Description 3"}]

检查下一个w:p标记中是否存在复选框的部分不起作用?


Tags: nameposidvaltabcheckboxtabsrpr
1条回答
网友
1楼 · 发布于 2024-10-02 00:42:04

以正确的方式执行此操作可能如下所示:

import lxml.etree
import json

nsmap={'w': 'http://schemas.microsoft.com/office/word/2003/wordml'}

tree = lxml.etree.parse(your_file_object)

json_list=[]
new_json_obj = {}

# find w:p entities that contain w:t
for p_el in tree.xpath('//w:p[.//w:t]', nsmap=nsmap):
    desc_els = p_el.xpath('./w:r/w:t', nsmap=nsmap)
    if desc_els:
        new_json_obj['description'] = desc_els[0].text()
    checkbox_els = p_el.xpath('following-sibling::w:p//w:checkbox', nsmap=nsmap)
    if checkbox_els:
        if p_el.xpath('.//w:enabled'):
            new_json_obj['checkbox_state'] = True
        else:
            new_json_obj['checkbox_state'] = False
    json_list.append(new_json_obj)
    new_json_obj = {}

print json.dumps(json_list)

相关问题 更多 >

    热门问题