每行文字到单词+Python中的命名实体标记

def wordPerLine(text, neplustags): text = re.sub(r"([?!,.]+)", r" \1 ", text) wpl = text.split() output = [] for line in wpl: output.append(line + ” O") return output

1条回答

网友

1楼 · 发布于 2024-06-28 23:48:57

这可能会起作用，用其他东西代替打印，需要对regex进行改进，但这是一个好的开始。你知道吗

text = "[[Hidden test Figures]] is, a 2016 [[American]] biographical drama film directed by [[Theodore Melfi]] and written by [[Melfi]] and [[Allison Schroeder]]."

tags = {"Hidden test Figures": "PRO", "American": "LOC", 'Theodore Melfi': "PER", 'Melfi': "PER", 'Allison Schroeder': "PER"}

text = re.sub(r"([?!,.]+)", r" \1", text)

search = ""
inTag = False

for w in text.split(" "):
    outTag = False

    rest = w

    if rest[:2] == "[[":
        rest = rest[2:]
        inTag = True
    if rest[-2:] == "]]":
        rest = rest[:-2]
        outTag = True

    if inTag:
        search += rest
        if outTag:
            val = tags[search]
            for word in search.split():
                print(word + ": " + val)
            inTag = False
            search = ""
        else:
            search += " "
    else:
        print(rest + ": O")

输入：

[[Hidden test Figures]] is, a 2016 [[American]] biographical drama film directed by [[Theodore Melfi]] and written by [[Melfi]] and [[Allison Schroeder]].

输出：

Hidden: PRO
test: PRO
Figures: PRO
is: O
,: O
a: O
2016: O
American: LOC
biographical: O
drama: O
film: O
directed: O
by: O
Theodore: PER
Melfi: PER
and: O
written: O
by: O
Melfi: PER
and: O
Allison: PER
Schroeder: PER
.: O

相关问题更多 >

编程相关推荐

热门问题

热门文章

每行文字到单词+Python中的命名实体标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >