在特定元素的实例之后从列表中提取相同的元素块

new = ['JJ', 'NN', 'IN', 'NNP', 'NN', 'MD', 'VB', 'VBN', 'IN', 'NN', 'TO', 'VB', 'NN', 'CC', 'NN', 'TO', 'NNP', 'NN', 'NN', '.'] lst = [] for i,j in enumerate(new): lst1 = [] if j == 'IN': for i in new[i+1:]: if 'NN' in i: lst1.append(i) lst.append(lst1) break lst = [['NNP'], ['NN']]

[['Additional', 'condition', 'of', 'DeNOx', 'activation', 'shall', 'be', 'introduced', 'in', 'order', 'to', 'provide', 'flexibility', 'and', 'robustness', 'to', 'NSC', 'regeneration', 'management', '.'], ['JJ', 'NN', 'IN', 'NNP', 'NN', 'MD', 'VB', 'VBN', 'IN', 'NN', 'TO', 'VB', 'NN', 'CC', 'NN', 'TO', 'NNP', 'NN', 'NN', '.']].

3条回答

网友

1楼 · 编辑于 2024-06-24 12:38:43

有另一个很好的答案张贴，而我正在键入这是一个简单的实现没有导入。你知道吗

full_list = []

for x in range(0, len(new)):
    if 'NN' in new[x] and ('IN' in new[x-1] or 'TO' in new[x-1]):
        temp_list = [new[x]]
        temp_index = x+1
        while 'NN' in new[temp_index]:
            temp_list.append(new[temp_index])
            temp_index += 1
        full_list.append(temp_list)

网友

2楼 · 编辑于 2024-06-24 12:38:43

你的车不太远。使之更容易的一种方法是获取'IN'和'TO'的所有索引：

starts = {'IN', 'TO'}
in_twos = [i for i, e in enumerate(new) if e in starts]

它给出：

[2, 8, 10, 15]

然后您只需要遍历这些索引，特别是new[i+1:]，并获取'NN'或'NNP'元素。当您到达一个不是这些元素之一的元素时，break将退出循环。你知道吗

举个例子：

result = []
take = {'NN', 'NNP'}

for i in in_twos:
    temp = []
    for x in new[i+1:]:
        if x not in take:
            break

        temp.append(x)

    # If this is empty, don't add it
    if temp:
        result.append(temp)

print(result)

最终输出：

[['NNP', 'NN'], ['NN'], ['NNP', 'NN', 'NN']]

另一个较短的方法，如@schwobasegll所建议的，是使用^{}来简化'NN'元素的提取。这个函数基本上一直提取元素，直到第一个参数谓词返回false。你知道吗

下面是它的样子：

from itertools import takewhile

# new, take and in_twos same as before

result = [l for l in [list(takewhile(lambda x: x in take, new[i+1:])) for i in in_twos] if l]

print(result)
# [['NNP', 'NN'], ['NN'], ['NNP', 'NN', 'NN']]

更新：

如果要将单词和演讲映射到一起，可以执行以下操作：

new = [['JJ', 'NN', 'IN','NNP','NN','MD','VB','VBN','IN','NN','TO','VB','NN','CC','NN','TO','NNP','NN','NN','.'],
   ['Additional','condition','of','DeNOx','activation','shall','be','introduced','in', 'order','to','provide','flexibility','and','robustness', 'to','NSC','regeneration','management','.']]

starts = {'IN', 'TO'}
in_twos = [i for i, e in enumerate(new[0]) if e in starts]

speech = []
words = []
take = {'NN', 'NNP'}

for i in in_twos:
    temp = []
    for x, y in zip(new[0][i+1:], new[1][i+1:]):
        if x not in take:
            break

        temp.append((x, y))

    # If this is empty, don't add it
    if temp:
        speech.append([x for x, _ in temp])
        words.append([y for _, y in temp])

print(speech)
print(words)

输出：

[['NNP', 'NN'], ['NN'], ['NNP', 'NN', 'NN']]
[['DeNOx', 'activation'], ['order'], ['NSC', 'regeneration', 'management']]

网友

3楼 · 编辑于 2024-06-24 12:38:43

您可以使用两个方便的^{}来实现：^{}和^{}：

from itertools import groupby, takewhile

nn = lambda x: x.startswith('NN')
to_in = lambda x: x in ('IN', 'TO')

list(filter(None, [list(takewhile(nn, g)) for k, g in groupby(new, key=to_in)][1:]))
# [['NNP', 'NN'], ['NN'], ['NNP', 'NN', 'NN']]

它根据TO或IN的项目将初始列表分块。从除第一个以外的每个块（为了避免任何初始的NNs），这将在元素以NN开头时获取元素。最后，它filters输出非真实（空）列表。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章