多线程Java线程等待所有子线程以继续

1 周，5 日 Questions & Answers 224

所以有一点背景

我正在从事一个项目，其中servlet将在文件系统中的大量文本文件上发布爬虫程序。我正在考虑将负载分为多个线程，例如：

爬虫进入一个目录，找到3个文件和6个目录。它将开始处理文件，并为其他目录启动一个带有新爬虫的线程。因此，从我的creator类中，我将在一个基本目录上创建一个爬虫程序。爬虫程序将评估工作负载，如果认为需要，它将在另一个线程下生成另一个爬虫程序

我的爬虫类看起来像这样

package com.fujitsu.spider;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.Serializable;
import java.util.ArrayList;

public class DocumentSpider implements Runnable, Serializable {

private static final long serialVersionUID = 8401649393078703808L;
private Spidermode currentMode = null;
private String URL = null;
private String[] terms = null;
private float score = 0;

private ArrayList<SpiderDataPair> resultList = null;

public enum Spidermode {
    FILE, DIRECTORY
}

public DocumentSpider(String resourceURL, Spidermode mode, ArrayList<SpiderDataPair> resultList) {
    currentMode = mode;
    setURL(resourceURL);
    this.setResultList(resultList);
}

@Override
public void run() {
    try {
        if (currentMode == Spidermode.FILE) {
            doCrawlFile();
        } else {
            doCrawlDirectory();
        }
    } catch (Exception e) {
        e.printStackTrace();
    }

    System.out.println("SPIDER @ " + URL + " HAS FINISHED.");
}

public Spidermode getCurrentMode() {
    return currentMode;
}

public void setCurrentMode(Spidermode currentMode) {
    this.currentMode = currentMode;
}

public String getURL() {
    return URL;
}

public void setURL(String uRL) {
    URL = uRL;
}

public void doCrawlFile() throws Exception {
    File target = new File(URL);

    if (target.isDirectory()) {
        throw new Exception(
                "This URL points to a directory while the spider is in FILE mode. Please change this spider to FILE mode.");
    }

    procesFile(target);
}

public void doCrawlDirectory() throws Exception {
    File baseDir = new File(URL);

    if (!baseDir.isDirectory()) {
        throw new Exception(
                "This URL points to a FILE while the spider is in DIRECTORY mode. Please change this spider to DIRECTORY mode.");
    }

    File[] directoryContent = baseDir.listFiles();

    for (File f : directoryContent) {
        if (f.isDirectory()) {
            DocumentSpider spider = new DocumentSpider(f.getPath(), Spidermode.DIRECTORY, this.resultList);
            spider.terms = this.terms;
            (new Thread(spider)).start();
        } else {
            DocumentSpider spider = new DocumentSpider(f.getPath(),      Spidermode.FILE, this.resultList);
            spider.terms = this.terms;
            (new Thread(spider)).start();
        }
    }
}

public void procesDirectory(String target) throws IOException {
    File base = new File(target);
    File[] directoryContent = base.listFiles();

    for (File f : directoryContent) {
        if (f.isDirectory()) {
            procesDirectory(f.getPath());
        } else {
            procesFile(f);
        }
    }
}

public void procesFile(File target) throws IOException {
    BufferedReader br = new BufferedReader(new FileReader(target));
    String line;
    while ((line = br.readLine()) != null) {

        String[] words = line.split(" ");
        for (String currentWord : words) {
            for (String a : terms) {
                if (a.toLowerCase().equalsIgnoreCase(currentWord)) {
                    score += 1f;
                }
                ;
                if (currentWord.toLowerCase().contains(a)) {
                    score += 1f;
                }
                ;
            }
        }
    }

    br.close();
    resultList.add(new SpiderDataPair(this, URL));
}

public String[] getTerms() {
    return terms;
}

public void setTerms(String[] terms) {
    this.terms = terms;
}

public float getScore() {
    return score;
}

public void setScore(float score) {
    this.score = score;
}

public ArrayList<SpiderDataPair> getResultList() {
    return resultList;
}

public void setResultList(ArrayList<SpiderDataPair> resultList) {
    this.resultList = resultList;
}

}

我面临的问题是，在我的根爬虫中，我有来自我想要进一步处理的每个爬虫的结果列表。处理此列表中的数据的操作是从servlet（或本例中的main方法）调用的。但是，操作总是在所有爬虫完成其处理之前调用。因此，过早启动操作以处理结果，从而导致数据不完整

我尝试使用连接方法解决这个问题，但不幸的是，我似乎无法解决这个问题

package com.fujitsu.spider;

import java.util.ArrayList;

import com.fujitsu.spider.DocumentSpider.Spidermode;

public class Main {

public static void main(String[] args) throws InterruptedException {
    ArrayList<SpiderDataPair> results = new ArrayList<SpiderDataPair>();
    String [] terms = {"SERVER","CHANGE","MO"};

    DocumentSpider spider1 = new DocumentSpider("C:\\Users\\Mark\\workspace\\Spider\\Files", Spidermode.DIRECTORY, results);
    spider1.setTerms(terms);

    DocumentSpider spider2 = new DocumentSpider("C:\\Users\\Mark\\workspace\\Spider\\File2", Spidermode.DIRECTORY, results);
    spider2.setTerms(terms);

    Thread t1 = new Thread(spider1);
    Thread t2 = new Thread(spider2);


    t1.start();
    t1.join();

    t2.start();
    t2.join();

    for(SpiderDataPair d : spider1.getResultList()){
        System.out.println("PATH -> " + d.getFile() + " SCORE -> " + d.getSpider().getScore());
    }

    for(SpiderDataPair d : spider2.getResultList()){
        System.out.println("PATH -> " + d.getFile() + " SCORE -> " + d.getSpider().getScore());
    }

}

}

TL:DR

我真的很想了解这个问题，所以非常感谢您的帮助

# 2 楼答案

对于此任务，您应该使用比bareThread更高级别的库。我建议特别调查{}和所有{}的总体情况。有一些抽象可以管理所有线程问题，同时为格式良好的任务提供一个受适当保护的运行环境

对于您的特定问题，我建议使用某种任务阻塞队列和标准的生产者-消费者体系结构。每个任务都知道如何确定其路径是文件还是目录。如果是文件，则处理该文件；如果是目录，则对目录的即时内容进行爬网，并将每个子路径的新任务排队。您还可以使用一些正确同步的共享状态来限制已处理文件的数量、深度等。此外，该服务还提供了等待其任务终止的功能，从而简化了“加入”过程

使用此体系结构，可以将线程和线程管理（由ExecutorService处理）的概念与任务的业务逻辑（通常是Runnable或Callable）解耦。服务本身能够调整如何实例化，例如固定的最大线程数或可伸缩的线程数，具体取决于存在多少并发任务（请参见java.util.concurrent.Executors上的工厂方法）Thread比它们执行的Runnable更昂贵，它们被重新用于节省资源

如果您的目标主要是在产品质量方面起作用的功能，那么库就是一条出路。但是，如果您的目标是了解线程管理的较低级别的详细信息，那么您可能希望调查闩锁的使用情况，可能还有线程组，以便在较低级别管理闩锁，公开实现的详细信息，以便您可以使用这些详细信息

共 (2) 个答案

# 1 楼答案

您需要对代码进行一些更改：

在蜘蛛网中：

List<Thread> threads = new LinkedList<Thread>();
for (File f : directoryContent) {
    if (f.isDirectory()) {
        DocumentSpider spider = new DocumentSpider(f.getPath(), Spidermode.DIRECTORY, this.resultList);
        spider.terms = this.terms;
        Thread thread = new Thread(spider);
        threads.add(thread)
        thread.start();
    } else {
        DocumentSpider spider = new DocumentSpider(f.getPath(),      Spidermode.FILE, this.resultList);
        spider.terms = this.terms;
        Thread thread = new Thread(spider);
        threads.add(thread)
        thread.start();
    }
}
for (Thread thread: threads) thread.join()

这个想法是为每个蜘蛛创建一个新线程并启动它。一旦它们都在运行，您就要等到每次打开都完成之后，蜘蛛才会完成。这样，每个spider线程将一直运行，直到其所有工作完成为止（因此，顶部线程将一直运行，直到所有子线程及其子线程完成）

您还需要更改跑步者，使其平行运行两个爬行器，而不是像这样一个接一个地运行：

Thread t1 = new Thread(spider1);
Thread t2 = new Thread(spider2);
t1.start();
t2.start();
t1.join();
t2.join();

# 2 楼答案

对于此任务，您应该使用比bareThread更高级别的库。我建议特别调查{}和所有{}的总体情况。有一些抽象可以管理所有线程问题，同时为格式良好的任务提供一个受适当保护的运行环境

对于您的特定问题，我建议使用某种任务阻塞队列和标准的生产者-消费者体系结构。每个任务都知道如何确定其路径是文件还是目录。如果是文件，则处理该文件；如果是目录，则对目录的即时内容进行爬网，并将每个子路径的新任务排队。您还可以使用一些正确同步的共享状态来限制已处理文件的数量、深度等。此外，该服务还提供了等待其任务终止的功能，从而简化了“加入”过程

使用此体系结构，可以将线程和线程管理（由ExecutorService处理）的概念与任务的业务逻辑（通常是Runnable或Callable）解耦。服务本身能够调整如何实例化，例如固定的最大线程数或可伸缩的线程数，具体取决于存在多少并发任务（请参见java.util.concurrent.Executors上的工厂方法）Thread比它们执行的Runnable更昂贵，它们被重新用于节省资源

如果您的目标主要是在产品质量方面起作用的功能，那么库就是一条出路。但是，如果您的目标是了解线程管理的较低级别的详细信息，那么您可能希望调查闩锁的使用情况，可能还有线程组，以便在较低级别管理闩锁，公开实现的详细信息，以便您可以使用这些详细信息

Python中文网

有 Java 编程相关的问题?

多线程Java线程等待所有子线程以继续

共 (2) 个答案

# 1 楼答案

# 2 楼答案