当存在gpu时，如何在TensorFlow中的单个脚本中训练多个模型？

0条回答

网友
1楼 · 发布于 2024-05-19 11:02:24

据我所知，首先，tensorflow构造了一个符号图，并根据链式规则推导出导数。然后为所有（必要的）张量分配内存，包括一些层的输入和输出以提高效率。运行会话时，数据将加载到图表中，但通常情况下，内存使用不会再更改。
我想，您遇到的错误可能是在一个GPU中构造多个模型造成的。
根据@user2476373的建议，将训练/评估代码与超参数隔离是一个不错的选择。但是我直接使用bash脚本，而不是任务假脱机程序（可能更方便），例如
CUDA_VISIBLE_DEVICES=0 python train.py --lrn_rate 0.01 --weight_decay_rate 0.001 --momentum 0.9 --batch_size 8 --max_iter 60000 --snapshot 5000 CUDA_VISIBLE_DEVICES=0 python eval.py
或者可以在bash脚本中编写“for”循环，而不一定是在python脚本中。注意到我在脚本的开头使用了CUDA_VISIBLE_DEVICES=0（如果一台计算机中有8个gpu，那么索引可以是7）。因为根据我的经验，我发现tensorflow在一台机器上使用所有的GPU，如果我没有指定操作，那么在这样的代码中使用哪个GPU
with tf.device('/gpu:0'):
如果您想尝试多GPU实现，有一些example。
希望这对你有帮助。

网友
2楼 · 发布于 2024-05-19 11:02:24

你可能不想这么做。
如果你在你的数据上运行成千上万个模型，并选择一个评价最好的模型，你就不是在进行机器学习；相反，你是在记忆你的数据集，并且不能保证你选择的模型会在数据集之外执行。
换言之，这种方法类似于拥有一个拥有数千自由度的单一模型。拥有一个如此复杂的模型是有问题的，因为它能够比实际保证的更好地拟合您的数据；这样的模型能够令人恼火地记住您的训练数据中的任何噪声（离群值、测量误差等），这导致模型在噪声甚至稍有不同的情况下表现不佳。
（很抱歉将此作为回复发布，网站不允许我添加评论。）

网友
3楼 · 发布于 2024-05-19 11:02:24

我认为从长远来看，在一个脚本中运行所有模型可能是不好的做法（请参阅下面的建议以获得更好的替代方案）。但是，如果您想这样做，这里有一个解决方案：您可以使用multiprocessing模块将TF会话封装到进程中，这将确保TF在进程完成后释放会话内存。下面是一段代码：

from multiprocessing import Pool
import contextlib
def my_model((param1, param2, param3)): # Note the extra (), required by the pool syntax
    < your code >

num_pool_worker=1 # can be bigger than 1, to enable parallel execution 
with contextlib.closing(Pool(num_pool_workers)) as po: # This ensures that the processes get closed once they are done
     pool_results = po.map_async(my_model,
                                    ((param1, param2, param3)
                                     for param1, param2, param3 in params_list))
     results_list = pool_results.get()

来自OP的注意：如果您选择使用随机数生成器种子，则它不会随多处理库一起自动重置。详情如下：Using python multiprocessing with different random seed for each process

关于TF资源分配：通常TF分配的资源比它需要的多得多。很多时候，您可以限制每个进程使用总GPU内存的一小部分，并通过尝试和错误发现脚本所需的一小部分。

你可以用下面的代码片段

gpu_memory_fraction = 0.3 # Choose this number through trial and error
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=gpu_memory_fraction,)
session_config = tf.ConfigProto(gpu_options=gpu_options)
sess = tf.Session(config=session_config, graph=graph)

请注意，有时TF会增加内存使用量以加快执行速度。因此，减少内存使用可能会使模型运行速度变慢。

编辑/评论中新问题的答案：

是的，Tensorflow将在每次创建新进程时重新分配，并在进程结束时清除。
编辑中的for循环也应该完成这项工作。我建议改用Pool，因为它可以让您在一个GPU上同时运行多个模型。请参阅我关于设置gpu_memory_fraction和“选择最大进程数”的说明。还要注意：（1）池映射为您运行循环，因此一旦使用它，就不需要外部for循环。（2）在您的示例中，在调用train（）之前应该有类似mdl=get_model(args)的内容
奇怪的元组括号：池只接受一个参数，因此我们使用元组传递多个参数。有关详细信息，请参见multiprocessing.pool.map and function with two arguments。正如在一个答案中所建议的，您可以使用
```
def train_mdl(params):
    (x,y)=params
    < your code >
```
正如@Seven所建议的，您可以使用CUDA U VISIBLE U DEVICES环境变量来选择要用于进程的GPU。您可以在您的python脚本中使用以下流程函数的开头（train_mdl）来完成它。
```
import os # the import can be on the top of the python script
os.environ["CUDA_VISIBLE_DEVICES"] = "{}".format(gpu_id)
```

执行实验的更好做法是将训练/评估代码与超参数/模型搜索代码分离。 E、 g.有一个名为train.py的脚本，它接受超参数和对数据的引用作为参数的特定组合，并对单个模型执行训练。

然后，要遍历所有可能的参数组合，可以使用一个简单的任务（作业）队列，并将所有可能的超参数组合提交为单独的作业。任务队列将一次为您的计算机提供一个作业。通常，您还可以将队列设置为同时执行进程数（请参阅下面的详细信息）。

具体来说，我使用task spooler，这是非常容易安装和少量（不需要管理特权，详细信息如下）。

基本用法是（请参阅下面关于任务后台处理程序用法的说明）：

ts <your-command>

实际上，我有一个单独的python脚本来管理我的实验，为每个特定的实验设置所有参数，并将作业发送到ts队列。

以下是来自我的实验管理器的一些相关python代码片段：

run_bash执行bash命令

def run_bash(cmd):
    p = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, executable='/bin/bash')
    out = p.stdout.read().strip()
    return out  # This is the stdout from the shell command

下一个代码段设置要运行的并发进程数（请参见下面有关选择最大进程数的说明）：

max_job_num_per_gpu = 2
run_bash('ts -S %d'%max_job_num_per_gpu)

下一个代码片段将遍历超参数/模型参数的所有组合的列表。列表的每个元素都是一个字典，其中的键是train.py脚本的命令行参数

for combination_dict in combinations_list:

    job_cmd = 'python train.py ' + '  '.join(
            ['--{}={}'.format(flag, value) for flag, value in combination_dict.iteritems()])

    submit_cmd = "ts bash -c '%s'" % job_cmd
    run_bash(submit_cmd)

关于选择最大进程数的说明：

如果你缺少GPU，你可以使用找到的gpu_memory_fraction，将进程数设置为max_job_num_per_gpu=int(1/gpu_memory_fraction)

关于任务假脱机程序的说明（ts）：

您可以使用以下命令设置要运行的并发进程数（“slot”）：
ts -S <number-of-slots>
安装ts不需要管理员权限。您可以用一个简单的make从源代码下载并编译它，将其添加到您的路径中，就完成了。
您可以设置多个队列（我将其用于多个GPU），使用
TS_SOCKET=<path_to_queue_name> ts <your-command>
例如
TS_SOCKET=/tmp/socket-ts.gpu_queue_1 ts <your-command>
TS_SOCKET=/tmp/socket-ts.gpu_queue_2 ts <your-command>
有关进一步的用法示例，请参见here

关于自动设置路径名和文件名的说明： 一旦您将主代码与实验管理器分离，您将需要一种有效的方法来生成文件名和目录名，给定超参数。我通常将重要的超参数保存在字典中，并使用以下函数从字典键值对生成单链字符串。以下是我使用的函数：

def build_string_from_dict(d, sep='%'):
    """
     Builds a string from a dictionary.
     Mainly used for formatting hyper-params to file names.
     Key-value pairs are sorted by the key name.

    Args:
        d: dictionary

    Returns: string
    :param d: input dictionary
    :param sep: key-value separator

    """

    return sep.join(['{}={}'.format(k, _value2str(d[k])) for k in sorted(d.keys())])


def _value2str(val):
    if isinstance(val, float): 
        # %g means: "Floating point format.
        # Uses lowercase exponential format if exponent is less than -4 or not less than precision,
        # decimal format otherwise."
        val = '%g' % val
    else:
        val = '{}'.format(val)
    val = re.sub('\.', '_', val)
    return val

相关问题更多 >

编程相关推荐

热门问题

热门文章