无法mmap 1024字节无法分配内存，即使内存超过了足够的内存

train_df = pd.read_csv(train_path, index_col=0) train_df.rename(columns={'text':'input_text', 'summary':'target_text'}, inplace=True) # Logging logging.basicConfig(level=logging.INFO) transformers_logger = logging.getLogger("transformers") transformers_logger.setLevel(logging.WARNING) # Hyperparameters model_args = Seq2SeqArgs() model_args.num_train_epochs = 10 # bart-base = 32, bart-large-cnn = 16 model_args.train_batch_size = 16 # model_args.no_save = True # model_args.evaluate_generated_text = True model_args.evaluate_during_training = True model_args.evaluate_during_training_verbose = True model_args.overwrite_output_dir = True model_args.save_model_every_epoch = False model_args.save_eval_checkpoints = False model_args.save_optimizer_and_scheduler = False model_args.save_steps = -1 best_model_dir = 'drive/MyDrive/outputs/bart-large-cnn/best_model/' model_args.best_model_dir = best_model_dir # Initialize model model = Seq2SeqModel( encoder_decoder_type="bart", encoder_decoder_name="facebook/bart-base", args=model_args, use_cuda=True, ) # Train the model model.train_model( train_df, # eval_data=eval_df, # matches=count_matches, )

Exception in thread Thread-14: Traceback (most recent call last): File "/usr/lib/python3.7/threading.py", line 926, in _bootstrap_inner self.run() File "/usr/lib/python3.7/threading.py", line 870, in run self._target(*self._args, **self._kwargs) File "/usr/lib/python3.7/multiprocessing/pool.py", line 470, in _handle_results task = get() File "/usr/lib/python3.7/multiprocessing/connection.py", line 251, in recv return _ForkingPickler.loads(buf.getbuffer()) File "/usr/local/lib/python3.7/dist-packages/torch/multiprocessing/reductions.py", line 287, in rebuild_storage_fd storage = cls._new_shared_fd(fd, size) RuntimeError: unable to mmap 1024 bytes from file <filename not specified>: Cannot allocate memory (12)

2条回答

网友

1楼 · 编辑于 2024-10-10 18:24:59

虽然我不知道如何直接处理这个问题，我有一个类似的问题（并且解决了）。区别在于：

我使用fairseq
我可以用1个GPU在google colab上运行我的代码
当我试图在多个GPU上运行它时，立即得到了RuntimeError: unable to mmap 280 bytes from file </torch_40419_282117887>: Cannot allocate memory (12)

从其他人的代码中，我发现他使用python -m torch.distributed.launch ...来运行fairseq train，我将它添加到我的bash脚本中，运行时错误消失了，培训也开始了

所以我想，如果您可以运行21000个样本，您可以使用torch.distributed将整个数据分成小批量，并将它们分发给几个工人

网友

2楼 · 编辑于 2024-10-10 18:24:59

所以我找到了一个简单的解决办法。您只需将模型的use_multiprocessing设置为False：

model_args.use_multiprocessing = False

现在我可以运行我的整个数据集了

相关问题更多 >

编程相关推荐

热门问题

热门文章