从子进程实时捕获标准输出

2025-02-17 09:24:00
admin
原创
55
摘要:问题描述:我想subprocess.Popen()在 Windows 中运行 rsync.exe,并在 Python 中打印 stdout。我的代码可以运行,但直到文件传输完成它才会捕获进度!我想实时打印每个文件的进度。现在使用 Python 3.1,因为我听说它可以更好地处理 IO。import subpr...

问题描述:

我想subprocess.Popen()在 Windows 中运行 rsync.exe,并在 Python 中打印 stdout。

我的代码可以运行,但直到文件传输完成它才会捕获进度!我想实时打印每个文件的进度。

现在使用 Python 3.1,因为我听说它可以更好地处理 IO。

import subprocess, time, os, sys

cmd = "rsync.exe -vaz -P source/ dest/"
p, line = True, 'start'


p = subprocess.Popen(cmd,
                     shell=True,
                     bufsize=64,
                     stdin=subprocess.PIPE,
                     stderr=subprocess.PIPE,
                     stdout=subprocess.PIPE)

for line in p.stdout:
    print(">>> " + str(line.rstrip()))
    p.stdout.flush()

解决方案 1:

一些经验法则subprocess

  • 切勿使用shell=True。它会不必要地调用额外的 shell 进程来调用你的程序。

  • 调用进程时,参数以列表的形式传递。sys.argv在 python 中是一个列表,在 C 中也是argv一个列表。因此,您传递一个列表Popen调用子进程,而不是字符串。

  • 当您没有阅读时,请不要重定向stderr到。PIPE

  • stdin当您没有写入内容时请不要重定向。

例子:

import subprocess, time, os, sys
cmd = ["rsync.exe", "-vaz", "-P", "source/" ,"dest/"]

p = subprocess.Popen(cmd,
                     stdout=subprocess.PIPE,
                     stderr=subprocess.STDOUT)

for line in iter(p.stdout.readline, b''):
    print(">>> " + line.rstrip())

也就是说,当 rsync 检测到它连接到的是管道而不是终端时,它很可能会缓冲其输出。这是默认行为 - 当连接到管道时,程序必须明确刷新 stdout 以获得实时结果,否则标准 C 库将缓冲。

为了测试这一点,请尝试运行以下命令:

cmd = [sys.executable, 'test_out.py']

并创建一个test_out.py文件,内容如下:

import sys
import time
print ("Hello")
sys.stdout.flush()
time.sleep(10)
print ("World")

执行该子进程应该会返回“Hello”,然后等待 10 秒再返回“World”。如果上面的 Python 代码出现这种情况,而没有出现这种情况rsync,则意味着rsync它本身正在缓冲输出,所以你运气不好。

一种解决方案是直接连接到pty,使用类似的东西pexpect

解决方案 2:

我知道这是一个老话题,但现在有一个解决方案。使用选项 --outbuf=L 调用 rsync。示例:

cmd=['rsync', '-arzv','--backup','--outbuf=L','source/','dest']
p = subprocess.Popen(cmd,
                     stdout=subprocess.PIPE)
for line in iter(p.stdout.readline, b''):
    print '>>> {}'.format(line.rstrip())

解决方案 3:

根据使用情况,您可能还想禁用子进程本身的缓冲。

如果子进程是 Python 进程,则可以在调用之前执行以下操作:

os.environ["PYTHONUNBUFFERED"] = "1"

或者将其作为env参数传递给Popen

否则,如果您使用的是 Linux/Unix,则可以使用该stdbuf工具。例如:

cmd = ["stdbuf", "-oL"] + cmd

另请参阅此处或stdbuf其他选项。

解决方案 4:

在 Linux 上,我遇到了同样的问题,无法摆脱缓冲。我最终使用“stdbuf -o0”(或 unbuffer from expect)来摆脱 PIPE 缓冲。

proc = Popen(['stdbuf', '-o0'] + cmd, stdout=PIPE, stderr=PIPE)
stdout = proc.stdout

然后我可以在标准输出上使用 select.select。

另请参阅https://unix.stackexchange.com/questions/25372/

解决方案 5:

for line in p.stdout:
  ...

总是阻塞直到下一次换行。

对于“实时”行为你必须做这样的事情:

while True:
  inchar = p.stdout.read(1)
  if inchar: #neither empty string nor None
    print(str(inchar), end='') #or end=None to flush immediately
  else:
    print('') #flush for implicit line-buffering
    break

当子进程关闭其 stdout 或退出时,while 循环将终止。
read()/read(-1)将阻塞直到子进程关闭其 stdout 或退出。

解决方案 6:

你的问题是:

for line in p.stdout:
    print(">>> " + str(line.rstrip()))
    p.stdout.flush()

迭代器本身具有额外的缓冲。

尝试这样做:

while True:
  line = p.stdout.readline()
  if not line:
     break
  print line

解决方案 7:

    p = subprocess.Popen(command,
                                bufsize=0,
                                universal_newlines=True)

我正在用 python 为 rsync 编写 GUI,也遇到了同样的问题。这个问题困扰了我好几天,直到我在 pyDoc 中找到了它。

如果 universal_newlines 为 True,则文件对象 stdout 和 stderr 将以通用换行符模式作为文本文件打开。行可以以 '\n'(Unix 行尾约定)、'\r'(旧 Macintosh 约定)或 '\r\n'(Windows 约定)中的任何一个结束。所有这些外部表示都被 Python 程序视为 '\n'。

看起来,当进行翻译时,rsync 将输出‘\r’。

解决方案 8:

为了避免缓存输出,你可能想尝试 pexpect,

child = pexpect.spawn(launchcmd,args,timeout=None)
while True:
    try:
        child.expect('
')
        print(child.before)
    except pexpect.EOF:
        break

附言:我知道这个问题已经很老了,但仍然提供对我有用的解决方案。

PPS:从另一个问题得到这个答案

解决方案 9:

您无法让 stdout 无缓冲地打印到管道(除非您可以重写打印到 stdout 的程序),所以这是我的解决方案:

将 stdout 重定向到未缓冲的 sterr。 '<cmd> 1>&2'应该可以做到。打开进程如下:myproc = subprocess.Popen('<cmd> 1>&2', stderr=subprocess.PIPE)

您无法区分 stdout 或 stderr,但您会立即获得所有输出。

希望这可以帮助任何人解决这个问题。

解决方案 10:

如果你在线程中运行类似的东西并将 ffmpeg_time 属性保存在方法的属性中以便你可以访问它,它会工作得很好我得到这样的输出:
输出就像你在 tkinter 中使用线程一样

input = 'path/input_file.mp4'
output = 'path/input_file.mp4'
command = "ffmpeg -y -v quiet -stats -i \"" + str(input) + "\" -metadata title=\"@alaa_sanatisharif\" -preset ultrafast -vcodec copy -r 50 -vsync 1 -async 1 \"" + output + "\""
process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, universal_newlines=True, shell=True)
for line in self.process.stdout:
    reg = re.search('dd:dd:dd', line)
    ffmpeg_time = reg.group(0) if reg else ''
    print(ffmpeg_time)

解决方案 11:

将 rsync 进程的标准输出更改为无缓冲。

p = subprocess.Popen(cmd,
                     shell=True,
                     bufsize=0,  # 0=unbuffered, 1=line-buffered, else buffer-size
                     stdin=subprocess.PIPE,
                     stderr=subprocess.PIPE,
                     stdout=subprocess.PIPE)

解决方案 12:

我注意到没有提到使用临时文件作为中间文件。下面的方法通过输出到临时文件来解决缓冲问题,并允许您解析来自 rsync 的数据而无需连接到 pty。我在 Linux 机器上测试了以下内容,rsync 的输出往往因平台而异,因此解析输出的正则表达式可能会有所不同:

import subprocess, time, tempfile, re

pipe_output, file_name = tempfile.TemporaryFile()
cmd = ["rsync", "-vaz", "-P", "/src/" ,"/dest"]

p = subprocess.Popen(cmd, stdout=pipe_output, 
                     stderr=subprocess.STDOUT)
while p.poll() is None:
    # p.poll() returns None while the program is still running
    # sleep for 1 second
    time.sleep(1)
    last_line =  open(file_name).readlines()
    # it's possible that it hasn't output yet, so continue
    if len(last_line) == 0: continue
    last_line = last_line[-1]
    # Matching to "[bytes downloaded]  number%  [speed] number:number:number"
    match_it = re.match(".* ([0-9]*)%.* ([0-9]*:[0-9]*:[0-9]*).*", last_line)
    if not match_it: continue
    # in this case, the percentage is stored in match_it.group(1), 
    # time in match_it.group(2).  We could do something with it here...

解决方案 13:

在 Python 3 中,有一个解决方案,它从命令行获取命令并在接收到命令时提供实时解码的字符串。

接收者 (receiver.py):

import subprocess
import sys

cmd = sys.argv[1:]
p = subprocess.Popen(cmd, stdout=subprocess.PIPE)
for line in p.stdout:
    print("received: {}".format(line.rstrip().decode("utf-8")))

可以生成实时输出的简单程序示例(dummy_out.py):

import time
import sys

for i in range(5):
    print("hello {}".format(i))
    sys.stdout.flush()  
    time.sleep(1)

输出:

$python receiver.py python dummy_out.py
received: hello 0
received: hello 1
received: hello 2
received: hello 3
received: hello 4
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2079  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1459  
  建筑行业正处于数字化转型的关键时期,建筑产品生命周期管理(PLM)系统的实施对于提升项目效率、质量和协同性至关重要。特别是在 2025 年,基于建筑信息模型(BIM)的项目进度优化工具成为众多建筑企业关注的焦点。这些工具不仅能够整合项目全生命周期的数据,还能通过精准的分析和模拟,为项目进度管理提供强大支持。BIM 与建...
plm是什么软件   0  
  PLM系统开发的重要性与现状PLM(产品生命周期管理)系统在现代企业的产品研发、生产与管理过程中扮演着至关重要的角色。它贯穿产品从概念设计到退役的整个生命周期,整合了产品数据、流程以及人员等多方面的资源,极大地提高了企业的协同效率和创新能力。通过PLM系统,企业能够实现产品信息的集中管理与共享,不同部门之间可以实时获取...
国产plm软件   0  
  PLM(产品生命周期管理)系统在企业产品研发与管理过程中扮演着至关重要的角色。随着市场竞争的加剧和技术的飞速发展,企业对PLM系统的迭代周期优化需求日益迫切。2025年敏捷认证对项目管理提出了新的要求,其中燃尽图作为一种强大的可视化工具,在PLM系统迭代周期优化中有着广泛且重要的应用。深入探讨这些应用,对于提升企业的项...
plm系统主要干什么的   0  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用