DataWorks中pyodps 线程限制是什么?
以下为热心网友提供的参考意见
在DataWorks上使用PyODPS,为了防止对DataWorks的Gate Way造成压力,系统对内存和CPU都进行了限制,这个限制由DataWorks统一管理。如果出现”Got killed”的错误,即表示内存使用超过了限制,此时进程会被中止。因此,在使用PyODPS时,需要尽量避免进行大量的本地数据操作。
另外,对于需要在PyODPS节点内获取并处理的本地数据,建议其大小不超过50 MB。这一限制是根据DataWorks执行资源的不同规格设定的,包括公共调度资源组和独享调度资源组。如果处理的本地数据过多并超出操作系统阈值,可能会发生OOM(内存溢出)错误,导致进程被中止。
此外,通过PyODPS发起的SQL和DataFrame任务(除to_pandas外)并不会受到这些限制的影响。然而由于Python沙箱的限制,第三方库只支持所有的纯粹Python库以及Numpy,因此不能直接使用Pandas。
以下为热心网友提供的参考意见
在DataWorks中使用PyODPS时,由于内存和CPU的限制,对线程的使用有一定的限制。具体来说,PyODPS节点的本地处理数据不能超过50 MB,节点运行时占用的内存不能超过1 GB。如果超出这些限制,节点任务会被系统中止。
此外,为了防止对DataWorks的Gate Way造成压力,PyODPS还对线程的使用进行了限制。具体来说,PyODPS在DataWorks上使用的线程数量是有限制的,这个限制由DataWorks统一管理。
需要注意的是,PyODPS发起的SQL和DataFrame任务(除to_pandas外)不受上述限制。
本文来自投稿,不代表新手站长_郑州云淘科技有限公司立场,如若转载,请注明出处:https://www.cnzhanzhang.com/11941.html