可以通过生成器,分多次读取,每次读取数量相对少的数据(比如 500MB)进行处理,处理结束后 在读取后面的 500MB 的数据。
可以通过 linux 命令 split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行 数切割,可以按照文件大小切割。
https://blog.csdn.net/mxgsgtc/article/details/12048919
0