python切割大数据文件（文本）成多个小文件

一、代码

重复造轮子的事情在下是不干的，不过朋友做光学试验要求将12G的文件切割为小文件。

这有点考验人啊，不过在万能的搜索引擎帮助下成功解决了问题。

代码如下：

# -*- coding: utf-8 -*-
import os
import time

def mkSubFile(lines,srcName,sub):
    [des_filename, extname] = os.path.splitext(srcName)
    filename  = des_filename + '_' + str(sub) + extname
    print( 'make file: %s' %filename)
    fout = open(filename,'w')
    try:
        #fout.writelines([head])
        fout.writelines(lines)
        return sub + 1
    finally:
        fout.close()

def splitByLineCount(filename,count):
    fin = open(filename,'r')
    try:
        #head = fin.readline()
        buf = []
        sub = 1
        for line in fin:
            buf.append(line)
            if len(buf) == count:
                sub = mkSubFile(buf,filename,sub)
                buf = []
        if len(buf) != 0:
            sub = mkSubFile(buf,filename,sub)   
    finally:
        fin.close()

if __name__ == '__main__':
    begin = time.time()
    splitByLineCount('D_1kk.dat',10*1000)
    end = time.time()
    print('time is %d seconds ' % (end - begin))

函数splitByLineCount参数二为每个小文件的行数。点击下载文件：python_split_file.py.zip

二、启示

1、在读取文件的时候需要api从磁盘中逐一加载，也就是并不会一下子加载进来，加载多少由自己的程序控制。
2、磁盘的磁头是跟着api的读取进度移动的，也就是读到哪里，磁头就在哪里。
3、是否有中api可以随机移动磁头的呢？java的RandomAccessFile类支持程序可以跳转到文件的任意地方来读写数据，即随机访问模式。不用重新打开文件就可以定位磁头到任何一处。

当前页面是本站的「Baidu MIP」版。查看和发表评论请点击：完整版 »