Python论坛的帖子：

星期一一月 22 20:22:55 HKT 2007

 从一两百万个文件中过滤出几十万个特定ID的行,
 希望能提高操作速度，各位有好方法吗？
 
 假定：1.特定id放在id.txt文件
       2.要过滤的文件的首行、尾行[21:28]是记录总数,一个文件最多有9999999个记录。
       3.记录位于首行、尾行之间,一行代表一个记录，每行[13:37]是记录的ID,使用前需去掉两头空格
       4.遍历每个文件，匹配的行记录（记录的ID若在id.txt文件中）写入一个新文件，文件名相同。
       5.要过滤的文件平均分布在5个文件目录（也许可以根据实际调整成更多的目录）,传入不同的目录参数即可并行处理。


参考代码:
省略了部分写文件、以及程序重新执行后做检查的代码。

经测试，
环境：HP-UX bilut21 B.11.11 U 9000/800 (ti)，系统有2G内存及足够的硬盘空间
python 版本  ：python2.3
要过滤的id数  ：350000
所有文件记录数： 29258423
匹配记录数    :  4393239
花费时间（秒) :  913
测试文件数    :  11248
----------------------------------------------------------
import os,mmap,time

inputdir='./data/input/'
outputdir='./data/output/'
idfile='./data/id.txt'

#右对齐
def rjust(s,width,char):
    if len(s)>=width :
      return s[0:width]
    l = list(s)
    for i in range(width-len(s)) :
        l.insert(0,char)
    
    return ''.join(l)

if __name__ == '__main__':

    #缓存要过滤的ID
    ids = {}
    f = open(idfile,'r')
    f.seek(0,2)
    m = mmap.mmap(f.fileno(),f.tell(),access=mmap.ACCESS_READ)
    while True:
        line = m.readline().strip()
        if len(line) <= 0 :
            break;
        ids[line] = None
    m.close()
    f.close()
    
    #------------------------------------------------------------
    #遍历目录，过滤文件
    inputfileList = os.listdir(inputdir)    
    filterlist = []
    for filename in inputfileList :
        starttime = time.time()
        print filename

        #check if retry
        # ....

        #Memory-mapped file 
        f = open('%s%s'%(inputdir,filename),'r')
        f.seek(0,2)
        m = mmap.mmap(f.fileno(),f.tell(),access=mmap.ACCESS_READ)

        #取文件记录数
        headline = m.readline()
        numRecords = int(headline[21:28])#numRecords 一定大于0         
        lineno = 1        
        while True:
            line = m.readline();
            if lineno >= numRecords + 1 :
                trailline=line
                break
            else :
                exid = line[13:37].strip()
                if ids.has_key(exid) :
                    filterlist.append(line)
            lineno = lineno + 1

        m.close()
        f.close()
        
        #根据filterlist生成新文件，也需要花费时间
        #...

        #reset
        filterlist = []
        print "process file time:",(time.time()-starttime)
       
    print "#the end"

标题：[python-chinese] 性能提高问题，从一两百万个文件中过滤出有几十万个特定ID的行