Python论坛  - 讨论区

标题:html数据输出组织问题

2007年06月15日 星期五 13:37

Hui Wang jackie_stata在yahoo.ca
星期五 六月 15 13:37:48 HKT 2007

我想将"http://www.economics.utoronto.ca/index.php/index/person/faculty/"网页中的教授任命以及职称对应起来并生成CSV输出。每行的格式为:[人名,职称]。用正则表达式查找信息,程序如下:
   
  import urllib,re,csv
   
  url = "http://www.economics.utoronto.ca/index.php/index/person/faculty/"
  sock = urllib.urlopen(url)
htmlSource = sock.read()
sock.close()
   
  namePattern = re.compile(r'class="name">(.*)') 
titlePattern = re.compile(r', (.*)\s*')
   
  name = namePattern.findall(htmlSource)
title_temp = titlePattern.findall(htmlSource)
  title =[]
for item in title_temp:
    item_new=" ".join(item.split())                #压缩职称信息与之间的空格,使输出信息变得简洁。
    title.extend([item_new])
    
  output =[] 
for i in range(len(name)):
    output.insert(i,[name[i],title[i]])            #将人名与职称一一对应起来,生成list
    
writer = csv.writer(open("professor.csv", "wb"))
writer.writerows(output)                           #输出CSV文件
   
  问题:
   
  1.以上程序是假设每个教授都有职称信息。一旦任何一个人没有职称信息,则å
¶åŽçš„人命与职称均会错位。请问如何改写才能使人名对应的职称可以为空?
  2.有没有å
¶ä»–编程方式可以更加简单地达到我的目的?
  3.另外还有一个小问题。csv模块打开的文件("professor.csv")是否需要å
³é—­ï¼Ÿå¦‚何å
³é—­ï¼Ÿ
   
  多谢!
   
  Jackie
 

       
---------------------------------
Be smarter than spam. See how smart SpamGuard is at giving junk email the boot with the All-new Yahoo! Mail  
-------------- 下一部分 --------------
??HTML?????...
URL: http://python.cn/pipermail/python-chinese/attachments/20070615/3aa4fcba/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月15日 星期五 13:43

limodou limodou在gmail.com
星期五 六月 15 13:43:24 HKT 2007

正则式不方便的话可以考虑使用beautifulsoup模块。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月16日 星期六 13:03

Eiwot eiwot在hotmail.com
星期六 六月 16 13:03:53 HKT 2007

Ni hao
   I posted an article about Calling Windows API in Python on my blog, http://pyarticles.blogspot.com/   , Let's see it
 
Any comments are welcome 
 
Thank you
_________________________________________________________________
Make every IM count. Download Windows Live Messenger and join the i’m Initiative now. It’s free.  
http://im.live.com/messenger/im/home/?source=TAGWL_June07
-------------- 下一部分 --------------
??HTML?????...
URL: http://python.cn/pipermail/python-chinese/attachments/20070616/cec2f87a/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月16日 星期六 13:44

klutz chump chumpklutz在gmail.com
星期六 六月 16 13:44:01 HKT 2007

²»´í°¡£¬ÎÒÃǵÄÓʼþÁбíÀïÃ滹ÓÐÀÏÍâ°¡~~

2007/6/16, Eiwot <eiwot在hotmail.com>:
>
> Ni hao
>    I posted an article about Calling Windows API in Python on my blog,
> http://pyarticles.blogspot.com/   , Let's see it
>
> Any comments are welcome
>
> Thank you
>
> ------------------------------
> Make every IM count. Download Windows Live Messenger and join the i'm
> Initiative now. It's free.  Make it count!<http://im.live.com/messenger/im/home/?source=TAGWL_June07>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070616/1c8ebeb1/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月16日 星期六 21:30

头太晕 torrycn在gmail.com
星期六 六月 16 21:30:04 HKT 2007

ÔÚ07-6-16£¬klutz chump <chumpklutz在gmail.com> дµÀ£º
>
> ²»´í°¡£¬ÎÒÃǵÄÓʼþÁбíÀïÃ滹ÓÐÀÏÍâ°¡~~


¶¥£¬»á˵Ni haoµÄÀÏÍâ¡£ºÜÇ¿°¡¡£¡£¡£

ºÃÏñ¿´ÀÏÍâµÄ²©¿Í»¹µÃÓôúÀí²ÅÐС£
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070616/2802caf9/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月17日 星期日 08:25

曾祥 luotuo85在163.com
星期日 六月 17 08:25:13 HKT 2007

 在学校里面看不了啊不能上国外网,代理又慢,建议能上的发到邮件列表里面。当然要得到作者的同意了,呵呵~  
-------------- 涓嬩竴閮ㄥ垎 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20070617/48be4b34/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年06月17日 星期日 12:05

黄毅 yi.codeplayer在gmail.com
星期日 六月 17 12:05:20 HKT 2007

>
> 在学校里面看不了啊
> 不能上国外网,代理又慢,建议能上的发到邮件列表里面。当然要得到作者的同意了,呵呵~
>

我也是校园网可以访问国外网站啊。

冲破对 blogspot 的封锁,有许多方法,网上搜一下很多。
不过基本利用的都是一个原理,就是 blogspot.com 有两个 ip ,gwf只封一个,所以只要手动在相关文件里加上
72.14.219.191 pyarticles.blogspot.com
就可以访问了。

-- 
http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070617/e6e81555/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号