Python论坛  - 讨论区

标题:[python-chinese] 取得页面的DOM树

2006年07月08日 星期六 15:21

l zh lzhlds at gmail.com
Sat Jul 8 15:21:51 HKT 2006

我想取得html页面的DOM树,要怎么做?各们大大?
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060708/302bd829/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年07月08日 星期六 15:38

limodou limodou at gmail.com
Sat Jul 8 15:38:05 HKT 2006

On 7/8/06, l zh <lzhlds at gmail.com> wrote:
> 我想取得html页面的DOM树,要怎么做?各们大大?

我想这应该是javascript的事。如果是分析静态html,python有一些模块可以做,如sgmllib, HTMLParser, 还有一些第三方的模块。

-- 
I like python!
My Blog: http://www.donews.net/limodou
My Django Site: http://www.djangocn.org
NewEdit Maillist: http://groups.google.com/group/NewEdit

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年07月08日 星期六 16:07

l zh lzhlds at gmail.com
Sat Jul 8 16:07:20 HKT 2006

李磨豆大大在的所,我是想将HTML页面的HEADER,FOOTER找出来,并且去掉,现在想到的办法就是通过DOM树计算页面所有元素的位置(每个元素都有
布局信息LEFT,TOP,WIDTH,HEIGHT),从而找到HEADER,FOOTER

在06-7-8,limodou <limodou at gmail.com> 写道:
>
> On 7/8/06, l zh <lzhlds at gmail.com> wrote:
> > 我想取得html页面的DOM树,要怎么做?各们大大?
>
> 我想这应该是javascript的事。如果是分析静态html,python有一些模块可以做,如sgmllib, HTMLParser,
> 还有一些第三方的模块。
>
> --
> I like python!
> My Blog: http://www.donews.net/limodou
> My Django Site: http://www.djangocn.org
> NewEdit Maillist: http://groups.google.com/group/NewEdit
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060708/98d33d75/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年07月08日 星期六 17:15

Bruce Wang number5 at gmail.com
Sat Jul 8 17:15:37 HKT 2006

On 7/8/06, l zh <lzhlds at gmail.com> wrote:
>
> 我想取得html页面的DOM树,要怎么做?各们大大?
>
>
用美丽的汤啊 http://www.crummy.com/software/BeautifulSoup/


-- 
simple is good
http://brucewang.net
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060708/8ee7ca36/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年07月08日 星期六 19:48

swordsp sparas2006 at gmail.com
Sat Jul 8 19:48:32 HKT 2006

这个库超级好用,就是慢了一点。

On 7/8/06, Bruce Wang <number5 at gmail.com> wrote:
>
>
>
> On 7/8/06, l zh <lzhlds at gmail.com> wrote:
> >
> > 我想取得html页面的DOM树,要怎么做?各们大大?
> >
> >
> 用美丽的汤啊 http://www.crummy.com/software/BeautifulSoup/
>
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060708/cbd4bce4/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年07月08日 星期六 23:20

wang dy dongyang.wang at gmail.com
Sat Jul 8 23:20:14 HKT 2006

这么好的东西咋不早点说呢,各位前辈们不要吝啬,把平时觉得好用的库都给小的们介绍一下

在06-7-8,swordsp <sparas2006 at gmail.com> 写道:
>
> 这个库超级好用,就是慢了一点。
>
>
> On 7/8/06, Bruce Wang <number5 at gmail.com> wrote:
> >
> >
> >
> > On 7/8/06, l zh <lzhlds at gmail.com > wrote:
> > >
> > > 我想取得html页面的DOM树,要怎么做?各们大大?
> > >
> > >
> > 用美丽的汤啊 http://www.crummy.com/software/BeautifulSoup/
> >
> >
> >
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060708/cfe479d4/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号