Python论坛  - 讨论区

标题:[python-chinese] 这两个问题如何用python来做?1.怎么随机生成一个汉字或词组?2.怎么从文件中随机抽取一个词组?

2007年04月11日 星期三 10:55

boyeestudio boyee118在gmail.com
星期三 四月 11 10:55:39 HKT 2007

Çë´ó´óÃǸøµã˼·£¡£¡£¡Ð»Ð»ÏÈ£¡
PS:Ó¦µ±²»»áºÜ¸ßÉî°É£¡Ö®Ç°ÎÊÒ»¸öͬÊ£¬Ëû°ÑÈ˹¤ÖÇÄܶ¼³¶µ½ÀïÃæÀ´ÁË£¡£¡£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070411/e862b7f3/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 10:59

Zoom.Quiet zoom.quiet在gmail.com
星期三 四月 11 10:59:39 HKT 2007

On 4/11/07, boyeestudio <boyee118在gmail.com> wrote:
> 请大大们给点思路!!!谢谢先!
只要你有分词库:
1. 使用随机数作为序号从词库中返回一个;
2. 根据词库将文档分解为一个独立分词库,然后同上处理

> PS:应当不会很高深吧!之前问一个同事,他把人工智能都扯到里面来了!!!
>


-- 
'''Time is unimportant, only life important!
http://zoomquiet.org
blog在http://blog.zoomquiet.org/pyblosxom/
wiki在http://wiki.woodpecker.org.cn/moin/ZoomQuiet
scrap在http://floss.zoomquiet.org
douban在http://www.douban.com/people/zoomq/
____________________________________
Pls. use OpenOffice.org to replace M$ Office.
     http://zh.openoffice.org
Pls. use 7-zip to replace WinRAR/WinZip.
     http://7-zip.org/zh-cn/
You can get the truely Freedom 4 software.
'''

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 11:01

LI Xin delphij在delphij.net
星期三 四月 11 11:01:33 HKT 2007

boyeestudio wrote:
> Çë´ó´óÃǸøµã˼·£¡£¡£¡Ð»Ð»ÏÈ£¡
> PS:Ó¦µ±²»»áºÜ¸ßÉî°É£¡Ö®Ç°ÎÊÒ»¸öͬÊ£¬Ëû°ÑÈ˹¤ÖÇÄܶ¼³¶µ½ÀïÃæÀ´ÁË£¡£¡£¡

²»Ì«Ã÷°×ÄãÒª×öʲô¡£Èç¹ûÖ»ÊÇÈ¡ÍêÕûµÄ×ֵĻ°ºÜ¼òµ¥£¬È¡´Ê¾Í±È½Ï¸´ÔÓÁË£¬ÖÐÎÄ
·Ö´ÊÊÇÒ»¸öÏ൱¸´ÔÓµÄÎÊÌ⣨²»ÒªËµ»úÆ÷£¬¾ÍÁ¬ÈËÓÐʱºò¶¼»á·¸ÃÔºý:£©£¬¼ÙÈçÕâ
¸öÎÊÌâºÜÈÝÒ×½â¾öµÄ»°£¬Ðí¶àÎÊÌ⣬ÈçËÑË÷ÒýÇæ¡¢·´À¬»øÓʼþµÈµÈµÄÃż÷¶¼»á´ó´ó
½µµÍ¡£

Cheers,
-- 
Xin LI <delphij在delphij.net>	http://www.delphij.net/
FreeBSD - The Power to Serve!

-------------- 下一部分 --------------
Ò»¸ö·ÇÎı¾¸½¼þ±»Çå³ý...
·¢ÐÅÈË: %(who)s
Ö÷Ìâ: %(subject)s
ÈÕÆÚ: %(date)s
´óС: 249
Url: http://python.cn/pipermail/python-chinese/attachments/20070411/bc512cc0/attachment.pgp 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 11:06

IQDoctor huanghao.c在gmail.com
星期三 四月 11 11:06:57 HKT 2007

1. 简单的颁发:

将你的汉字序列转换为一个 list(不过如果你的汉字范围非常大, 效率就..),
随机选择该 LIST 其中一个元素(汉字) 就可以了

词组同理.

2. 看文件的形式, 如果文件就是自然文件(没任何格式), 随机选取两字以上连着的,
并且两边都是空格的就可以了.


boyeestudio 写道:
> 请大大们给点思路!!!谢谢先!
> PS:应当不会很高深吧!之前问一个同事,他把人工智能都扯到里面来了!!!
> ------------------------------------------------------------------------
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 11:27

LI Xin delphij在delphij.net
星期三 四月 11 11:27:23 HKT 2007

IQDoctor wrote:
> 1. 简单的颁发:
> 
> 将你的汉字序列转换为一个 list(不过如果你的汉字范围非常大, 效率就..),
> 随机选择该 LIST 其中一个元素(汉字) 就可以了

这个会很慢吧,汉字编码常见的就是GB2312/18030和UTF-8,这两个写个状态机去
做可能比较好。

> 词组同理.

词组没这么简单了。举个例子:

我家门口的小河很难过。

这句话里面,“很难”是一个词组。而在另一个句子里面:

我很难过。

“难过”是一个词组。

这个目前还没有非常好的办法,主要都是靠概率来做,而且性能也不会太好。

> 2. 看文件的形式, 如果文件就是自然文件(没任何格式), 随机选取两字以上连着的,
> 并且两边都是空格的就可以了.

习惯上中文是没有空格分词的。我觉得他想要的可能不是这个结果……

Cheers,
-- 
Xin LI <delphij在delphij.net>	http://www.delphij.net/
FreeBSD - The Power to Serve!

-------------- 下一部分 --------------
一个非文本附件被清除...
发信人: %(who)s
主题: %(subject)s
日期: %(date)s
大小: 249
Url: http://python.cn/pipermail/python-chinese/attachments/20070411/5a16b7bf/attachment.pgp 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 12:37

boyeestudio boyee118在gmail.com
星期三 四月 11 12:37:15 HKT 2007

°´ÕÕ¸÷λ˵µÄ£¬Ë¼Â·»ù±¾ÉÏÓÐÁË¡£

ÎÊÌâûÕâô¸´ÔÓÁË¡£ÎÒÖ»ÒªÏëÍùÊý¾Ý¿âÖÐÔì300ÍòÒÔÉϵÄÊý¾Ý¾Í¿ÉÒÔÁË£¬Ö»ÊÇÒ»¸öÔìÊý¾ÝµÄ³ÌÐò£¬ÎÒÏëÒÔij¸öÎı¾Îļþ×÷ÕâÖÖ×Ó£¬Ð´Ò»¸ö³ÌÐòÍùÒ»¸öÊý¾Ý¿â±íÖвåÈëÊý¾Ý£¡

ÒòΪÊÖÍ·Éϸù±¾Ã»ÓÐÕâô¶àÊý¾Ý£¬Ö»ÄÜÔìÁË

²»¹ý£¬Èç¹ûÒªÈÃÎÒÒÔºóµÄ²âÊÔºÃ×öһЩ£¬ÎÒ»¹ÊǾõµÃ¿ÉÄÜÐèÒª¿¼ÂÇһϷִʣ¡£¡
°´Zoom.QuietµÄÏë·¨£¬È¥ÕÒ¸ö·Ö´Ê´Ê¿âÀ´£¡

£¡ºÇºÇ¡£Ð»Ð»¸÷λÁË£¡

ÔÚ07-4-11£¬LI Xin <delphij在delphij.net> дµÀ£º
>
> IQDoctor wrote:
> > 1. ¼òµ¥µÄ°ä·¢:
> >
> > ½«ÄãµÄºº×ÖÐòÁÐת»»ÎªÒ»¸ö list(²»¹ýÈç¹ûÄãµÄºº×Ö·¶Î§·Ç³£´ó, ЧÂʾÍ..),
> > Ëæ»úÑ¡Ôñ¸Ã LIST ÆäÖÐÒ»¸öÔªËØ(ºº×Ö) ¾Í¿ÉÒÔÁË
>
> Õâ¸ö»áºÜÂý°É£¬ºº×Ö±àÂë³£¼ûµÄ¾ÍÊÇGB2312/18030ºÍUTF-8£¬ÕâÁ½¸öд¸ö״̬»úÈ¥
> ×ö¿ÉÄܱȽϺá£
>
> > ´Ê×éͬÀí.
>
> ´Ê×éûÕâô¼òµ¥ÁË¡£¾Ù¸öÀý×Ó£º
>
> ÎÒ¼ÒÃÅ¿ÚµÄСºÓºÜÄѹý¡£
>
> Õâ¾ä»°ÀïÃ棬"ºÜÄÑ"ÊÇÒ»¸ö´Ê×é¡£¶øÔÚÁíÒ»¸ö¾ä×ÓÀïÃ棺
>
> ÎÒºÜÄѹý¡£
>
> "Äѹý"ÊÇÒ»¸ö´Ê×é¡£
>
> Õâ¸öÄ¿Ç°»¹Ã»Óзdz£ºÃµÄ°ì·¨£¬Ö÷Òª¶¼ÊÇ¿¿¸ÅÂÊÀ´×ö£¬¶øÇÒÐÔÄÜÒ²²»»áÌ«ºÃ¡£
>
> > 2. ¿´ÎļþµÄÐÎʽ, Èç¹ûÎļþ¾ÍÊÇ×ÔÈ»Îļþ(ûÈκθñʽ), Ëæ»úÑ¡È¡Á½×ÖÒÔÉÏÁ¬×ŵÄ,
> > ²¢ÇÒÁ½±ß¶¼ÊÇ¿Õ¸ñµÄ¾Í¿ÉÒÔÁË.
>
> Ï°¹ßÉÏÖÐÎÄÊÇûÓпոñ·Ö´ÊµÄ¡£ÎÒ¾õµÃËûÏëÒªµÄ¿ÉÄܲ»ÊÇÕâ¸ö½á¹û¡­¡­
>
> Cheers,
> --
> Xin LI <delphij在delphij.net>    http://www.delphij.net/
> FreeBSD - The Power to Serve!
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070411/18e23bb6/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月11日 星期三 18:09

batfree batfreelist在gmail.com
星期三 四月 11 18:09:42 HKT 2007

boyeestudio 写道:
> 按照各位说的,思路基本上有了。
>
> 问题没这么复杂了。我只要想往数据库中造300万以上的数据就可以了,只是一
> 个造数据的程序,我想以某个文本文件作这种子,写一个程序往一个数据库表中
> 插入数据!
>
> 因为手头上根本没有这么多数据,只能造了
>
> 不过,如果要让我以后的测试好做一些,我还是觉得可能需要考虑一下分词!!
> 按Zoom.Quiet的想法,去找个分词词库来!
>
> !呵呵。谢谢各位了!
>
> 在07-4-11,*LI Xin* <delphij在delphij.net delphij在delphij.net>>
> 写道:
>
>     IQDoctor wrote:
>     > 1. 简单的颁发:
>     >
>     > 将你的汉字序列转换为一个 list(不过如果你的汉字范围非常大, 效率就..),
>     > 随机选择该 LIST 其中一个元素(汉字) 就可以了
>
>     这个会很慢吧,汉字编码常见的就是GB2312/18030和UTF-8,这两个写个状
>     态机去
>     做可能比较好。
>
>     > 词组同理.
>
>     词组没这么简单了。举个例子:
>
>     我家门口的小河很难过。
>
>     这句话里面,"很难"是一个词组。而在另一个句子里面:
>
>     我很难过。
>
>     "难过"是一个词组。
>
>     这个目前还没有非常好的办法,主要都是靠概率来做,而且性能也不会太好。
>
>     > 2. 看文件的形式, 如果文件就是自然文件(没任何格式), 随机选取两字
>     以上连着的,
>     > 并且两边都是空格的就可以了.
>
>     习惯上中文是没有空格分词的。我觉得他想要的可能不是这个结果……
>
中文分词现在并不是很成熟,Baidu和Google其实都不分词,而是将一个汉字作为
一个词进行索引的,然后利用前后的关联性来决定,这样不存在分词的准确率,但
是数据量分析非常大。

生成随机汉字的话也可以考虑找出Unicode的汉字区间,然后随机生成该区间的一
个数字,decode为汉字,这样不需要造库了。

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月12日 星期四 12:34

Andelf andelf在gmail.com
星期四 四月 12 12:34:18 HKT 2007

在07-4-11,boyeestudio <boyee118 at gmail.com> 写道:
>
> 请大大们给点思路!!!谢谢先!
> PS:应当不会很高深吧!之前问一个同事,他把人工智能都扯到里面来了!!!


有sogou的词库可用
随机抽词组? random模块么~
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070412/b1260346/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月12日 星期四 13:33

清风 paradise.qingfeng在gmail.com
星期四 四月 12 13:33:10 HKT 2007

可以尝试一下sogou的词库:),我给转化为python的序列化形式了,参考这里:
http://qingfeng.ushared.com/blog/2007/apr/11/207/

On 4/12/07, Andelf <andelf在gmail.com> wrote:
>
>
>
> 在07-4-11,boyeestudio <boyee118在gmail.com> 写道:
> > 请大大们给点思路!!!谢谢先!
> > PS:应当不会很高深吧!之前问一个同事,他把人工智能都扯到里面来了!!!
>
>
> 有sogou的词库可用
> 随机抽词组? random模块么~
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


-- 
用彩信更新我的Blog,用照片记录我的生活
http://qingfeng.ushared.com/blog/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号