-
2006-04-27
τρoπή, entropy and shāng
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://bluewhale.blogbus.com/logs/2365806.html
看黑板报,说到Claude Shannon,想起网络课里,尼奎斯特和香农关于信道最大传输速率的定理来。说到熵,又想起物理课来。有点糊涂了。上wikipedia,竟有三个答案,这下明白了:
热力学:
熵的概念是由德国物理学家克劳伊士于1865年所提出。克氏定义一个热力学系统中熵的增减:在一个可逆性程序里,被用在恒温的热的总数(δQ),并可以公式表示为:
克劳伊士对变量S予以entropy(熵)一名, 该名源自希腊词语τρoπή,意即“转换”。
1923年,德国科学家普朗克来中国讲学用到entropy这个词,胡刚复教授翻译时灵机一动,把“商”字加火旁来意译 entropy,创造了“熵”字。
去年12月25号风靡一时的“质量,自然对数之底,半径的平方,纵坐标,电容,普朗克常数,电阻,电流,路程,时间,质量,加速度,熵!”就是它了
信息论:
信息熵之所以仍然称为“熵”,是因为他的公式和热力学熵的公式一样,是玻耳兹曼在统计力学领域推导出来的,玻耳兹曼从微观粒子出发,总结熵的宏观性质。不仅信息科学,生物学也利用熵的概念,不过热力学中熵表示的是“系统混乱状态”;信息论中信息熵表示的是信息量;生态学中熵表示的是生物多样性。
熵在信息论的定义如下:
如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的概率分布 P = {p1, ..., pn},则每个事件本身的信息为
Ie = − log2pi(对数以2为底,单位是比特)
Ie = − lnpi(对数以e为底,单位是纳特/nats)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为
而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
整个系统的平均信息量为
这个平均信息量就是信息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的信息量,如一篇用不同文字写的同一文章,由于是所有元素信息量的加和,使用汉字的应用的汉字就比使用英文字母的使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。
实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的信息量越大。
生态学:
假定一个个体无限的总体内,存在n种动植物(A1,A2…Aj…An),每一个个体动植物属于Aj的概率为pj,因此

如果每一种中有q个个体,总共有q1 + q2 + ….qj + …qn个个体。即qn = nlogq个个体。N可以设为常数C。
每一种内的平均多样性(即如雄、雌、大、小等)为
C ∑ pilogqj = C ∑ pilogpI + Clogq j j (因为qj = qpI)
所以种的多样性等于所有个体减去种内多样性为种的多样性:
Clogq - (C ∑ pilogpi + Clogq) = - C ∑ pilogpi j j 和信息熵的公式是一样的。只不过信息熵用的是以2为底的对数,单位是比特,如果用以十为底的对数,单位是贝尔;生物多样性用的是以十为底的对数;热力学熵用的是以e为底的自然对数,为的是将常数C化为玻耳兹曼常数,即气体常数和阿佛加德罗常数的比。
随机文章:
Google Doodle for Chinese New Year 2007-02-18POS Label List 词性对照表 2007-01-22Ganges Vapor 2006-11-22Coincidence 2006-10-26Dust and Baby Blue 2006-07-22
收藏到:Del.icio.us










评论