说说信息是什么

 

这次大家满足了吧!...

2016年4月30日,信息之父克劳德·香农诞辰100周年
今天我们就来
说说信息的故事


克劳德·香农(Claude Elwood Shannon)是美国数学工程师。他在公众中并不特别知名,但他是信息论的创始人,是使我们的世界能进行立即通信的科学家和思想家,是20世纪最伟大的科学家之一。

他在通信技术与工程方面的创造性工作,为计算机与远程通信奠定了坚实的理论基础。人们尊崇香农为信息论及数字通信时代的奠基之父。

回顾上世纪末的信息革命风暴,经他阐明的信息概念、连同“比特”这个单位已经深入人心,成为今天日常生活都离不开的词汇。不夸张地说,没有香农,世界就不会是今天这个样子。



信息的本质

我们先来说说:什么是信息?

这是一个古老而又现代的问题。

中国古人理解的信息其实很简单:

如南唐李中《暮春怀故人》:“梦断美人沉信息,目穿长路倚楼台。”

宋陈亮《梅花》:“欲传春信息,不怕雪埋藏。”

还有宋代著名词人李清照的名句:“不乞隋珠与和璧,只乞乡关新信息。”

这些诗句中的“信息”都是通俗意义上的“音讯”或“消息”的意思。

事实上,我们每个人都能列出一大串他称之为“信息”的东西:新闻、消息、音乐、图片,情报等。

然而如果问,信息到底是什么?似乎就难以回答了。

比如我们可以说音乐是信息,照片是信息,但反过来说“信息是音乐”或“信息是照片”显然是不成立的。

信息的定义需要从其许多的具体表现形式中抽象出共性来。

近现代的科学研究,将信息提到了一个前所未有的高度;现代科学家认为,组成我们客观世界,有三大基本要素:物质、能量和信息。

美国学者、哈佛大学的欧廷格(A.G.Oettinger)对这三大基本要素有一个精辟的诠释:

“没有物质,什么都不存在;

没有能量,什么都不会发生;

没有信息,什么都没有意义。”

到了20世纪中叶,人类终于对质量、能量、信息量这三大物理量都有了定量的计量办法。其中为阐明质量概念做出伟大贡献的是发现物体力学定律的牛顿,为阐明能量概念作出伟大贡献的是热力学科学家迈耳、焦耳、开尔文等人,而为阐明信息概念作出伟大贡献的就是香农。

1948年,香农在其著作《通讯的数学理论》中首次给出了信息的现代定义:“信息是用来消除随机不定性的东西”。

简单来说就是,某个事件如果发生的概率越小,不确定性越高,则称其包含的信息越少。反之,如果发生某个时间的概率越大,不确定性越低,则其所含信息就越多。

香农还把热力学中的“熵”的概念引入到了信息论里,创建了“信息熵”的概念。

“熵”这个词听着就很高大上, 而其实简单来说,“熵”刻划的是事物的“混乱程度”;比如著名的热力学第二定律说,整个宇宙的熵值是不减的;换言之,整个世界的物质和能量虽然守恒,但其混乱度只会趋于越来越高。

这是一个很深刻的结论,也被很多科普和科幻作品使用到。

回到我们今天的主题,香农认为,信息内容的不确定程度也可以用熵来描述。信息熵大,意味着不确定性也大,信息量就小。反过来,信息熵小,意味着不确定性也小,信息量就大。

举例来说,如果我们想知道明天的天气,这时我们就需要获得相关的信息:比如我们看到了天边的晚霞,结合“晚霞行千里”的古语,我们就知道明天下雨的可能性很小,所以天边的晚霞对我们来说就是重要的信息。

当然我们也可以打开手机上的天气APP,查到明天的天气预报是晴转少云:这种资料对我们来说也是重要的信息。

在这里,天边的晚霞或APP里的记录都显著降低了天气信息的熵值:换言之,它们降低了天气的不确定性。

用更专业的语言来说,事件发生的概率和包含该事件的信息之间存在着量化关系。

香农给出的公式是:信息量等于事件发生概率的负对数。

衡量信息的单位呢?就是大名鼎鼎的比特(bit)。这个术语第一次正式使用,也在香农上述著作《通信的数学理论》里。

信息的特点

有一点需要说明,一段信息所含信息量的多少,在于它解决了多少不确定性的问题,而不是它所含的文字单位的多少。

比如我们可以来比较这样两句话:

1、“G112次车6日14:08抵京南”。

这句话算上所有的数字、字母和符号,一共16个字,为读者解决了车次、日期、时间、地点的不确定性,同时还隐含着人物信息(发信息的人),可谓言简意丰。

2、“喂喂喂!大家不要生气,生气会犯了嗔戒的!悟空你也太调皮了,我跟你说过叫你不要乱扔东西,你怎么又…哎呀你看我还没说完你又把棍子给扔掉了!月光宝盒是宝物,你把它扔掉会污染环境!要是砸到小朋友怎么办?就算砸不到小朋友,砸到那些花花草草,那也是不对的呀!你想要啊?你要是想要的话你就说话嘛,你不说我怎么知道你想要呢?虽然你很有诚意地看着我,可是你还是要跟我说啊。你真的想要吗?那你就拿去吧!你不是真的想要吧?难道你真的想要吗?

这一句话(其实应该是一段话了),大家都知道摘自周星驰著名电影《大话西游》,它絮絮叨叨翻来覆去,解决的不确定性问题非常少,包含的信息量相当低,无怪乎听者悟空和观音都无法忍受。编剧用这样一种极端的方式完美地表达出了搞笑的效果。



语言中的二义信息

其实和上文的絮絮叨叨相比起来,还有一类所谓二义信息更为有趣:上文的絮叨无非是语言贫瘠和表达啰嗦,其包含的意思本身还是比较清楚明白的;而二义信息就是同样一句话,可以理解出两个(甚至多个)内容不同甚至完全相反的意思。

用信息论的观点来看就是,絮叨和啰嗦是指所含信息量很低,而二义信息往往信息量更低甚至为零。

比如咱们昨天的这个例子:



“下雨天留客天留我不留”

可以断句为“下雨,天留客,天留,我不留”,理解成下雨,老天要留客;虽然老天要留客,但是我还是不留了——这是主人在说,意思是不留客人了。

也可以断句为“下雨天,留客天,留我不?留”,理解成下雨天是留客人的天,留我吗?当然留了——变成了客人在说,意思是我要留下。

还可以断句为“下雨天,留客天,留我?不留”,这时前面的理解和上面一样,但结果却正好相反——是客人在说前半句话,但结尾是主人的回答,意思是请你离开。

还有多种不同的理解,这里就不一一列举了,有兴趣的小伙伴们可以自己尝试;据说这10个字组成的短句里,不同的排列组合可以有7种不同的合理的断句方式:再配以不同的口气,可以表达出各种各样的意思出来。

从信息论的观点来看就是,这10个字组成的短句信息量几乎接近于0:因为它基本没有解决事情的不确定性:甚至就连现在到底是不是下雨,都没有给出确定的解释!

更多好玩的例子如下,小伙伴们可以试试,你读出完全相反的意思了吗:

无鸡鸭也可无鱼肉也可青菜一碟足矣

新年好晦气少不得打官司养猪大如山老鼠只只死

生活中的无效信息和二义信息

在日常生活里,如果我们不想被别人认为语言贫乏表达能力差,那就要注意:

一、尽量减少无效表述。

诸如“原则上”、“总体来说”、“一般认为”等这种书面语言,可以不用在口头或日常中使用。

当然,在某些场合下,需要一些无效表述来进行机智回避或故意为之的诡辩则正好相反。

据说美国二战时期的总统艾森豪威尔就特别擅长此道,对于记者的突然袭击,他的典型回复是“对于你所问的这件事情及其包含的内在含义,我的意见是,总体来说,如果不出现包括极少例外的特殊情况的话,那么赞同的态度在现在的情况下听上去将会是一个更为合适的选择方式。”

一句话,先绕晕你再说!

二、消除描述中可能存在的歧义。

尽量减少不确定性或存在二义性的描述。

我们汉语博大精深,词义丰富、行文简练,但处理难度也大。

用刚刚香农量化的单位来计量的话,汉字的静态平均信息复杂度是9.65比特,而英文只有4.03比特。

所以,诸如“我说不好”、“你想啥呢”和“还欠款25万元”等这些平时需要借助断句、语气和多音字读音等信息来判断语义的句子,在非口头沟通渠道里就要尽量避免使用,可以换以更明确的表达,以免发生误会!


    关注 科学可以很好玩


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册