数学经典书籍读书笔记(带你领略数学的美)
数学经典书籍读书笔记(带你领略数学的美)大家可以先思考一下李开复是怎么做到的,他的做法使用了概率论相关的知识,在文章的最后我会给出答案。第二天,电视直播节目如期开演,一切都进行得非常成功,甚至连公司的股票都因此上涨了两美元。当时,李开复负责开发的语音识别系统才刚刚搭建,说实话,碰到故障的可能性还是蛮大的。听到史考利的问话,李开复认真地思忖了一下,然后平静地回答道:“大概有90%吧!”史考利听后,心有不甘地接着问:“你能将这个概率提高到99%吗?”看着史考利期望的眼神,李开复想也没想,最后底气十足地立即回答道:“能!”
统计语言模型我们在前一章讲了自然语言从他产生开始,逐渐演变成一种上下文相关的信息表达和传递方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。这个数学模型就是统计语言模型,他是今天所有自然语言处理的基础,并广泛应用于机器法医、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。
开始之前来给大家讲一个小故事:早年,李开复博士曾在苹果电脑公司任职,专门负责新产品的研制和开发。
有一次,李开复与公司CEO史考利先生,受到美国当时最红的早间电视节目“早安美国”的邀请。在当时,能上这个收视率非常高的节目,不仅是苹果公司的荣誉,也是李开复展现个人魅力的机会。电视台方面提前和苹果公司沟通,希望他们能在电视直播中,演示苹果公司最新发明的语音识别系统,让更多消费者了解到公司的新产品。
在上节目的前一天晚上,史考利找到李开复,有些担心地问他:“开复,你对明天演示成功的把握度有多大?你也明白,这是面对全美国直播的电视节目,它会直接影响到我们公司的声誉和产品销量,意义重大。所以,你要尽可能地将其做好。”
当时,李开复负责开发的语音识别系统才刚刚搭建,说实话,碰到故障的可能性还是蛮大的。听到史考利的问话,李开复认真地思忖了一下,然后平静地回答道:“大概有90%吧!”
史考利听后,心有不甘地接着问:“你能将这个概率提高到99%吗?”
看着史考利期望的眼神,李开复想也没想,最后底气十足地立即回答道:“能!”
第二天,电视直播节目如期开演,一切都进行得非常成功,甚至连公司的股票都因此上涨了两美元。
大家可以先思考一下李开复是怎么做到的,他的做法使用了概率论相关的知识,在文章的最后我会给出答案。
下面我们来看一下数字之美这一章的读书笔记
贾里尼克 的统计模型贾里尼克 的统计模型:一个句子是否合理,就看他的可能性大小如何。更严格地描述:假定S表示某一个有意义的句子,由一连串特定排序的词w1 w1... wn组成,要想求得S在文本中出现的概率P(S),有P(S)=P(w1 w1... wn),利用条件概率公式可以展开为
P(w1 w2... wn)=P(w1)·P(w2|w1)·P(w3|w1 w2)...·P(wn|w1 w2... wn-1)
式中P(w1)表示第一个词w1出现的概率,P(w2|w1)表示在已知第一个词的前提下第二个词出现的概率,也就是说,词wn的出现概率取决于它前面的所有词。
但是公式前几项比较容易计算,但是从第三项开始计算难度加大,可能性太多了无法估算,于是就有了马尔可夫假设:假设任意一个词wi出现的概率只同他前面的词wi-1有关,于是上式就可以表示为:
P(S)= P(w1 w2... wn)=P(w1)·P(w2|w1)·P(w3|w2)...·P(wn|w1 wn-1)
这个公式对应的式语言模型的是二元模型,当一个词由前面N-1个词决定时成为N元模型。
接下来的问题就是如何估计条件概率P(wi|wi-1),根据定义
P(wi|wi-1)=P(wi-1 wi)/P(wi-1)
根据相对频度:
f(wi-1 wi)=#( wi-1 wi)/#;
f(wi-1)=#( wi-1)/#;
根据大数定律,只有统计量足够,相对频度就等于概率,即
P(wi-1 w)=#(wi-1 wi)/#
P (wi-1)=#( wi-1)/#;
因此,带入上式得到:
P(wi|wi-1)≈#( wi-1 wi)/#( wi-1)
这个模型仍然存在一些细节问题,比如公式中对词(wi-1 wi)在语料库中没有出现,或者只出现了一两次,估算概率就比较棘手了
现在我们来揭晓上问题的答案
节目结束后,史考利拉着李开复的手,一边连连赞扬他,一边又急切询问李开复:“我想,你昨天晚上一定改程序到很晚吧?”结果李开复回答说:“完全不是那样。其实,今天的系统和昨天的系统没有任何差别,你高估了我的编程和测试效率。”
史考利很惊讶地睁大眼睛,不解地问:“你不是答应过我,说是将成功率可以提高到99%吗?你该不会冒着这么大的风险上节目吧!”
李开复认真地回答道:“没错,这次的成功率的确保证在了99%以上——因为,我带了两台电脑上节目,而且把它们连接在一起。之所以这么做,我觉得,如果一台出了问题,我们可以马上切换到另外一台电脑。根据概率原则,一台电脑失败的可能性是10%,两立的电脑都失败的可能性就是10%×10%=1%,这样,成功率自然是99%了。”
史考利听了李开复的想法后,对这位年轻人的智慧大加赞赏,不由自主地竖起了大拇指。
其实在生活中,我们不管做什么事情,不妨学习一下李开复。多做准备,尽量降低失败的风险,多给自己一些机会,多尝试一些不同的方法,如此一来,成功的概率自然会增加。