Google 黑板报 -- Google 中国的博客网志: 数学之美系列一 -- 统计语言模型

This link has been bookmarked by 12 people . It was first bookmarked on 12 Nov 2006, by Dagang Wei.

14 Apr 09

vvv sop
18 Jan 09

doxyer Liu
google 黑板报
- 数学是解决信息检索和自然语言处理的最好工具
- 在乔姆斯基（Noam Chomsky 有史以来最伟大的语言学家）提出 “形式语言” 以后，人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是，几十年过去了，在计算机处理语言领域，基于这个语法规则的方法几乎毫无突破
- 数学家兼信息论的祖师爷香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。
- 如果 S 表示一连串特定顺序排列的词 w1， w2，…， wn ，换句话说，S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在，机器对语言的识别从某种角度来说，就是想知道S在文本中出现的可能性，也就是数学上所说的S 的概率用 P(S) 来表示
- 不难看出，到了词wn，它的出现概率取决于它前面所有词。从计算上来看，各种可能性太多，无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设），于是问题就变得很简单了
- 接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后，这个问题变得很简单
- 贾里尼克和他的同事的贡献在于提出了统计语言模型，而且很漂亮地解决了所有的细节问题。十几年后，李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题，实现了有史以来第一次大词汇量非特定人连续语音的识别
5 more annotations...
03 Dec 07

swan lin
math
28 Nov 07

Joel Liu
google math statistics
25 May 07

York Jong
Google math statistics
27 Nov 06

Cui Yingjie
google mathematics 数学数学之美 search
21 Nov 06

Forrest Cao
也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人，就连很多语言学家都曾质疑过这种方法的有效性，但事实证明，统计语言模型比任何已知的

google 算法
12 Nov 06

Dagang Wei
search_engine
- 数学之美系列一 -- 统计语言模型