微软亚洲研究院创始人李开复在演讲_微软亚洲研究院

演讲稿时间：2020-02-26 23:01:34 收藏本文下载本文

【www.daodoc.com - 演讲稿】

微软亚洲研究院创始人李开复在演讲由刀豆文库小编整理，希望给你工作、学习、生活带来方便，猜你可能喜欢“微软亚洲研究院”。

微软亚洲研究院创始人李开复在演讲(全文)

新浪科技讯11月5日“二十一世纪的计算-探索计算之源”国际学术研讨会在北京国际会议中心举行，微软公司高级副总裁Rick Rashid博士、菲尔兹奖获得者丘生桐博士、图灵奖获得者Raj Reddy博士、微软亚洲研究院院长兼首席科学家张亚勤博士、微软公司副总裁李开复博士等知名学者做了主题演讲。新浪科技对本会议做了全程独家直播报道。

以下为微软亚洲研究院创始人李开复演讲全文

我记得在五年前的今天是我们微软亚洲研究院成立的时候，我曾经说过这么一句话身为在软件界工作的人能够在微软工作感觉非常幸运，身为炎黄子孙，我能够在中国工作感到非常幸运，在五年之后的今天，回顾这五年在微软研究院的成就，看到今天多种研究结果辉煌的演示，而且见到这么多中国年轻的朋友、学生，让我感到非常欣慰，而且非常自豪。微软，亚洲研究院我为你们的成功感到自豪，中国，我为你未来的潜力感到自豪，中国的学生，我为能够在中国出一点力量，帮助你们成长，感到自豪。谢谢。我从一个幸运的人变成一个自豪的人，今天我演讲的题目是一个让我工作了20多年，也感觉非常幸运，因为我有非常多好的老师。如果我们从计算机界能够找到两位非常有哲理的计算机教授，他们分别是两位MIT的教授，他们曾经说过这样的话，语音和语言是人类的一个工程，是人类的一个创作。因为在数千年前人类并没有语言和语音这个东西，人创造发明这个东西是希望能够通过语言来做沟通，做人际交流，因为有这样的人际交流这样一个习惯，这样一个工程，希望让机器也能够用同样的方法和我们沟通。计算机界上两位非常有哲理的哲学家，两位非常务实的专家分别是英特尔和Microsoft的创始人，他们认为过去人类为自己人际交流的工具，也将是未来人机最自然、最表达性的用户界面的方式。所以我们可以看到的是过去这五六十年来科幻片里面用的人机的科幻界面用的都是语言和语音，而且我们能够看到微软、苹果等公司对未来技术的展望，作出一些录像让人们对未来的展望非常乐观，这些录像也都是用语音的界面，现在我们来看两个例子，第一个例子是很有名的科幻片。

这是一个70年代很有名的科幻片，在这里面计算机虽然是有会话式的交流，但是是一个非常邪恶的计算机，最后我们看到这位主人翁被会话性的计算机所谋杀了，这是一个例子。但是并不见得这种用户界面都是邪恶的。我们看另外一个例子，这是苹果公司非常有名的一个例子，它是非常经典的一个会话式用户界面的创作，这里面没有任何一个技术是真的，它只是对未来的展望。

我就放到这里，但是我们可以看到这是一个教授他在和经过新一代会话式的用户界面他和另外一个教授进行了合作，而他有一个非常聪明得力的助手，随时都有无限而且精确的信息能够帮助他更好地工作。这两个例子都是一个非常长远、非常科幻的甚至是不可达到的一个目标。但是我们可以从这两个例子看出来，为什么这么多人都对这样的未来多么向往，因为我们就可以和机器有很好的沟通，能够自己工作更有效率。所以人们不能避免地都对这个未来的前景非常看好，而且很多人对未来，包括我自己做的一些预测，而这些预测今天并没有达到，但是从1950年MIT的校长就认为说也许十年之后我们就可以做人机的机器翻译，1957年诺贝尔的得主就预测十年之内计算机能够做很多工作，包括人工智能方面的预测。在1969年，这不是一个人，而是一个美国专家协会他们预测在1978年语音的输入和输出将成为一个自然交流的方式。在1993年，很不幸的是我做了一个预测2003年所有语音都会作为一个计算机的功能，虽然现在有很多计算机都有语音的功能，但是几乎没有用户在用它。在1998年美国最受尊敬的在商业方面的一个专家组预测在2003年PC会有语音输入的能力，而且会成为用户界面的一个重点方向。2003年这个预测也没有达到。所以在这些非常乐观的人对未来的前景非常看好，做了一个非常乐观的预测，而今天这一个又一个预测，从1950年到1998年都没有达到，那么今天在此我们是应该对未来感到一份绝望呢？还是应该对未来有一个新的乐观，这就是我今天想要讲的主要的题目。如果我们把会话式的计算机能够拆分出来，比较简单的，刚才舒教授给了比较完整的图片，如果我们简单来看的话有三个部分，语音识别、语音理解和语音合成，这是三个最重要的部分，我们我将介绍这三个部分过去十年的进展，这十年进展有没有给我们一些启示我们应该是乐观还是悲观？

在介绍完这三个技术之后将探讨是不是十年之后可以达到未来这些非常好的前景还是会有更大的挫折，我很勇敢地将再做一次对十年之后的预测，希望十年之后来到中国能够证明这次预测比上次预测成功。首先我想讲的是语音识别。语音识别在二三十年前更多人是想用专家系统的方式来模拟人听的方式，用专家系统来做一个很好的语音识别。但是在80年代在IBM的工作更证明用下列的方法能够得到更好的结果，基本上概念很简单，如果X是我们讲的音波，W是所有可能的词或者是句子，要做一个语音识别系统就是要搜索所有可能的句子W，挑选一个W把这个值能够做的越大越好，也就是说我听到X这个音波之后，在所有的句子里要挑一个概率最高的。怎么去做这个问题呢？要把这个拆成两各部分，可以得到这个基本上是挑选最大的值，第一个是所有的句子里面能够产生这样一个音波的概率有多大，再乘上每一个句子它出现的概率有多大，如果我们能够做两个模型，能够很好地模拟这两个模型的话，就做成了一个很好的语音识别系统。第一个部分就是作为的音的模型，就是我们要预测对于一个句子对于一个字它将造成每一种音波的概率有多大，而W是任何一串字它出现的概率又有多大。既然这是概率的一个模型所以就用统计的方法来优化它。怎么优化音的模型呢？就先做一个统计的模型能够很好地模拟每个字、每个音，这每个字、每个音可以有非常细腻的细节，但是刚开始可以假设每个音、每个字有自己的模型，针对这个字、这个音会收取非常多的数据。有一句话在语音界非常出名的，就是最多的数据就是最好的数据。我们发现如果你有很好、很平衡而且很是完美的数据，反而部署得到十倍多的数据它不是很完美、很平衡的。所以多的数据能够构成一个很好的模型参数。我们用这个数据训练这个模型，可以再回去这个音已经做得很好了，现在能不能再收十倍的数据，做一个模型收集很多数据，根据这个数据把模型好好训练好，然后做更大的模型，这个时候需要更多的数据，再用更大的数据训练更大的模型，这样源源不止，一步一步地把语音的识别做得更好。

我们也可以同样用统计的方法来做，有一个非常简单的每一个句子的概率就是每个字的概率相乘，当看到前两个字，第三字出现的概率有多大，这就是它的概率了。怎么样训练这个东西呢？又需要很大的语量，无限大的语量，其实这是跟音的模型是一样的。这样让数据模型都有一个很大的进步。语音模型达到的进步都是更多的数据加上很好的模拟来得到这样的进步的。

其实Moore’S对语音来说是一个必须条件，而不是充分条件。当三者结合之后，我们发现摩尔定律每十八个月翻一番，所以对未来应该说带着一种乐观，但是不是特别乐观的乐观。我们乐观因为它确实每60个可以翻一番，但是不能特别乐观，因为它的速度不如纯粹的Moore’S来的那么大。我们从微软公司的结果可以详细看到60个月翻一番的结果。每五年错误率降低一半，96年黄博士第一次在微软演示一套新的系统，很多用户对这个非常兴奋，但是认为精确率还不够，但是我对未来还是非常乐观的，我们可以预测每60个月翻一番，对未来我们将有希望可以达到人的错误率大概是在2%左右。如果我们往前推测的话，应该在7年到10年之内有和可能近或者是达到人类识别的精准度。

第二语音的合成，我们看到的很多很好的例子，但是语音合成和语音识别是非常类似的。在80年代末90年代有另外一种方法是更合适的。其实就是一个统计的方法来做语音合成。语音合成有两个部分，一个是前端处理，一个是后端处理。前端处理要做一个名词或者是动词其他词的处理，然后断定在什么地方停顿，怎么样把韵律做得更好，怎么做很好的节奏、轻重等等。它会把这个信息传给一个后端，现在我处理的这些字你要去找最好、最大、最合适的，一段一段曾经录过的语料库，然后找出一段段音、字、词，让这些串字之间做的越平滑越好。而且有很好的方法能够评估怎么样挑选最好的单元，怎么把单元衔接在一起，怎么样优化他们之间的平滑度，而不是调一些参数。因为我们发现调一些参数其实和人对自然的期望并不是非常合适的。所以这和语音识别有非常大相似的地方。因为我们也是收集很大的语音库、语料库，在合成的时候做一个非常好的优化和挑选。当库越大，参数越好，你的指标更接近人类对语音字的要求，你就会做到更高的质量。从82年到2001年做的1是很糟，5是非常完美的结果。现在我们放一些过去中文语音合成效果你们可以听出来有很显著的进步，这是82年。这就很接近人的一些表现了，但是新闻播报人员可以达到大约4.5，可以像木兰这样的系统2001年的还是有一些距离，但是比较接近了。纯粹不要考虑理解，只要考虑到语音的识别和合成可以看到的是经过了语音的识别和合成确实有很大的进步，其实已经慢慢接近人的能力。但是并不是因为所谓的人工智能而做出来的，更是一个优化的过程、一个统计的过程做出来的。

话说回来了，虽然语音识别期望在七年能够达到人的识别率，但是如果很多人一起讲的话，语音识别系统就不行了。而且人可以做很快地学习和适应，我们听一个人的讲话只要一个音节就可以识别一个人了，而语音系统可能需要一个小时两个小时之后才能达到。纯粹靠语音识别和语音合成就已经有很多很好的应用了，在语音识别来说我们可以做听写的工作，我们看到了一些语音搜索的例子，还有教一个中国人怎么样把中国人教的更好，或者是美国人怎么把中文讲得更好，或者是小孩怎么学好外语，这些都是很好的应用。同样语音合成也有很多很好的应用。比如说做一个个性化的语音合成，这次我来中国这边语音组给了我一个小小的礼物，我现在把这个礼物放给你们听。就是把我的声音加上一个很标准的北京腔调。

下面我们谈的是比较困难的问题自然语言的理解，其实是结合了多种问题，英文BOOK可以当做书也可以当做订购票，但是怎么知道在什么情况下用什么语法的？还有语意。另外还有需要很聪明的能够结合多种的知识，如果BOOK作为名词和动词哪一个概率比较大，这就要看哪个网站了。如果知道个人住在什么地方，喜欢什么地方都会影响语音理解，这些都是一些需要结合的因素。

这些听起来是很困难的，但是如果能够在自然语言理解上面挑选一个领域，不要奢求做一个像人一样的自然语言理解，如果只挑选一个领域，收录很多语料，刚才语音识别的方式完全用在自然语音理解上面。有一个音波X进来，同样也可以是一个W进来，M是语意，我要求的是给我这这一串字最大可能的语意是哪个，最后需要训练两个模型，第一个模型是当我有这个语意的时候，每一种可能表达句子的概率是多大。第二是每一种语意的概率有多大，回到刚才订票的例子就可以看到，我们对于一个BOOK是动词或者是名词的概率有多大，或者是要定某一种票和另一种票概率有多大，都可以从已存的语料上求出来。如果我们是做一个领域的，而且能够收集到很多数据，完全可以做到非常好的语音的理解。但是人真正很深的理解是非常非常广、非常的。甚至今天看起来机器是不能达到的。因为要把不同来源的知识能够结合起来，而且人的理解不在一个领域，而是可以跨领域。就像我今天做这个演讲，如果突然加上一句今天油条很好吃，各位都能懂我讲什么，但是和订票系统讲的话，就不行了。所以今天看来是没有解决的方式。什么是合理的什么是不合理的，这对机器来说也是很困难的。还有幽默感的问题等等这些都是人所具有的，但是可以说今天完全不知道怎么样让机器有这样的一个理解、一个智慧。所以真正说AI能够和人一样的智能，当我们解的AI的问题之后这些问题都解了。但是解决AI的问题可能是遥遥无期的，可能在这一代、下一代、很多代之后都不知道能不能够解决的。

虽然很大的问题很难解决，但是在过去四十年中，如果很宏观来看其实都是有很大的进步的。为什么我们总是十年，为什么过去的预测都不正确，我们还敢不敢再做预测。我认为有几个很重要的事情，一个因为技术还不成熟，当你做一个演示的时候看起来技术很好，但是真正做产品就不是那么回事了。当你没有过去的数据做未来的推测是很危险的事情。第二个是科幻片对人们有一个非常高的期望，期望一高要达到就很困难了。所以我们现在做的工作就是给很低的期望而超过它。还有一件事做DEMO是很漂亮的，但是只有一些句子能够做得很好，并不是能够马上成为产品化的工作。当一个演示成为产品的过程还有是用户要需要它，用户要愿意改变他们过去的一些习惯。另外还要知道开发新的语音的应用要花多少代价，有多少回报，有没有足够的商业价值。

我认为今天我们学到了很多教训，但是今天看来远景和过去是不一样的今天我认为技术慢慢达到了成熟，而且我们学多了很多教训。第一个教训就是不要乱做预测，尤其如果你没有过去的数据能够证实你的预测是合理的。第二数据的力量是无穷的。第三我们知道的不要期望一次彻底地改变所有的事情，一步步地改变世界，一个个领域地来做是非常合理的。而且我们经过数据、经过努力的工作，能够得到很好的应用也是很值得的工作，虽然它不见得是最高科技的发明。还有不要去做一些非常科幻、未来的一些应用。而要开始做用户愿意做的事情，要挑选一些真正有商机的一些可能。如果今天看有什么样商机的可能？下列是几个可能的方向，第一个是在PC上做应用软件，第二是做听写，第三是把会议做一个很精准的音字转换，第四是残障人士手不方便用的时候语音是很好的方法，第五个是行动上，最后一个是呼叫的时候做很好的语音的工作。如果我们看有没有用户需要它？除了语音，有没有别的好的方法，市场需不需要它，还有技术是不是足够成熟？如果我们看这些方面的话，在Telephone上面有最大的机会。

我们在这个录像里面看到的是在移动和电话环境之下能够做到很好的应用。现在我想很迅速做两个产品的演示，这两个演示是实际的产品，而不只是研究的一些结果。第一个演示是我们刚刚看到电话上的应用，我们公司在昨天推出了一个新的产品，这也是一个电话。我现在做另外一个例子，这个例子能够帮我们找到很好的地图和开车的方向，这是在微软附近的一个体育球场，如果要开去的话可以看看怎么样开是最好的路，它可以给我怎么样开车的路线，这个演示到此为止。我们现在利用语音能够随时随地查询我们要走的方向。

这是我对三年的一个展望，如果我们对三年看起来电话对行动、对残障人士特别看好，我想再过三年之后慢慢就会发现有更多在电话方面更主流的一些应用，比如说随时随地可以搜获你所有的信息，包括E—mail等等，我们也期望所有的电话都有语音的能力。我们会发现听写可能在五年之后慢慢接近人的识别能力，也会有更多的人使用它。我希望能够看到语音不仅成为一个主流，而且成为一个核心的角色，而且我们也会发现在那个时候可以慢慢做到一个主流的状态，我希望刚刚看到苏教授一些例子能够在2010年做到一些代理式的用户界面。当你告诉你的机器要达到什么样的目标，让它一步步地去做这些工作。在十年之后，我想能够看到苏教授的一个例子，这也是比较困难的工作，我们希望能够在家庭的使用，比如说电视，甚至在厨房语音都能够使用。但是这些方面需要用户做更大的转变，能够接受这样的技术。我希望语音在十年之后能够成为一个部分，我并不认为它会成为一个主要的用户界面，但是成为用户界面主要的部分之一。

前三个电话、设备和PC是今天我们考虑到语音的使用方式，其实未来语音当中的数据也是非常重要的一个方向，慢慢地我想我们可以搜索我们自己所录的语音，再未来我们可以做一些真的能够把开会的过程很精准地录下来，所以我希望在下十年能够看到这一系列令人兴奋的应用，他们是在一个领域，许多数据进步，在摩尔定律帮助之下能够完成的任务。语音确实能够得到摩尔定律的帮助，但是我们不仅需要很快的PCU，也需要很多数据和更好的算法，我们希望能够在十年之内能够在语音合成、语音识别达到人的能力。但是语言的理解是更难的一个问题，我不认为在短的时间我们有可能解决不分领域的自然语言理解，也不能够达到真正的人类自然语言理解的程度。但是在针对某个领域或者是某几个领域，我认为在两到三年之内我们会看到很多电话和移动的和残障人士的应用，而在七年到十年我们的机会是更大的，包括很聪明助理式的服务，包括搜索开会的程序，希望语音不仅是在电话一些必须要用语音的设备上，而是可以在每一个机器，真正能够做到在任何地方任何时间任何方式来使用语音。

下载微软亚洲研究院创始人李开复在演讲.doc

将本文档下载到自己电脑，方便修改和收藏。

点此处下载文档

文档为doc格式

本文来源：https://www.daodoc.com/jianghuagao/yanjianggao/572402.html

相关专题微软亚洲研究院演讲微软亚洲

相关文章