你每天在用但叫不上名字的黑科技了解一下

- 2024-08-03 - 行业知识

　　大家这几年有未曾发现，自己越来越离不开一样东西——语音。比如小雷，自从微信整出个语音功能后，聊天由“文字交流”彻底蜕变成“语音大战”......

　　比如小雷，自从微信整出个语音功能后，聊天由“文字交流”彻底蜕变成“语音大战”。

　　苹果的智障助手“Siri”、百度的“小度”、小米的“小爱同学”、华为的“小艺”等等。

　　它们的使用与操控全靠语音完成，一句话帮你实现从地图导航到订外卖一条龙服务。

　　而这种通过语音控制手机、音箱等设备做操作，将语音翻译成文字的黑科技，真正名字叫——语音识别技术。

　　其实鸭，语音技术并不是最近几年出现的，人家早在200多年前的清朝时期便开始蹦跶了。

　　时间拨回1773年，那时有位俄罗斯科学家叫「克里斯蒂·克拉特兹斯坦」，他某天突发奇想，将共振管和风琴管连接起来，制造出一个可以发出人类声音的奇怪设备。

　　这便是人类对语音技术的第一次尝试，可惜后人对这个奇怪毫无X用的东西不感兴趣，一顿俄罗斯式破坏后扔到垃圾堆里。

　　到100多年后的1946年，第一台计算机诞生，让大家意识到，原来计算机很多事情做得比人还好。

　　然而那时没有键盘没有操作系统，控制计算机全靠手动输入“0”、“1”信号，操作极度麻烦。

　　于是乎有人想道，如果能和计算机聊天交流，让它明白你在说什么，会不会变得更方便好用，做更多的事？（事实上，懒是人类的第一生产力）

　　1950年图灵发表了一篇名为《计算的机器和智能》的论文，里面写道：让人和机器交流，来验证机器是否有智能。

　　两年后，著名的“贝尔实验室”研制出世界第一个可识别10个阿拉伯数字的系统“Audrey”，意味着机器成功听懂了人类的话。

　　专门用于电脑上进行语音识别，可惜仍处于只能识别几个英文字母和数字的级别，根本没办法用到实际生活中。

　　话说起来，这台语音识别系统算得上是现在所有“语音助手”的祖宗，别看了，包括你手上那一台。

　　随后二十年，人类对“语音识别”的研究陷入原地踏步的死循环，没有一丝进步。

　　原因很简单：当时科学家把小孩学说话那一套用到电脑上，想像教育小孩一般让电脑学会“交流”。

　　你说人家电脑听得懂吗？你输入信号1和0倒能识别，你说个句子“who are you”，电脑计算得冒青烟也不可能理解啊！

　　直到1970年，语音识别迎来它的伯乐「弗莱德里克·贾里尼克」，人生实现一次转折。

　　弗莱德里克·贾里尼克领着IBM华生实验室，将统计学、信息论的方法加入到语音识别中，并提出“统计的语音框架”，让停滞多年的语音识别焕发第二春。

　　最终把语音识别从几百个单词量活生生提升到几万个，识别率由万年70%飙升至90%。

　　同样在1970年，美国DARPA（真正的黑科技机构，互联网就是它发明的）开始投钱研究语音识别，（苹果的Siri最初是DARPA投资研发的）。

　　目的是让战场的战士们用语音操纵武器，增强战斗力，也有说法是用来监控互联网和电话。

　　就这样在政府、大企业的投入与研发支持下，到了90年代语音识别技术已能准确地理解人类的话语。

　　典型的产品就是IBM公司的“viavoice”，90年代末美国很流行的语音识别软件。

　　后来在20世纪初流入中国，然而没几个人用，因为那时电脑是比“钻石”还贵的奢侈品，哪个富家子弟会闲得肾疼，买来跟语音助手吹牛。

　　转眼来到2006年，这一年语音识别完成了200余年来最大一次蜕变，堪称“鱼跃龙门,原地飞升”。

　　谷歌人工智能首席科学家「Geoffrey Hinton」提出“非监督贪心逐层训练算法”，让人工智能得到巨大突破。（能够理解为让电脑主动学习的算法）

　　前面直走50米后左转，期间有1个红绿灯间隔15秒。厕所里有三个蹲位，其中2个已有人，剩余1个没有门，如果害羞可以绕道3公里外的卫生间如厕，记得带纸。

　　不仅技术获得突破，人们制作出超强的GPU硬件（英伟达公司），加上互联网提供的海量数据。

　　让人工智能、大数据、语音识别技术完美结合，美名其曰“AI语音识别”，预示着一场大变革的到来。

　　世界科技巨头第一时间意识到AI语音识别的重要性，美国的谷歌、微软，亚马逊等，中国的百度、阿里、科大讯飞之流纷纷投入AI语音识别的研发行列。

　　2010年苹果推出智障语音助手“Siri”，2014年亚马逊推出“Echo”。（国内没啥人知道，亚马逊音箱上的助手）

　　随后2016年国产公司小米、华为、百度等接连发布小爱、小艺、小度等语音助手，抢夺用户，占领市场。

　　于是乎语音助手们跟随手机、音箱等智能设备来到我们手里，由此开启一波“AI语音识别大潮流”。

　　不仅早在2014年抢先亚马逊研发出Depp Speech语音识别系统，现在更是黑科技层出不穷，大大改善“AI语音识别”的体验。

　　现在很多输入法支持中文语音输入，英文语音输入，唯独中英文混合输入却很少有，而百度输入法恰恰支持。

　　比如小雷在普通话里插入一个英文单词，百度输入法很轻易精准的识别到，并理顺句子转换成文字。

　　不管你说四川话、粤语、东北话、英语还是混合着说，百度输入法统统能识别，让用户真正的完成“自由说、随便说”。

　　用过智能音箱的机友都知道，每次唤醒音箱时都得喊“小度小度”之类的贼麻烦。

　　有了全双工免唤醒后，我们仅需唤醒一次“小度”，之后便可以和小度持续深入的交流。

　　而且在深入交流中，小度会很机智的识别出哪些话是对它说，哪些话是对其他人说的。

　　即使是在多人对话的嘈杂环境里，小度仍然能分清哪一句是对自己下达的指令，像是拥有思想、懂得主人需求的“贴心管家”。

　　百度展示的”全双工免唤醒“黑科技打破过去啰嗦低效的唤醒方式，再一次刷新AI语音交互的上限。

　　百度不仅在软件上努力，为了让AI语音助手更好“听见你，听懂你”，还专门打造出针对语音交互的芯片——百度鸿鹄芯片。

　　有了针对性“芯片”加成，语音助手再次被强化，支持离线语音识别同时带来更丝滑流畅的使用体验。

　　小雷用人话解释下：目前大部分语音识别使用的技术叫“Attention模型”，特点是将我们输入的语音全部上传到服务器后，进行翻译再传送回来形成文字。

　　这就导致了两个问题：因需要上传整段话到服务器，所以语音识别的效率很低，加上对整段话进行翻译，难免会出现翻译错误的问题。

　　所以百度针对上面两个问题，进行了深入的研究，最终研发出“流式截断的多层注意力模型”。

　　在“Attention模型”的基础上，将整句语音进行截断，由以前的一大段分割成一小段一小段地上传到服务器中进行翻译。

　　别小看小小的15%，这可是一项对全球学术界和工业界都具备重大意义的技术突破，如同当年弗莱德里克将统计学加入到语音识别中，改变语音识别的一生。

　　随着百度等大公司大力研发AI技术，未来可不止让我们生活变得便利那么简单。

　　甚至是改变全世界！不信？最近让无数女性化身“上头迷妹”的《亲爱的，热爱的》电视剧就剧透了未来AI技术有多牛。

　　在《亲爱的，热爱的》第18集中，佟年给韩商言讲解了AI在刑侦方面的应用：

　　她设计出一个人脸识别系统，专门用于帮助警方搜索犯人调查犯罪，破案1000多起。

　　其中有一个案子特别夸张，佟年向系统输入一张十年前的杀人犯照片，通过大数据匹配筛选，最终帮警方从14亿人里成功找到已经剃发当和尚的杀人犯。

　　在2018年7月，衢州警方利用AI技术识别到嫌疑人的照片，并通过大数据追踪其位置，破获长达6年的“电鱼迷案”。

　　2019年6月19日，深圳警方通过AI技术寻找到徐远灵被拐卖19年的亲儿子。

　　失散19年的一家人，最终在深圳公安局帮助下团聚，圆了徐远灵多年以来的梦。

　　小到智能音箱查天气，大到查案追踪逃犯，背后全是AI技术的默默贡献，蕴藏着深厚的技术能量。

　　不久的未来，AI技术还会给我们大家带来怎样的惊喜？惊人的黑科技？让我们共同拭目以待吧。

　　公司地址：北京市朝阳区酒仙桥路4号751 D·Park正东集团院内 C8座105室极客公园

上一篇:【48812】年末笔记本音质大晋级！便携音箱引荐下一篇:四4分频电路