推荐序2
自阿尔法围棋(Alpha Go)在与李世石的人机对战中取胜后,全球掀起了人工智能的又一波热潮。不同于以往的是,在这一波热潮中,学术界与产业界的结合愈加紧密。一些高校或地方纷纷成立人工智能研究院,加强理论研究和技术研发;各行各业也积极引入人工智能技术,为产品赋能,助力产业升级。
在所有的人工智能技术中,语音技术是人类最容易感知的技术之一,它可以助力人类与机器以非常自然的方式进行交互。这在很大程度上得益于作为语言载体的语音信号具有“形简意丰”的特点,即形式简单、意义丰富。由于在一句话中可以传递内容、身份、情感等多层信息,语音正在成为继键盘、鼠标、触控后,最有前景的全新人机交互方式之一。例如,不同的语音技术的无缝融合,可以用“一句话解决问题”的方式实现“确定的和预期的互动”(Identified and Intended Interaction,III),为老年人、弱势群体以及普通用户提供简单、安全、优雅、自然的人机交互界面!我国著名的语言学家吴宗济先生很早就指出,语音技术其本质是一种“言语工程”,对它的研究,其根本是为了把语言这个工具用好,在几代语音技术研究工作者的共同努力下,我们离这一目标又近了一步。
回顾人工智能发展历程,从1956年到现在,目前的技术仍只能解决特定场景下的有限问题。诚然,深度学习技术的快速发展同时促进了语音技术的产业应用,但采用深度学习技术建造的语音系统易受攻击、稳定性不高、可解释性和鲁棒性较差。我国人工智能领域奠基人张钹院士认为,要破解这一难题,必须融合知识驱动和数据驱动,建立起可解释和鲁棒的人工智能理论与方法,他将其称为“第三代人工智能”。2019年,清华大学人工智能研究院听觉智能研究中心正是在这一背景下成立的。
目前,市场中以智能语音技术为卖点的产品越来越多,虽然产品的质量良莠不齐,但是对于推进智能语音技术的应用是件好事。产品要想应用好智能语音技术,关键是要从真正有社会和应用价值的需求出发,结合场景创新与技术创新,同时还要满足国家对个人信息保护和数据安全等方面的政策规范要求。这就需要“产、学、研、用”各界一起努力,加强交流学习,加深跨界合作。
本书将智能语音技术和产业应用实践相结合,从基础理论出发,介绍了语音处理技术的几个不同分支,阐述了国家在语音技术方面的相关政策、标准制定和行业落地实践,同时对未来与其他技术的融合进行了展望,符合当下学术界和产业界将技术进一步融入产业的需求。此外,书中对智能语音技术的介绍深入浅出,通俗易懂,因此对非语音专业的读者也是一本不错的参考书。相信这本书能让更多的人对智能语音技术产生兴趣,对智能语音产业产生关注,从智能语音技术的角度推动第三代人工智能的发展。如此,则语音行业一定会有更好的前景。
潮平两岸阔,风正一帆悬。智能语音产业化发展大势所趋,高校培养的人才在不断涌入,希望所有致力于智能语音处理技术理论探索和产业发展的相关人员在这条阳关大道上乘风破浪,开创智能语音新时代!
清华大学人工智能研究院听觉智能研究中心主任、
得意音通创始人、得意音通研究院院长
郑方
2021年11月16日