编者按:坐在讯飞发布会的大厅里,我大概和所有记者、速记员和翻译一样懵逼:搞不清自己还来做什么。
就在我记下这些信息地当儿,讯飞的语音转文字系统正飞快把演讲内容转换成中文、英文、日语及一些不认识的文字,而我还在猛敲回车,改掉上一句话里的错字。
我觉得,我明天可以不用来上班了,还有,局长说,她把要说的话丢给讯飞刚刚给她定制的语音库,明天也不来上班了。
(注:局长为未来事务管理局创始人CEO姬少亭)
??
你的未来可能温柔沙哑、略带磁性,也可能金属腔调、风趣贫嘴,它会以你熟悉的声音呈现,变成一个睡前故事,一个冷笑话,一个唠叨的爱人,一个精分的你自己,哪怕实际上,你周遭空无一人。
计算机语音识别跟语音合成发展到什么程度,你才会觉得人工智能时代已经到来,像电影《Her》那样拥有一个嗓音甜美的虚拟爱人吗?但在讯飞发布会这间浅蓝色的大厅里,它实实在在地发生了。
△讯飞发布会现场
事实上,局长作为讯飞全球首批定制语音库的体验者,刚刚得到了自己的AI声音——基于提前录制的4小时语料库,你可以输入任何文字,让这个软件以录音者的声线说话,念台词、捧哏儿、讲冷笑话、读英文十四行诗(对这些我们刚刚试过),或者,像锤子科技的老罗,现场用他的语音库代替本人做了一段台上演讲,声线精准、语气到位,关键是那句“牛逼”无比传神。
△全球首批个人音库体验者
但我们知道,语音识别和语音合成久已成为人工智能研究的一座圣杯,但它几乎包含了对人类理解方面的所有困难。毕竟,计算机为了分析一个你含混的音节,不仅需要关于语言的知识,而且需要关于世界的知识。语音识别的发展进程大体上代表了人工智能的进程。它也因此成为了一个基准和奖励。
所以,局长到底被科大讯飞做成一套智能语音系统?详细过程,我们这就给你讲讲。
△真·小姬AI
“YouarebeingmadeintoanAI,pleasekeepcalmanddonotlaugh.”
关于成为AI的体验,人类的想象趋于两个极端:要么像《黑客帝国》那样被按在手术台上,全身插管,伴随极度痛苦,意识或部分感官被抽取上传,要么如《黑镜》所说,你上网消遣,却给计算机偷偷抓取了长相、声纹、语言习惯等等,一个虚拟的你在云端悄然降生,你浑然不觉。
不过作为一名观察员,我跟局长小姬前去讯飞×社科院的语言实验室,记录被做成智能语音系统的全过程后,我负责任地说——还是有一点疼的——脸疼,且酸,而且容易口渴。
第一步:隔离
△您的局长正在被做成AI(讯飞×中科大语音实验室)
三层玻璃窗,两层铁门,一只麦克风,一间外观极其普通的录音室,局长将在里面朗读8篇五千来字的文章,整合为4小时左右的语料库。人类每次说话的情感不同,每次的语速、语调等也不尽相同,技术人员在收集到一系列的语音数据以后,对其中的特征参数进行分析,最终合成具有录音者声线的语音系统。
坐在这样一间充满毛绒玩具的房间里(因为房间此前被用于收集儿童语料库),只能通过两块屏幕和外面交流,盯着三层玻璃窗反射中无限嵌套的倒影,意识到你正上传自己的一部分声音给电脑,换来一个没有躯体、只有声波的自己——4小时过后,局长开门出来,说她觉得像刑满释放。
第二步:感情抑制
“不行,有感情了。”两位录音师一直在重复这句话。
当知道要读的文章全部选自《不存在日报》,你就很容易笑场,特别是局长发现,里面还包括一篇她自己写的小说。“大声念出自己的小说就是一场羞耻paly”,她这么说。
特德·姜通在《你一生的故事》里说,人类思维语言和口语可以完全分离——比如,看到“捞起一根优化了拉伸性能的禾本科种子研磨粉和水的混合物”这句,你脑子里可能闪过兰州拉面的模糊图像,而逐字读出来,舌头在齿间强烈的打结冲动,你会怀疑起这句话的存在意义。
嗯,据说上一位测试者在读完自己北京看白癜风最正规的医院北京治疗白癜风去哪家医院