TTS有什么用

TTS & lt/B& gt；是Text To Speech的缩写，即“从文本到语音”。是一部同时运用语言学和心理学的杰出作品。在内置芯片的支持下，它通过神经网络的设计，智能地将单词转换成自然的语音流。TTS技术可以实时转换文本文件，转换时间可以秒计算。在其独有的智能语音控制器的作用下，文本输出的语音节奏流畅，让听者在听信息时感觉自然，没有机器语音输出的冷漠和涩涩。TTS语音合成技术即将覆盖国标中的第一个和第二个汉字，有英文界面，自动识别中英文，支持中英文混读。所有语音均以真实普通话发音，实现了每秒120-150个汉字的快速语音合成，朗读速度达到每秒3-4个汉字，让用户听到清晰悦耳的音质和连贯流畅的语调。现在少数MP3随身听有TTS功能。

TTS是一种语音合成应用程序，它将存储在计算机中的文件(如帮助文件或网页)转换为自然的语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息，或者它可以简单地用于增加文本文档的可读性。今天的TTL应用包括语音驱动的电子邮件和语音感应系统。TTS通常与语音识别程序一起使用。现在有很多TTS产品，包括Read Please 2000，Proverbe语音单元，以及Next Up技术的TextAloud。朗讯，Elan，还有at & amp；t有自己的语音合成产品。

除了TTS软件，许多厂商还提供硬件产品，包括以色列WizCom Technologies的Quick Link Pen，这是一种类似笔的设备，可以扫描和阅读文本。还有鸵鸟软件的Road Runner，可以读取ASCII文本的手持设备；另外还有美国DEC公司的DecTalk TTS，是一种可以替代声卡的外接硬件设备。它包含一个内部软件设备，可以与个人计算机自带的声卡一起工作。TTS文语转换应用广泛，包括电子邮件阅读、IVR系统的语音提示等。目前，IVR系统已经广泛应用于各个行业(如电信、交通等)。).

TTS的关键技术是语音合成。早期的TTS一般是用专用芯片来实现的，比如德州仪器的TMS50C10/TMS50C57，飞利浦的PH84H36，但主要应用在家用电器或儿童玩具中。

基于微机应用的TTS一般由纯软件实现，主要包括以下几个部分:

文本分析——对输入的文本进行语言学分析，逐句进行词法、语法、语义分析，确定句子的底层结构和每个词的音素构成，包括断句、分词、多音字处理、数字处理、缩写处理等。

●语音合成-从语音合成数据库中提取与处理后的文本相对应的单词或短语，并将语言描述转换为语音波形。

●韵律处理——合成语音的质量是指语音合成系统输出的语音质量，一般从清晰度(或可懂度)、自然度、连贯性等方面进行主观评价。清晰度是正确听有意义单词的百分比；自然度用于评价合成语音的质量是否接近人声，合成词的语调是否自然。连贯性用于评价合成句子的流畅性。

要合成高质量的语音，使用的算法极其复杂，所以对机器的要求也非常高。算法的复杂度决定了目前微机并发多通道TTS的系统容量。

在一般的CTI应用系统中，会有IVR(交互式语音应答系统)。IVR系统是呼叫中心的重要组成部分。通过IVR系统，用户可以通过按下带有音频的按钮来输入信息，并从系统中获得预先录制的数字或合成语音信息。具有TTS功能的IVR可以加快服务速度，节省服务成本，使IVR可以为呼叫者提供7*24小时服务。

目前常见的IVR系统大多由插在通用工控机平台上的语音卡组成，支持中文语音合成TTS等技术。

包括TTS服务在内的典型电话服务流程可分为:

当用户拨入时，系统IVR会响应并获取用户的密钥等信息。

IVR根据用户的关键信息向数据库服务器申请相关数据。

数据库服务器向IVR返回文本数据。

IVR通过其TCP通信接口将文本信息发送给TTS服务器。

TTS服务器通过TCP通信接口将用户文本合成的语音数据段发送给IVR服务器。

IVR服务器将分段的语音数据组装成独立的语音文件。

IVR向电话用户播放相应的语音文件。

一般的公网接入(IVR)多采用工控机+语音卡，合成的语音数据通过局域网传输到IVR。这种结构只适用于简单的应用。包括汉语语音处理和语音合成，利用汉语韵律等相关知识对汉语句子进行分词、词性判断、注音和数字符号转换，语音合成通过查询汉语语音数据库获得语音。目前，中国著名的TTS系统有:IBM、微软、富士通、科大讯飞和捷通华声。目前汉语的韵律处理、符号数、多音字、构词法都存在很多问题，需要不断研究，使汉语语音合成更加自然。CTI技术融合了电信和计算机，克服了传统电信和计算机服务的缺点，将两者完美结合。它的应用领域非常广泛，任何需要语音和数据通信的系统都会用到CTI技术，特别是那些希望将计算机网络和通信网络结合起来完成语音和数据信息交换的系统。

TTS (Text To Speech)涉及声学、语言学、数学信号处理技术、多媒体技术等学科，是中文信息处理领域的前沿技术，实现了将计算机中出现的任何文本转换成自然流畅的语音输出。

TTS可以应用于CTI系统中的IVR(交互式语音应答)服务器，提供语音交互平台，为用户的电话呼叫提供语音提示，指导用户选择服务内容和输入电话交易所需的数据，接受用户在电话拨号键盘上输入的信息，实现对计算机数据库和其他信息资料的交互访问。

TTS在IVR中的应用可以自动将文本信息转换成语音文件，也可以将文本信息实时合成语音并通过电话发布。实现文字与语音的自动双向转换，从而实现人与系统的自动交互，随时随地为客户服务。维护人员不再需要人工录音，只需要将电子文档导入系统，系统就可以自动将电子文档转换成语音信息，播放给客户。存储在数据库中的大量数据可以根据查询条件随时查询出来，无需事先录音，还可以播放合成语音，大大减轻了坐席人员的工作量。

那么如何给CTI应用附加TTS功能呢？一些先进的交换平台已经在交换机内部实现了TTS的功能，并将其作为标准接口的一部分提供。业务开发人员只需调用它们就可以在业务中使用这个函数。

对于没有TTS功能的PBX，需要业务开发者选择合适的平台，并在此基础上进行二次开发，即调用所选TTS平台提供的标准接口实现语音合成功能。

目前，CTI已经成为全球发展最快的行业之一，年增长率高达50%。CTI和计算机行业一样，是一个金字塔形状的产业链，从上到下至少会增值20倍。TTS作为一种极具吸引力的新技术，如果能很好地嵌入到增值业务的应用中，将会有更好的应用前景。

杭州银通软件有限公司是由教育部和浙江省人民政府批准成立，依托浙江大学的高科技公司。银通公司主要致力于计算机语音技术的研发，并逐步开展语音识别、语音流媒体传输等其他语音领域的研究。其核心技术(Intone_TTS)是具有自主知识产权的中文语音合成技术，在浙江省科技厅组织的鉴定中被专家一致认定为国内领先地位，并申请了多项国家专利。

Intone_TTS是一个将文本信息转换为语音信息的开发工具包，为系统集成商和软件开发商提供了完整的界面功能和编程实例，使用户能够灵活地调用和集成到其他应用系统中。接口需要语音合成运行时的支持，适用于各种开发环境。开发者可以根据具体应用进行选择。

它可以合成所有的汉字、英文和阿拉伯数字；

支持繁体字和多音字的编辑；

合成效果:自然流畅；

标准函数调用接口，支持微软SAPI的调用；支持同步调用和异步调用；

支持PCM Wave、uLaw/aLaw Wave、ADPCM、Dialogvox等语音格式；

支持GB2312码(简体中文)、BIG5码(繁体中文)、UNICODE码；

支持多声道同步合成；

支持Dialogic、靳东、三汇等主流语音板；TTS就是文本转语音，文本转语音，文本阅读，意思差不多。它常用于语音系统的开发。

目前市场上有很多TTS，实现方式也是多种多样，有些非常昂贵，比如科大讯飞，据说是863计划资助的，技术很高；有的相对便宜，比如捷通华声，InfoTalk；也有免费的，比如微软的TTS产品。

相对于ASR(自动语音识别)来说，实现一个TTS产品所需的技术难度并不大，在我看来是个苦差事。

如果我们要做一个可以大声朗读中文句子的TTS，我们会怎么做？

还有最简单的TTS，就是每个字都要发音。你会问，你不是要录六千多个汉字吗？好在汉语音节少，同音字多。我们最多只需要记录:声母数×韵母数×4(其实不是每个发音都有四个音)，所以我们最多只需要记录几百个语音。

合成的时候需要一个拼音对应的汉字对照表，汉语拼音输入法也要靠这个表，网上可以查到，但是通常四声都没有，得自己加，呵呵，或者怎么说都是辛苦。

TTS效果可以不错，尤其是读一些没有特别含义的中文句子，比如姓名、家庭住址、股票代码，听起来足够清晰。这是因为我们伟大的母语通常是单音节的。自古以来，每个汉字都有一个字来表达一个意思。而且，汉字和英文不一样。英语连读多，声调节奏变化大，汉字就简单多了。

当然，你还是要处理一些细节，比如复调，把“银行”念成“银行”是不对的；比如标点符号、数字、字母的处理，这些问题对于写过很多程序的你来说当然不难。

国内一些带语音卡的TTS，不管是卖钱的还是免费的，一般都是这样做的，就是这个效果。

如果想提高TTS的效果，那就要多下功夫，把基础单词记录成读音，比如常见的二字成语、四字成语，然后做一个词库和读音数据库的对照表，每次需要合成的时候就在词库里找。这样以词为单位自然比以词为单位好很多。当然还有一项技术，就是分词技术。把复杂的句子分解成合理的词序也有点技术含量。这也要归功于新文化的先行者们，他们在提倡白话文，引进西文的横格式和标点符号的时候，并没有引进西文的空间分词。不过，即使分词算法没有那么高效准确，也不是什么大问题。前面说过，汉字是单音节词，一般不会有拼音的错误。

当然，科大讯飞做了很多艰苦的工作。据说他已经进化到可以记录常用句子了。可想而知，要付出更多的努力，才能得到更好的结果。

至于在交界处加一些“字”，弄点装饰色调，我觉得无关紧要，整体效果提升不大。

市面上商业化的TTS一般都支持粤语，所以请个粤语播音员录下来再做一遍。

换个角度说，很多人认为最好找电台或者电视台的播音员来录制。其实找个身边的女同事来录，只要字正腔圆就行。有些时候，普通的声音比字正腔圆的新闻广播更可爱。

先说文字的识别。对于复杂的文本，有些内容程序处理不了，需要识别。比如简单的数字“128”应该读作“128”还是“128”？解决方案通常是添加XML标记，如微软的TTS:“

先说TTS应用编程。微软的TTS编程接口叫做SAPI，是一个COM接口。开发起来还是有点麻烦，不过好在MSDN网站上的信息很全面。微软的TTS虽然是免费的，但是目前中文角色是男声，声音有点浑浊不舒服。

一般国内厂商都提供API调用接口，相对简单，很容易嵌入到应用中。

商业TTS还有一个并发许可限制，就是限制同时合成的并发线程数量。我觉得这个限制用处不大。无论什么TTS，都可以将文本文件转换成语音文件供语音卡播放。大部分应用句子比较短，一般不超过100个汉字，合成时间很短。只要弄一个线程负责合成，其他应用就可以从这个线程请求。万一句子长，就把它拆成几个短句，播放速度总是比合成速度慢。

很多应用都是离线合成，没有实时性要求，更不要说买多个许可证了。

更多情况下，我们甚至不需要购买TTS，比如语音开发中常见的费用提醒。拨通后我们打出:“尊敬的客户，您这个月的费用是212元”。前一部分对所有客户都一样。录个语音文件就行了，数字合成很简单。只需要录10个数字语音，加100元。

TTS(培训+工具+方案)超出计划。

针对目前成长型企业遇到的人力资源问题，立体化解决人力资源瓶颈，通过人才和专家来构建和实现人力资源方向，是一项重大的智力工程。为企业培养高级人力资源管理人才，提供先进的人力资源管理工具，协助企业建立现代人力资源战略规划。通过“培训)+工具)+方案”的方法，为企业系统解决人力资源难题，进而构建科学完善的人力资源管理体系。

TTS天津码头附加费

天津港附加费。2009年通过日本和韩国的船只收取的费用。