微软在 Ignite 2023 大会上推出 Personal Voice 功能,可以使用自己的声音来创建 AI 音频。苹果在 i

微软在Ignite2023大会上推出PersonalVoice功能,可以使用自己的声音来创建AI音频。苹果在iOS17中也引入了类似的无障碍功能PersonalVoice。12月上线,微软发布PersonalVoice:最短60秒实现用户自建AI音频微软在博文中写道:“准备用于创建AI语音的训练样本可能很困难或成本高昂。不过通过PersonalVoice,最短可以在60秒内,让用户自建和其声音相近的AI声音”。此功能将率先在西欧、美国东部和东南亚地区上线,公共预览版将于12月1日上线。

相关推荐

封面图片

3秒复制任何人的嗓音 微软音频版DALL·E连环境背景音也能模仿

3秒复制任何人的嗓音微软音频版DALL·E连环境背景音也能模仿只需3秒钟,一个根本没听过你说话的AI,就能完美模仿出你的声音。是不是细思极恐?这是微软最新AI成果——语音合成模型VALL·E,只需3秒语音,就能随意复制任何人的声音。它脱胎于DALL·E,但专攻音频领域,语音合成效果在网上放出后火了:...PC版:https://www.cnbeta.com.tw/articles/soft/1338707.htm手机版:https://m.cnbeta.com.tw/view/1338707.htm

封面图片

MyShell 5分钟轻松创建可以语音交互的AI聊天虚拟角色,并支持部署到Telegram,很快还将支持通过1-5分钟声音样本

5分钟轻松创建可以语音交互的AI聊天虚拟角色,并支持部署到Telegram,很快还将支持通过1-5分钟声音样本生成个性化声音。MyShell是一个以AI聊天机器人为载体的Web3+AI创作和消费平台。刚推出了机器人创意工坊,社区用户已经创建了上百个有趣的AI角色Myshell团队几乎每周都有新功能推出,最近刚上线的是每个用户都可以领取自己的TGBOT,下周还会上线一个可以辅助用户创建机器人的“智能Prompt”功能。个性化声音功能预计也会在6月份推出。在语音交互方面,他们有很强的技术实力。自研的TTS语音方案能比微软的TTSAPI节省97%的成本,同时有很好的性能。未来他们还会推出流式语音对话,实现无延迟的语音交互体验。

封面图片

OpenAI展示新音频工具 可朗读文本并模仿声音

OpenAI展示新音频工具可朗读文本并模仿声音OpenAI的发言人说该公司在收到政策制定者、行业专家、教育工作者和创意人士等利益相关方的反馈后决定缩减发布规模。据早前的新闻发布会介绍,该公司原本计划通过申请流程向多达100家开发商发布该工具。其他AI技术已经在某些情境下被用来伪造声音。今年1月,一通自称乔·拜登(JoeBiden)总统打来的以假乱真的电话呼吁新罕布什尔州居民不要在初选中投票,这一事件在全球关键选举前加剧了对AI的恐惧。与OpenAI过去生成音频的功能不同,语音引擎可以创建听起来像具体个人的声音,并完整呈现特有的语调和语气。该软件只需要一段15秒的录音,即可重现一个人的声音。“只要音频设置得当,基本就能得出人类水准的声音。”OpenAI产品负责人杰夫·哈里斯(JeffHarris)说,“这种技术质量非常了不起。”但哈里斯也表示,“准确模仿人类语音的能力显然存在很多安全上的不确定性。”非营利性医疗系统Lifespan旗下的NormanPrinceNeurosciencesInstitute是OpenAI目前的开发合作伙伴之一,该机构正在利用此项技术帮助患者恢复声音。例如,据OpenAI的博客文章,该工具被用于恢复一位因脑瘤失去清晰说话能力的年轻患者的声音,方法是复制她此前为一个学校项目录制的发言。OpenAI的自定义语音模型还可将生成的音频翻译成不同语言。这对于音频行业公司非常有用,比如SpotifyTechnologySA。Spotify已经在自己的试点计划中利用该技术来翻译莱克斯·弗里德曼(LexFridman)等热门主持人的播客节目。OpenAI还宣传了该技术的其他有益应用,例如为儿童教育内容创建更多样化的声音。在测试计划中,OpenAI要求合作伙伴同意其使用政策,即在使用原始声音前征得声音主人的同意,并告知听众他们听到的是AI生成的声音。该公司还加入了听不见的音频水印,以判断哪些音频由其工具创建。OpenAI表示在决定是否大范围发布该功能前,正在征求外部专家的反馈。该公司在博文中表示:“让全球人民了解这项技术的发展方向至关重要,不论我们最终是否亲自广泛部署它。”OpenAI还写道,希望其软件的试用能“激发增强社会韧性的需求”,以应对更先进的AI技术带来的挑战。例如,该公司呼吁银行逐步停止将语音身份验证作为访问银行账户和敏感信息的安全措施。它还寻求开展公众教育,帮助大家了解欺骗性的AI内容,并开发更多技术来检测音频内容是否由AI生成。...PC版:https://www.cnbeta.com.tw/articles/soft/1425804.htm手机版:https://m.cnbeta.com.tw/view/1425804.htm

封面图片

Truecaller和微软将可以让用户创建AI语音来帮助接听电话

Truecaller和微软将可以让用户创建AI语音来帮助接听电话Truecaller产品总监兼总经理拉斐尔-米蒙(RaphaelMimoun)在博文中说:"这一开创性的功能不仅为用户增添了一丝熟悉感和舒适感,还展示了人工智能在改变我们与数字助理交互方式方面的力量。"Truecaller的人工智能助理会筛选来电,并让用户知道来电原因。客户可以看到来电原因,并可以选择如何回应,是接听电话还是让助手代为接听。该助手于2022年首次在Truecaller应用程序上推出,目前只在部分国家使用。用户一直可以从预设的声音中选择代表自己的声音,该公司表示,让用户录制自己的声音是使服务更加个性化的一个步骤。在Build大会期间展示的AzureAISpeech增加了个人语音功能,让人们可以录制和复制声音。不过,微软在一篇博文中表示,个人语音功能的使用范围有限,仅适用于语音助手等特定用例。微软表示,它会自动为AzureAISpeech个人语音生成的声音添加水印。微软还发布了一份行为准则,要求用户在录音时获得被录音者的完全同意,并禁止冒名顶替。个人语音在与自己的语音邮件信息对比时的表现如何还有待观察。...PC版:https://www.cnbeta.com.tw/articles/soft/1432007.htm手机版:https://m.cnbeta.com.tw/view/1432007.htm

封面图片

微软Copilot泄漏信息显示AI可以帮助用户自动创建PowerPoint演示文稿

微软Copilot泄漏信息显示AI可以帮助用户自动创建PowerPoint演示文稿Copilot出现在在线版PowerPoint的一个侧边栏中,可以要求助手根据Word文档创建一个演示文稿。然后,PowerPoint会立即起草一份演示文稿,并根据所提供的Word文档的内容制作完整的幻灯片。甚至还有一些选项可以要求Copilot助手"为这张幻灯片添加动画"或"为演示文稿应用现代风格",这表明用户也可以用这个聊天机器人控制PowerPoint的功能。这可以让PowerPoint用户定制幻灯片,而不必确切知道如何使用微软生产力应用程序中存在的一些更复杂的功能。该功能看起来类似于Google将在幻灯片中使用人工智能来添加图像、音频和视频来说明演示。本周早些时候,Google宣布在Gmail、Docs、Slides和其他Google工作区生产力应用程序中增加人工智能功能,这正好在微软的人工智能活动之前。微软将在当地时间今天上午8点/11点举行"用人工智能重塑生产力"特别活动。根据上月的报道,微软正计划在3月份举行一次人工智能活动,以演示其新的类似ChatGPT的人工智能将如何改变其Office生产力应用程序。首席执行官萨蒂亚-纳德拉和微软365负责人贾里德-斯帕塔罗将主持这次活动。...PC版:https://www.cnbeta.com.tw/articles/soft/1349733.htm手机版:https://m.cnbeta.com.tw/view/1349733.htm

封面图片

谷歌将在开发者大会上发布PaLM 2 展示创意写作和编码能力

谷歌将在开发者大会上发布PaLM2展示创意写作和编码能力这份内部文件显示,谷歌将推出其最新、最先进的LLM——PaLM2。PaLM2支持100多种语言,在内部以“统一语言模型”的代号运行。谷歌还对其进行了广泛的编码和数学测试,以及创意性的写作测试和分析。文件还显示,在这次活动上,谷歌将宣布人工智能如何“帮助人们充分发挥其潜力”的主题,包括Bard和搜索的“生成式体验”。谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊(SundarPichai)将向现场的开发者发表演讲,介绍该公司在人工智能领域取得的进步。谷歌此次更新正值人工智能领域的竞争加剧之际,该公司和微软都在竞相将聊天人工智能技术融入自己的产品中。微软正在利用对ChatGPT创建者OpenAI的投资来支持其必应搜索引擎,而谷歌也迅速行动起来,试图在不同的团队中整合其Bard技术,并推出自己的LLM。谷歌于2022年4月首次宣布推出PaLMLanguage模型。今年3月,该公司推出了一款适用于PaLM的API以及一系列人工智能企业工具,称这将帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等”。上个月,谷歌称其名为“Med-PaLM2”的医学LLM可以回答“专家医生级别”的医学检查问题,准确率达85%。文件显示,谷歌还计划分享Bard和搜索方面取得的进展,提供所谓的“生成式体验”,包括将Bard用于编码、数学和“逻辑”,以及扩展到日语和韩语。谷歌始终在开发一系列功能更强大的Bard模型,并于3月份正式将其作为实验推出。另一份内部文件显示,谷歌还在内部开发了一个名为“Multi-Bard”的多模态模型版本,它使用了更大的数据集,可以帮助解决复杂的数学和编码问题。此外,谷歌还测试了名为“BigBard”和“GiantBard”的版本。谷歌还计划扩展其“WorkspaceAIcollaborator”,包括在工作表中讨论模板生成,以及在幻灯片和Meet产品中讨论图像生成。今年3月,该公司表示,作为测试的一部分,它将允许一小部分用户访问Gmail和GoogleDocs中的人工智能功能,并计划在其会议、工作表和幻灯片应用程序中引入更多生成式人工智能功能。其中一张图片显示了一个带有聊天框的幻灯片侧边栏,允许用户输入文本,并可以选择根据这些文字创建图像。其他更新包括图像识别工具GoogleLens的用例。继去年允许用户询问他们正在观看的图像中的内容后,谷歌将展示对摄像头和语音的“多搜索”技术的改进。此前有报道称,在人工智能领域之外,谷歌将展示其新款可折叠手机PixelFold。该公司声称PixelFold将拥有“可折叠手机上最耐用的铰链”,并将提供手机以旧换新选项。谷歌宣称,PixelFold的最大卖点为防水和只有口袋大小。(小小)...PC版:https://www.cnbeta.com.tw/articles/soft/1358693.htm手机版:https://m.cnbeta.com.tw/view/1358693.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人