SummerAsr - 基于C++的可独立编译且几乎没有额外依赖库的本地中文语音识别器

-基于C++的可独立编译且几乎没有额外依赖库的本地中文语音识别器SummerAsr是一个独立编译的大范围连续语音识别系统(ASR),是一个可以本地运行的系统,不需要连接网络,并且没有其他依赖,一键编译完成即可进行语音识别。SummerAsr识别的WAV(PCM)数据格式为:16K采样率,16bitsintSummerAsr的底层计算库使用Eigen,Eigen是一套模板定义的函数,大部分情况下,只需要包含头文件即可,所以本项目没有其他依赖,在C++环境下可以独立编译和运行。本项目使用Eigen提供的矩阵库实现了神经网络算子,不需要依赖例如pytorch,tensorflow,ncnn等其他NN运行环境。本项目在Ubuntu上编译运行,其他类Linux平台,如Android,树莓派等,也应该没啥大问题,在Window上没有测试过,可能需要一点点。

相关推荐

封面图片

Cheerp 是一种开放源代码的C/C++ 编译器,它允许将几乎任何 C/C++ 代码编译为 WebAssembly 和 Jav

是一种开放源代码的C/C++编译器,它允许将几乎任何C/C++代码编译为WebAssembly和JavaScript。与Emscripten、Cheerp等Web应用程序的替代C/C++编译器相比,有以下优势:1.生成更优化(更小)的WebAssembly代码,但也可以编译为具有动态内存(垃圾收集输出)、零开销DOM操作和对​​WebAPI的访问以及卓越的C++-JavaScript互操作性的JavaScript输出。2.[[cheerp::genericjs]]允许通过(可选地)用和标记部分代码,将单个代码库编译成WebAssembly和JavaScript的组合[[cheerp::wasm]]。Cheerp的主要组件,即Cheerp编译器,可以在Github上找到:,而其他存储库在,和最近该项目发布了3.0这个大版本。同时把许可证从gpl换成了Apache2.0/LLVM许可,对商业使用更加友好。

封面图片

Cheep C++ 到 Webassembly 编译器现已开源。

CheepC++到Webassembly编译器现已开源。Cheerp是一个用于Web应用程序的C/C++编译器,可让你将几乎所有C/C++代码编译为WebAssembly和JavaScript。其最新的3.0版本已经开源。​​​Cheerp是一个用于Web应用程序的C/C++编译器,可让您将几乎所有C/C++代码编译为WebAssembly和JavaScript。其最新的3.0版本已经开源。Cheerp主要用于将现有的C/C++库和应用程序移植到HTML5,但也可用于从头开始编写高性能Web应用程序和WebAssembly组件。使用Cheerp,C/C++代码被编译成JavaScript/WebAssembly,并通过公开正确的JavaScript接口进行优化,可以轻松集成到Web应用程序中。Cheerp是Webassembly编译工具系列的一部分,与CheerpJ、CheerpXforFlash和WebVM并列。可用于以下场景:1.将遗留Java应用程序和JavaApplets转换为HTML5,只需很少的努力或无需任何努力,以延长它们的生命,直到弃用,或直到开发出替代的本机HTML应用程序。2.将现有的Java客户端迁移到基于浏览器的Web应用程序,通常通过使用CheerpJ将业务逻辑从Java转换为WebAssembly/JavaScript,并用原生HTML重写UI。3.使用(转换后的)Java库作为本机Web应用程序的一部分。在幕后,CheerpJ需要WebAssembly中的完整JavaSE运行时和存在于浏览器中的JavaScript,以及支持从Java访问和操作DOM的JavaScript/DOM互操作性API。相比之下,C++的Cheerp不需要这样的运行时,而是直接使用LLVM字节码格式作为目标文件和库的中间表示。它的特性如下:解析代码,发出最终的警告和错误,然后生成对输入程序进行编码的等效IR(=内部表示)。IR通过一系列转换优化为更紧凑和更高性能的IR。优化后的IR最终由代码生成为JavaScript和WebAssembly函数和变量的组合。或者简单地说:C++代码库->Cheerp(使用LLVM的优化)->JS+Wasm一旦生成了.js和.wasm文件,接下来就是为这两个静态文件提供服务,将它们嵌入到相关的HTML页面中,在库的API之上构建功能,并测试是否一切正常。主文件到被调用的仍然是一个.js文件,但是一个.wasm文件也被加载并从.js文件运行。虽然CheerpJ不是开源产品,但Cheerp现在是。在这一点上,重要的是要注意,从languageX到WebAssembly的工具现在可以证明更有用,因为WebAssembly最近摆脱了浏览器的限制,现在可以用于运行微服务和无服务函数,甚至可以运行Wasm二进制文件在命令行上,这样甚至可以开发跨平台的CLI应用程序。

封面图片

Windows 11语音识别功能半年后淘汰 但仍可在Windows 10上使用

Windows11语音识别功能半年后淘汰但仍可在Windows10上使用微软计划于2024年9月从Windows11的支持版本中移除WindowsSpeechRecognition,所有用户需要迁移到VoiceAccess。根据更新后的支持文档,"Windows1122H2及更高版本的WindowsSpeechRecognition(WSR)将从2024年9月开始被语音访问所取代"。虽然这意味着语音识别功能仍能在Windows1121H2上运行,但您将无法在更新的版本上访问它。如果你还在使用21H2版本,那么在未来几周内,你将被迫升级到22H2或23H2版本,并需要使用语音访问功能来代替语音识别功能。不出所料,语音访问和WSR出现在同一个辅助功能设置页面。不过,语音访问位于顶部,而WSR出现在"其他语音命令"部分。还有一条关于支持结束的警告信息,建议你使用语音访问。如果你使用的是将于2025年10月结束支持的Windows10,那么WSR将在你的电脑上继续工作两年多。由于微软已确认其将被淘汰,因此它将不会获得任何新功能或更新。不过,VoiceAccess应用程序并没有你想象的那么糟糕。与WSR相比,VoiceAccess应用程序推出时仅支持几种语言,但现在已经好多了。在Windows11Moment5中,微软为该应用添加了更多语言支持。现在,它可以识别法语(法国)、法语(加拿大)、德语、西班牙语(西班牙)和西班牙语(墨西哥)等语言。语音访问需要互联网连接来设置和下载相应的语言模型。之后,您就可以使用它来用语音控制屏幕上的元素。配置好工具后,您就可以打开应用程序、与按钮互动,而且不用动动手指就能打字。另一项功能是支持多显示器,让你能在多个显示器之间切换。你可以设置自定义命令来打开应用程序和链接,并执行其他基本功能。微软决定移除传统应用程序,转而采用更好的替代方案并没有错。不过,有些人可能仍然希望使用语音识别功能,尤其是当你不想使用基于互联网的应用程序时。...PC版:https://www.cnbeta.com.tw/articles/soft/1423720.htm手机版:https://m.cnbeta.com.tw/view/1423720.htm

封面图片

如何创建可移植的Linux二进制文件(即使你需要最新的编译器)?

如何创建可移植的Linux二进制文件(即使你需要最新的编译器)?为在各种发行版上运行的Linux创建应用程序二进制文件有点棘手,因为不同的发行版提供了不同版本的各种系统库。这些通常向后兼容,但不向前兼容,因此链接到旧版本库的程序也适用于较新版本,但不是(必然)反过来。因此,你希望将你的应用程序与这些库的旧版本链接;但是,尤其是在使用C++11或更新版本时,这并不总是可行的。这篇文章将展示如何处理这些问题。它专注于视频游戏,但总体思路也适用于其他类型的应用程序(对于普通的GUI应用程序,您可能有更多或更复杂的依赖项,例如Qt,可能需要额外注意,此处未详细说明)#教程

封面图片

GitHub推出"Hey, GitHub!"实验 可与Copilot进行基于语音的互动

GitHub推出"Hey,GitHub!"实验可与Copilot进行基于语音的互动"Hey,GitHub!"目前只是减少了在VSCode内编程时对键盘的需求,但官方希望通过进一步的研究和测试来扩大其功能。"Hey,GitHub!"技术预览报名页面:https://githubnext.com/projects/hey-github现在GitHub为那些想尝试Hey,GitHub!技术预览的人提供了一个报名等待名单。加入实验将为Copilot引入一些语音命令,协助程序员在不使用键盘的情况下编程。据GitHub称,Hey,GitHub!可以识别"自然语言",使Copilot在程序员中成为更友好的工具。这也提升了Copilot的可及性,让其他觉得传统的代码输入过程很困难的开发者可以使用。除了编写和编辑代码,Hey,GitHub!允许程序员进行代码导航,只需指出他们想要查看的行(例如,"Hey,GitHub!转到第34行","Hey,GitHub!转到方法X",或"Hey,GitHub!转到下一个块")。它还接受其他VisualStudioCode命令,如"切换Zen模式"和"运行程序"。此外,实验参与者将能够快速访问Hey,GitHub!中的代码总结,给他们提供某些代码功能的总结解释。通过这个实验,Copilot可以帮助程序员更快、更容易地编码的能力有望得到提高。然而,对于该工具的未来,现在还有点模糊,微软与GitHub及其技术伙伴OpenAI一起,目前正面临一场集体诉讼,原因是可能违反了开源许可证。在Copilot被发现生产其他程序员的版权代码而不注明出处后,程序员兼律师马修-巴特里克(MatthewButterick)介入法律行动,并在诉讼的专门网站上详细介绍了这些公司的违规行为。"通过在公开的GitHub存储库上训练他们的人工智能系统(尽管根据他们的公开声明,可能还有更多),我们认为被告已经侵犯了大量创作者的合法权利,他们在GitHub上根据某些开源许可证发布代码或其他作品,"Butterick解释说。"其中涉及一组11个流行的开源许可证,它们都要求注明作者的姓名和版权,包括MIT许可证、GPL和Apache许可证。"除了违反许可证归属要求外,Butterick说GitHubCoPilot还违背了自己的服务条款和隐私政策、DMCA第1202条、加州消费者隐私法和其他法律。...PC版:https://www.cnbeta.com.tw/articles/soft/1332389.htm手机版:https://m.cnbeta.com.tw/view/1332389.htm

封面图片

IBM模拟AI芯片登Nature:能效提升14倍 语音识别速度提升7倍

IBM模拟AI芯片登Nature:能效提升14倍语音识别速度提升7倍一、利用PCM存储数据,模拟芯片解决AI技术高能耗问题AI相关技术在飞速发展的同时,也面临着能源消耗的问题。为了提升能源效率,IBM来自世界各地实验室的研究人员共同研发了这款模拟AI芯片。据称,在两个AI推理实验中,该芯片都像同类数字芯片一样可靠地执行任务,但其完成任务的速度更快,能耗更低。IBM称,其研究人员一直都在深耕模拟AI芯片领域。2021年,其团队就发布了一款名为Fusion的模拟芯片,利用PCM设备的存储能力和物理属性,更高效地实现人工神经网络。传统计算机基于冯·诺依曼结构——一种将程序指令存储器和数据存储器合并在一起的电脑设计概念结构,每次计算都将数据从DRAM(动态随机存取存储器)内存传输到CPU,导致工作速度受到实际限制,永远无法实现CPU的真正计算能力,这被称为“冯·诺依曼瓶颈”。▲当每次计算将数据从DRAM内存传输到CPU时,传统计算机就会出现瓶颈(图源:IBM官网)通过利用PCM设备的物理特性,模拟芯片可以克服冯·诺依曼瓶颈,在存储数据的同一位置执行计算。由于没有数据移动,它可以在很短的时间内执行任务,并且消耗的能源更少。▲模拟芯片通过在存储数据的地方执行计算来克服瓶颈(图源:IBM官网)例如,将64位数据从DRAM移动到CPU会消耗1-2nJ(纳焦)能量,而在PCM设备上执行只需消耗1-100fJ(飞焦),是前者的1万至200万分之一。当扩展到数十亿次操作时,所节省的能源是巨大的。此外,当设备不活动时,PCM不会消耗电力,即使断电数据也将保留10年。二、采用全新设计方式,14nm芯片可编码3500万个PCM虽然IBM早在两年前便以研发出了模拟芯片,并尝试将其用于提升AI计算性能,但Fusion芯片一次只能访问一个PCM设备,对速度和能效的提升并不显著。IBM本次发布的这款芯片采用了新的设计方式,利用34个大型PCM阵列,结合了数模转换输入、模拟外围电路、模数转换输出和大规模并行二维网格路由。每个14nm芯片上可编码3500万个PCM,在每权重对应2-PCMs的方案中,可容纳1700万个参数。将这些芯片组合在一起,便能够像数字芯片一样有效地处理真实AI用例的实验。▲IBM模拟AI芯片的显微照片(图源:论文插图)上图中,图a显示了芯片的显微照片,突出显示了34个PCM阵列模块的2D网格,每个模块都有自己的512×2,048PCM交叉阵列。PCM器件集成在14nm前端电路上方的后端布线中(图b),可通过电脉冲调整窄底电极上晶体相(高导电性)和非晶相(高电阻性)材料的相对体积来编码模拟电导状态。对PCM器件进行编程时采用并行编程方案(图c),这样同一行中的所有512个权值都会同时更新。该研发团队采用的方法是优化主导深度学习计算的MAC(乘积累加运算)。通过读取电阻式NVM(非易失性存储器)设备阵列的行,然后沿列收集电流,团队证明可以在存储器内执行MAC,无需在芯片的存储器和计算区域之间或跨芯片移动权重。三、精确度不减,语音识别速度提升7倍、大模型运行能效提升14倍为了验证芯片的有效性,该团队设计了两个实验对其进行测试。他们从MLPerf中选择了两个神经网络模型,分别是语音唤醒和语音转文本模型。MLPerf由斯坦福、哈佛等顶尖学术机构发起成立的,权威性最大、影响力最广的国际AI性能基准测试。第一个实验围绕关键词语音检测展开。该团队提出了一种卷积神经网络架构,并在包含12个关键字的谷歌语音命令数据集上进行训练。团队采用了架构更简单的FC(全连接)网络结构,最终达到了86.14%的识别精度,且提交速度比MLPerf目前最佳情况快7倍。该模型使用硬件感知训练在GPU上进行训练,然后部署在团队的模拟AI芯片上。▲端到端语音唤醒任务相关图表(图源:论文插图)第二个实验围绕语音转文本展开,规模更大。团队使用5个模拟AI芯片组合在一起,运行RNN-T(循环神经网络转换器)模型,以逐个字母地转录语音内容。该系统包含5个芯片上1.4亿个PCM设备的4500万个权重,能够采集人们说话的音频并以非常接近数字硬件设置的精度进行转录。该实验最终达到9.258%的单词错误率,能量效率达6.704TOPS/W(万亿次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。▲模拟AI芯片在RNN-T模型上表现出的性能相关图表(图源:论文插图)与第一个实验不同,这个实验并不完全是端到端的,这意味着它确实需要一些片外数字计算。IBM称,这里涉及的额外计算很少,如果在芯片上实现,最终的能效仍然高于当今市场上的产品。结语:模拟AI芯片能否成为下一个趋势继2021年推出第一款模拟芯片Fusion后,IBM于近日发布了专攻AI的模拟芯片,速度、能效均比传统数字芯片大幅提升,准确率也保持高水准。传统芯片受制于“冯·诺依曼瓶颈”,而模拟芯片可以打破这一桎梏,为AI技术带来新的生命力。未来,模拟芯片市场能否得到进一步发展,我们会持续关注。来源:Nature、IBM官网...PC版:https://www.cnbeta.com.tw/articles/soft/1379447.htm手机版:https://m.cnbeta.com.tw/view/1379447.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人