书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。#语料库

相关推荐

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta开源第一个视听语言翻译语料库MuAViCMuAViC源数据来自TED和TEDx超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。MuAViC支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta的开源模型AV-HuBERT经过MuAViC训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

史料RAG:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的

:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的历史资料片段,利用大语言模型给出较为可靠的回答。相比于直接询问大模型,这种方式具有回答准确率高,不容易产生大模型的“幻觉”问题等优点。本项目实现了两种使用方式:“Milvus方案“在本地启动一个Milvus向量数据库的Docker服务,使用LlamaIndex框架和本地BAAI/bge-base-zh-v1.5Embedding模型实现RAG的业务逻辑。“ZillizCloudPipelines方案”使用云上的知识库检索服务ZillizCloudPipelines,该服务包括了RAG流程的文档切片、向量化、向量检索等功能。两种方案均使用OpenAI的GPT4作为大语言模型。

封面图片

离线中英文词典数据库 | ECDICT | #数据库 #词典

离线中英文词典数据库#数据库#词典这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。​​​“最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的EDictAZ.txt的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到GRE包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。其后数年根据各种资料和网友贡献词库增长到10万左右,又找到Linux下面的cdict-1.0-1.rpm这个开源字典数据(mdict的主词库也是根据cdict转换得到),并按照英国国家语料库的前16万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”

封面图片

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染OpenAI发布GPT-4o后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾邮件和色情短语。人类以单词为单位进行阅读,而LLM则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。多名研究过GPT-4o使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾邮件的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。“他们可能没有对中文进行适当的数据清理,”他说。——(节选)

封面图片

深数所发布 500 个行业多模态算料集

深数所发布500个行业多模态算料集在日前举办的“数・算・网”融合发展暨粤港澳大湾区(南山・前海)算力服务联盟第一期交流研讨会上,深圳数据交易所(以下简称“深数所”)发布了500个垂直行业多模态算料集,按照大模型应用的不同阶段(训练、推理、调优),有的放矢地提供数据源,让国产大模型厂商“寻数有路”。此次深数所发布的首批500个人工智能大模型高质量训练数据集,由37家不同的数据商提供,涵盖12个“数据要素×”领域,3家境外数据商,7类数据模态(文本、图像、音频、视频、多模态、3D、GIS等)。且本批数据集首次汇聚了来自中国气象局、中国知网、中译语通、万邦同和、微梦数据(新浪微博)、前海数据、海天瑞声、拓尔思、数据堂、智慧芽、网智天元、柏川数据、深信科技等数据商的数据集作为大模型算料。其中大部分算料为全国首发。(深圳特区报)

封面图片

SILO是一种新的语言模型,通过在推断时使用非参数化数据存储来平衡法律风险和性能,从而在不训练高风险数据的情况下提高性能,并支持

是一种新的语言模型,通过在推断时使用非参数化数据存储来平衡法律风险和性能,从而在不训练高风险数据的情况下提高性能,并支持数据归因和内容移除。SILO的构建方式如下:1.在开放许可语料库(OLC)上训练参数化LM,这是一个我们用公共领域的228B代币和许可文本策划的新语料库2.使用更通用且易于修改的非参数数据存储对其进行增强(例如,包含受版权保护的书籍或新闻),仅在推理过程中查询。数据存储允许使用高风险数据而无需对其进行训练,支持句子级数据归因,并使数据生产者能够通过从商店中删除内容来选择退出该模型。这些功能可以促进对数据使用法规的遵守,例如美国的合理使用原则和欧盟的GDPR。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人