百度联合推出中文自然语言处理数据共建项目“千言”
8月25日,在百度大脑语言和知识技术峰会上,百度首席技术官王海峰首次发布了百度大脑语言知识产品的全景图。百度还联合推出了中文自然语言处理数据共建项目"千言万语"。
此外,百度集团副总裁吴天发布了语义理解技术和平台文信、智能文档分析平台TextMind和AI同声传译会议解决方案三种新产品,并发布了六种升级方案,包括智能创建平台的三种场景解决方案和智能对话定制和服务平台单元的三种新升级。
据报道,百度推出了语义理解技术和平台文信,在深入学习平台构建的基础上,依托领先的语义理解核心技术,集成了优秀的预训练模型、综合的nlp算法集、端到端的开发工具包和平台,为开发人员提供一站式的nlp开发和服务,使开发人员能够更加简单、高效地定制企业nlp模型。基于OCR和NLP技术的智能文档分析平台TextMind,以文档解析为核心功能,支持文档比较和文档审计,具有"多快、好"的核心优势,促进了企业办公的智能化升级。
其中,新的AI同声传译会议解决方案涵盖了会议的整个场景,整个过程,旨在与用户创建一个"会议同声传译专家"。吴田展示了如何用一台电脑和一部手机快速构建一套同声传译服务。只要点击鼠标,键入几个字,就能迅速获得专业的同声传译服务。
值得一提的是,鉴于语言和知识技术研究和发展的瓶颈,如缺乏数据和计算能力不足,百度与中国计算机学会和中国信息社会一道,启动了中文自然语言处理数据共建项目"千字",以解决数据匮乏的问题。
据报道,第一期"千言万语"是由中国11所大学和企业的数据资源开发人员联合编写的,涉及开放领域对话、阅读理解和20多套中文开放源码数据集等七项主要任务。
对此,百度技术委员会主席吴华说:"今后,我们希望更多的数据集作者能够参与数千字的建设,共同推动中国信息处理技术的进步,增强中国信息处理在世界范围内的影响力。"在未来三年,我们计划收集和建立不少于100个中国自然语言处理数据集,用于20多项任务,涵盖语言和知识技术的所有领域。
在现场,吴华还发布了百度语言知识技术共享计划,通过百度AISTUDIO平台提供计算支持。