文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送!

项目一:GiantMIDI-Piano — 钢琴MIDI数据集

钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。

近期,字节跳动发布了全球最大的古典钢琴数据集 GiantMIDI-Piano [1]。在数据规模上,数据集不同曲目的总时长是谷歌 MAESTRO 数据集的 14 倍。

GiantMIDI-Piano 中前 100 位不同作曲家的曲目数量分布:

GiantMIDI-Piano 的特点是使用钢琴转谱技术,通过计算机将音频文件自动转为 MIDI 文件,并通过该技术转谱了大规模的 MIDI 数据集。研究者首先从开放的国际音乐数字图书馆 IMSLP 获取了18,067位作曲家的143,701首作品名信息,并通过 YouTube 搜索到60,724个音频。然后,研究者设计了基于音频卷积神经网络(CNN)的钢琴独奏检测算法,筛选出来自 2,786 位作曲家的 10,854 部钢琴作品。最后,研究者开发并开源了一套高精度钢琴转谱系统(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times)[2],将所有音频转谱成 MIDI 文件,进而构建了 GiantMIDI-Piano 数据库。

GiantMIDI-Piano 数据集具备以下特点:

包含来自 2,784 位作曲家 10,854 首作品的 MIDI 文件。

包含 34,504,873 个音符。

所有的曲目都是不同的,MIDI 文件的总时长为 1,237 小时。

由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。

GiantMIDI-Piano 的转谱相对错误率为 0.094,在 Maestro 钢琴数据集上的转谱 F1 值为 96.72%。

所有 MIDI 文件都有统一的格式,文件名格式为「姓_名_曲目名_youtubeID.mid」。

包含作曲家国籍和出生年份信息。

数据集大小为 193 Mb。

使用许可为 CC BY 4.0。

项目地址:

https://github.com/bytedance/GiantMIDI-Piano

项目二:PaddleOCR · 基于PaddlePaddle的出色多语言OCR工具包

PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。

特性:

  • PPOCR系列高质量预训练模型,准确的识别效果
  • 超轻量ppocr_mobile移动端系列:检测(3.0M)+方向分类器(1.4M)+ 识别(5.0M)= 9.4M
  • 通用ppocr_server系列:检测(47.1M)+方向分类器(1.4M)+ 识别(94.9M)= 143.4M
  • 支持中英文数字组合识别、竖排文本识别、长文本识别
  • 支持多语言识别:韩语、日语、德语、法语
  • 丰富易用的OCR相关工具组件
  • 半自动数据标注工具PPOCRLabel:支持快速高效的数据标注
  • 数据合成工具Style-Text:批量合成大量与目标场景类似的图像
  • 支持用户自定义训练,提供丰富的预测推理部署方案
  • 支持PIP快速安装使用
  • 可运行于Linux、Windows、MacOS等多种系统

项目地址:

https://github.com/PaddlePaddle/PaddleOCR

项目三:paz — Python中的分层感知库,用于姿势估计,对象检测,实例分割,关键点估计,面部识别等。

![](https://img.6ai