使用 RNN 生成音乐

在 TensorFlow.org 上查看 在 Google Colab 中运行 在 GitHub 上查看源代码 下载笔记本

本教程将向您展示如何使用简单的循环神经网络 (RNN) 生成音乐音符。您将使用来自 MAESTRO 数据集 的钢琴 MIDI 文件集合训练模型。给定一系列音符,您的模型将学习预测序列中的下一个音符。您可以通过重复调用模型来生成更长的音符序列。

本教程包含解析和创建 MIDI 文件的完整代码。您可以访问 使用 RNN 进行文本生成 教程,了解有关 RNN 工作原理的更多信息。

设置

本教程使用 pretty_midi 库来创建和解析 MIDI 文件,以及 pyfluidsynth 用于在 Colab 中生成音频播放。

sudo apt install -y fluidsynth
pip install --upgrade pyfluidsynth
pip install pretty_midi
import collections
import datetime
import fluidsynth
import glob
import numpy as np
import pathlib
import pandas as pd
import pretty_midi
import seaborn as sns
import tensorflow as tf

from IPython import display
from matplotlib import pyplot as plt
from typing import Optional
seed = 42
tf.random.set_seed(seed)
np.random.seed(seed)

# Sampling rate for audio playback
_SAMPLING_RATE = 16000

下载 Maestro 数据集

data_dir = pathlib.Path('data/maestro-v2.0.0')
if not data_dir.exists():
  tf.keras.utils.get_file(
      'maestro-v2.0.0-midi.zip',
      origin='https://storage.googleapis.com/magentadata/datasets/maestro/v2.0.0/maestro-v2.0.0-midi.zip',
      extract=True,
      cache_dir='.', cache_subdir='data',
  )

该数据集包含大约 1,200 个 MIDI 文件。

filenames = glob.glob(str(data_dir/'**/*.mid*'))
print('Number of files:', len(filenames))

处理 MIDI 文件

首先,使用 pretty_midi 解析单个 MIDI 文件并检查音符的格式。如果您想将下面的 MIDI 文件下载到您的计算机上播放,您可以在 colab 中通过编写 files.download(sample_file) 来实现。

sample_file = filenames[1]
print(sample_file)

为示例 MIDI 文件生成一个 PrettyMIDI 对象。

pm = pretty_midi.PrettyMIDI(sample_file)

播放示例文件。播放小部件可能需要几秒钟才能加载。

def display_audio(pm: pretty_midi.PrettyMIDI, seconds=30):
  waveform = pm.fluidsynth(fs=_SAMPLING_RATE)
  # Take a sample of the generated waveform to mitigate kernel resets
  waveform_short = waveform[:seconds*_SAMPLING_RATE]
  return display.Audio(waveform_short, rate=_SAMPLING_RATE)
display_audio(pm)

对 MIDI 文件进行一些检查。使用了哪些类型的乐器?

print('Number of instruments:', len(pm.instruments))
instrument = pm.instruments[0]
instrument_name = pretty_midi.program_to_instrument_name(instrument.program)
print('Instrument name:', instrument_name)

提取音符

for i, note in enumerate(instrument.notes[:10]):
  note_name = pretty_midi.note_number_to_name(note.pitch)
  duration = note.end - note.start
  print(f'{i}: pitch={note.pitch}, note_name={note_name},'
        f' duration={duration:.4f}')

您将使用三个变量来表示训练模型时的音符:pitchstepduration。音高是声音作为 MIDI 音符编号的感知质量。 step 是从前一个音符或音轨开始经过的时间。 duration 是音符播放的秒数,是音符结束时间和音符开始时间的差值。

从示例 MIDI 文件中提取音符。

def midi_to_notes(midi_file: str) -> pd.DataFrame:
  pm = pretty_midi.PrettyMIDI(midi_file)
  instrument = pm.instruments[0]
  notes = collections.defaultdict(list)

  # Sort the notes by start time
  sorted_notes = sorted(instrument.notes, key=lambda note: note.start)
  prev_start = sorted_notes[0].start

  for note in sorted_notes:
    start = note.start
    end = note.end
    notes['pitch'].append(note.pitch)
    notes['start'].append(start)
    notes['end'].append(end)
    notes['step'].append(start - prev_start)
    notes['duration'].append(end - start)
    prev_start = start

  return pd.DataFrame({name: np.array(value) for name, value in notes.items()})
raw_notes = midi_to_notes(sample_file)
raw_notes.head()

解释音符名称可能比解释音高更容易,因此您可以使用以下函数将数字音高值转换为音符名称。音符名称显示音符类型、意外音程和八度音阶编号(例如 C#4)。

get_note_names = np.vectorize(pretty_midi.note_number_to_name)
sample_note_names = get_note_names(raw_notes['pitch'])
sample_note_names[:10]

要可视化音乐片段,请在音轨的长度(即钢琴卷轴)上绘制音符音高、开始和结束。从前 100 个音符开始

def plot_piano_roll(notes: pd.DataFrame, count: Optional[int] = None):
  if count:
    title = f'First {count} notes'
  else:
    title = f'Whole track'
    count = len(notes['pitch'])
  plt.figure(figsize=(20, 4))
  plot_pitch = np.stack([notes['pitch'], notes['pitch']], axis=0)
  plot_start_stop = np.stack([notes['start'], notes['end']], axis=0)
  plt.plot(
      plot_start_stop[:, :count], plot_pitch[:, :count], color="b", marker=".")
  plt.xlabel('Time [s]')
  plt.ylabel('Pitch')
  _ = plt.title(title)
plot_piano_roll(raw_notes, count=100)

绘制整个音轨的音符。

plot_piano_roll(raw_notes)

检查每个音符变量的分布。

def plot_distributions(notes: pd.DataFrame, drop_percentile=2.5):
  plt.figure(figsize=[15, 5])
  plt.subplot(1, 3, 1)
  sns.histplot(notes, x="pitch", bins=20)

  plt.subplot(1, 3, 2)
  max_step = np.percentile(notes['step'], 100 - drop_percentile)
  sns.histplot(notes, x="step", bins=np.linspace(0, max_step, 21))

  plt.subplot(1, 3, 3)
  max_duration = np.percentile(notes['duration'], 100 - drop_percentile)
  sns.histplot(notes, x="duration", bins=np.linspace(0, max_duration, 21))
plot_distributions(raw_notes)

创建 MIDI 文件

您可以使用以下函数从音符列表生成自己的 MIDI 文件。

def notes_to_midi(
  notes: pd.DataFrame,
  out_file: str, 
  instrument_name: str,
  velocity: int = 100,  # note loudness
) -> pretty_midi.PrettyMIDI:

  pm = pretty_midi.PrettyMIDI()
  instrument = pretty_midi.Instrument(
      program=pretty_midi.instrument_name_to_program(
          instrument_name))

  prev_start = 0
  for i, note in notes.iterrows():
    start = float(prev_start + note['step'])
    end = float(start + note['duration'])
    note = pretty_midi.Note(
        velocity=velocity,
        pitch=int(note['pitch']),
        start=start,
        end=end,
    )
    instrument.notes.append(note)
    prev_start = start

  pm.instruments.append(instrument)
  pm.write(out_file)
  return pm
example_file = 'example.midi'
example_pm = notes_to_midi(
    raw_notes, out_file=example_file, instrument_name=instrument_name)

播放生成的 MIDI 文件,看看是否有任何区别。

display_audio(example_pm)

与之前一样,您可以编写 files.download(example_file) 来下载并播放此文件。

创建训练数据集

通过从 MIDI 文件中提取音符来创建训练数据集。您可以从使用少量文件开始,然后尝试使用更多文件。这可能需要几分钟。

num_files = 5
all_notes = []
for f in filenames[:num_files]:
  notes = midi_to_notes(f)
  all_notes.append(notes)

all_notes = pd.concat(all_notes)
n_notes = len(all_notes)
print('Number of notes parsed:', n_notes)

接下来,从解析的音符创建 tf.data.Dataset

key_order = ['pitch', 'step', 'duration']
train_notes = np.stack([all_notes[key] for key in key_order], axis=1)
notes_ds = tf.data.Dataset.from_tensor_slices(train_notes)
notes_ds.element_spec

您将在音符序列的批次上训练模型。每个示例将包含一系列音符作为输入特征,以及下一个音符作为标签。这样,模型将接受训练以预测序列中的下一个音符。您可以在 使用 RNN 进行文本分类 中找到描述此过程(以及更多详细信息)的图表。

您可以使用方便的 window 函数,大小为 seq_length,以这种格式创建特征和标签。

def create_sequences(
    dataset: tf.data.Dataset, 
    seq_length: int,
    vocab_size = 128,
) -> tf.data.Dataset:
  """Returns TF Dataset of sequence and label examples."""
  seq_length = seq_length+1

  # Take 1 extra for the labels
  windows = dataset.window(seq_length, shift=1, stride=1,
                              drop_remainder=True)

  # `flat_map` flattens the" dataset of datasets" into a dataset of tensors
  flatten = lambda x: x.batch(seq_length, drop_remainder=True)
  sequences = windows.flat_map(flatten)

  # Normalize note pitch
  def scale_pitch(x):
    x = x/[vocab_size,1.0,1.0]
    return x

  # Split the labels
  def split_labels(sequences):
    inputs = sequences[:-1]
    labels_dense = sequences[-1]
    labels = {key:labels_dense[i] for i,key in enumerate(key_order)}

    return scale_pitch(inputs), labels

  return sequences.map(split_labels, num_parallel_calls=tf.data.AUTOTUNE)

设置每个示例的序列长度。尝试不同的长度(例如 50、100、150),看看哪个最适合数据,或者使用 超参数调整。词汇量的大小 (vocab_size) 设置为 128,表示 pretty_midi 支持的所有音高。

seq_length = 25
vocab_size = 128
seq_ds = create_sequences(notes_ds, seq_length, vocab_size)
seq_ds.element_spec

数据集的形状为 (100,1),这意味着模型将以 100 个音符作为输入,并学习预测以下音符作为输出。

for seq, target in seq_ds.take(1):
  print('sequence shape:', seq.shape)
  print('sequence elements (first 10):', seq[0: 10])
  print()
  print('target:', target)

将示例批处理,并为性能配置数据集。

batch_size = 64
buffer_size = n_notes - seq_length  # the number of items in the dataset
train_ds = (seq_ds
            .shuffle(buffer_size)
            .batch(batch_size, drop_remainder=True)
            .cache()
            .prefetch(tf.data.experimental.AUTOTUNE))
train_ds.element_spec

创建和训练模型

该模型将有三个输出,每个音符变量一个。对于 stepduration,您将使用基于均方误差的自定义损失函数,该函数鼓励模型输出非负值。

def mse_with_positive_pressure(y_true: tf.Tensor, y_pred: tf.Tensor):
  mse = (y_true - y_pred) ** 2
  positive_pressure = 10 * tf.maximum(-y_pred, 0.0)
  return tf.reduce_mean(mse + positive_pressure)
input_shape = (seq_length, 3)
learning_rate = 0.005

inputs = tf.keras.Input(input_shape)
x = tf.keras.layers.LSTM(128)(inputs)

outputs = {
  'pitch': tf.keras.layers.Dense(128, name='pitch')(x),
  'step': tf.keras.layers.Dense(1, name='step')(x),
  'duration': tf.keras.layers.Dense(1, name='duration')(x),
}

model = tf.keras.Model(inputs, outputs)

loss = {
      'pitch': tf.keras.losses.SparseCategoricalCrossentropy(
          from_logits=True),
      'step': mse_with_positive_pressure,
      'duration': mse_with_positive_pressure,
}

optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)

model.compile(loss=loss, optimizer=optimizer)

model.summary()

测试 model.evaluate 函数,您可以看到 pitch 损失明显大于 stepduration 损失。请注意,loss 是通过将所有其他损失相加计算的总损失,目前受 pitch 损失支配。

losses = model.evaluate(train_ds, return_dict=True)
losses

平衡此问题的一种方法是使用 loss_weights 参数进行编译

model.compile(
    loss=loss,
    loss_weights={
        'pitch': 0.05,
        'step': 1.0,
        'duration':1.0,
    },
    optimizer=optimizer,
)

然后,loss 成为各个损失的加权和。

model.evaluate(train_ds, return_dict=True)

训练模型。

callbacks = [
    tf.keras.callbacks.ModelCheckpoint(
        filepath='./training_checkpoints/ckpt_{epoch}',
        save_weights_only=True),
    tf.keras.callbacks.EarlyStopping(
        monitor='loss',
        patience=5,
        verbose=1,
        restore_best_weights=True),
]
%%time
epochs = 50

history = model.fit(
    train_ds,
    epochs=epochs,
    callbacks=callbacks,
)
plt.plot(history.epoch, history.history['loss'], label='total loss')
plt.show()

生成音符

要使用模型生成音符,您首先需要提供一系列起始音符。以下函数从一系列音符生成一个音符。

对于音符音高,它从模型产生的音符的 softmax 分布中抽取样本,而不仅仅是选择概率最高的音符。始终选择概率最高的音符会导致生成重复的音符序列。

temperature 参数可用于控制生成的音符的随机性。您可以在 使用 RNN 进行文本生成 中找到有关温度的更多详细信息。

def predict_next_note(
    notes: np.ndarray, 
    model: tf.keras.Model, 
    temperature: float = 1.0) -> tuple[int, float, float]:
  """Generates a note as a tuple of (pitch, step, duration), using a trained sequence model."""

  assert temperature > 0

  # Add batch dimension
  inputs = tf.expand_dims(notes, 0)

  predictions = model.predict(inputs)
  pitch_logits = predictions['pitch']
  step = predictions['step']
  duration = predictions['duration']

  pitch_logits /= temperature
  pitch = tf.random.categorical(pitch_logits, num_samples=1)
  pitch = tf.squeeze(pitch, axis=-1)
  duration = tf.squeeze(duration, axis=-1)
  step = tf.squeeze(step, axis=-1)

  # `step` and `duration` values should be non-negative
  step = tf.maximum(0, step)
  duration = tf.maximum(0, duration)

  return int(pitch), float(step), float(duration)

现在生成一些音符。您可以使用 next_notes 中的温度和起始序列进行尝试,看看会发生什么。

temperature = 2.0
num_predictions = 120

sample_notes = np.stack([raw_notes[key] for key in key_order], axis=1)

# The initial sequence of notes; pitch is normalized similar to training
# sequences
input_notes = (
    sample_notes[:seq_length] / np.array([vocab_size, 1, 1]))

generated_notes = []
prev_start = 0
for _ in range(num_predictions):
  pitch, step, duration = predict_next_note(input_notes, model, temperature)
  start = prev_start + step
  end = start + duration
  input_note = (pitch, step, duration)
  generated_notes.append((*input_note, start, end))
  input_notes = np.delete(input_notes, 0, axis=0)
  input_notes = np.append(input_notes, np.expand_dims(input_note, 0), axis=0)
  prev_start = start

generated_notes = pd.DataFrame(
    generated_notes, columns=(*key_order, 'start', 'end'))
generated_notes.head(10)
out_file = 'output.mid'
out_pm = notes_to_midi(
    generated_notes, out_file=out_file, instrument_name=instrument_name)
display_audio(out_pm)

您还可以通过添加以下两行代码来下载音频文件

from google.colab import files
files.download(out_file)

可视化生成的音符。

plot_piano_roll(generated_notes)

检查 pitchstepduration 的分布。

plot_distributions(generated_notes)

在上面的图中,您会注意到音符变量分布的变化。由于模型的输出和输入之间存在反馈循环,因此模型倾向于生成类似的输出序列以减少损失。这对于使用 MSE 损失的 stepduration 尤其重要。对于 pitch,您可以通过在 predict_next_note 中增加 temperature 来增加随机性。

后续步骤

本教程演示了使用 RNN 从 MIDI 文件数据集生成音符序列的机制。要了解更多信息,您可以访问密切相关的 使用 RNN 进行文本生成 教程,其中包含其他图表和解释。

使用 RNN 进行音乐生成的一种替代方法是使用 GAN。GAN 并非生成音频,而是可以并行生成整个序列。Magenta 团队在使用 GANSynth 的这种方法方面取得了令人印象深刻的成果。您还可以在 Magenta 项目网站 上找到许多精彩的音乐和艺术项目以及开源代码。