NotebookLMの仕様と限界

ブログ

NotebookLMの音声は、非常に自然で人間のような品質を持っており、特に「オーディオ概要」機能で生成されるポッドキャスト形式の会話は、まるで実際の人間が話しているかのように聞こえると評価されています。「オーディオ概要」機能は日本語にも対応しており、男女の二人が資料について話し合う形式の音声データを生成できます。間の取り方や会話のやり取りも非常にリアルですがちょこちょこおかしい。これを修正するとなると編集技術が必要になります。

項目状況
スクリプト修正生成後は不可
声や読み方の変更固定されており変更不可
カスタム指示一部可能だが細かな修正は難しい
修正が必要な時の選択肢
  1. 再録音せず現状維持
    • メリット:手間ゼロ
    • デメリット:誤字・読み違いが残るため社内用。商品としては不可
  2. Gemini TTS(AI Studio)を使って再録音
    • 原稿通り読み直しが可能
    • Speaker分割もでき、音声品質や声質も調整可能
    • NotebookLMとは違う声になるが、コントロールしやすい
  3. その他TTS(ElevenLabs等)を利用
    • カスタムボイスでNotebookLMに近付ける可能性あり
    • ただし別途費用・権利確認が必要 出典なし
注意点と実際の流れ
  • Gemini TTSはマルチスピーカー対応だが、長文では声の切り替えが不安定になる報告あり
    ⇒ スクリプトは複数パートに分割して生成 → CapCut等で結合するのが安全?
  • NotebookLMの声を完全に再現することはできないが、AI Studioでエネルギッシュな声質に近づける方向で調整できる
Generate MediaーGenerate speech
ひとつひとつセリフを入れていきます。(Raw structureに対話式のセリフをコピペも可能だが注意が必要※)
(AI Studio内)
  1. Generate Media → Generate speech を開く
  2. Script builder を展開
  3. 会話セリフを、「Speaker1:〜」と「Speaker2:〜」形式でコピー&貼り付け
  4. 必要に応じて 「Style instructions」(例:warm toneなど) を追加
  5. 「Voice settings」で Speaker1を女性(例:Zephyr)、Speaker2を男性(例:Charon or Puck) に設定
  6. Run をクリック → 音声が生成されます
実践フロー:再録音&修正版納品パターン
  1. 台本を修正(誤表記・読み違い箇所を直す)
  2. Google AI Studio Gemini 2.5 の TTSでパートに分割して再録音
  3. 音声をCapCutで切り取りや間を微調整
  4. 差し替え画像等含めて再生成

  • NotebookLMは補助ツールであり、正確性・カスタマイズ性は限定的(生成後の編集・声変更不可)
  • Gemini TTSによる再録音は現実的・実用的な対処法(FlashよりProを選ぶと表現力UP)

「NotebookLMで直しきれない箇所が出た時は、潔く再録音して差し替えるのが良さそうです。

※設定している音声生成のモード(「Multi-speaker audio」)で、セリフに指定しているスピーカー名(例: Speaker 1、Speaker 2)と右側のサイドバーの「Voice settings」で設定されているスピーカー名(Speaker 1、Speaker 2)と一致させること

岡山のホームページ作成