「汚いデータでも大丈夫」─生成AIの本質的な進化

ブログ

昔「AIを使うにはまずデータを整備しなければならない」という認識が一般的でした。しかし現在では、「汚いデータでもAIが先に整えてくれる」という状況に変化しています。この変化が、AI導入のハードルを劇的に下げているのです。

多くの企業は「AIを導入したい」と考えていたものの、「データが整っていない」ことを理由に導入を見送っていました。
ところが、現在の生成AIは、スクリーンショットや雑然としたPDF、あるいは文字化け気味のファイルであっても、それなりに解釈・処理が可能です。

従来のデータ分析では、データサイエンティストが「前処理」「正規化」「型の統一」などに多くの時間を費やしていました。しかし今では、「とりあえずAIに渡してみる」というアプローチが、意外と機能するのです。

項目従来(~2022年頃)現在(2023年以降)
前処理の必要性必須AIが自動で補完可能
入力形式の揃え厳格に必要曖昧さや違いを吸収可能
データの種類構造化データ中心非構造・マルチモーダルも対応可能
人間の準備作業極めて重要AIの理解力・補完力が強化
  • データ整備のコストが激減 → 小規模な企業でも導入しやすくなる。
  • 導入スピードが向上 → トライ&エラーが迅速に回せる。
  • 試せる現場が増える → 社内PoC(試験導入)が容易になる。

「昔は“汚いデータ”だと『こんなの使えない!』って言われていたけれど、今はAIが勝手に読み解いてくれる。

しかし、Google Apps Script(GAS)などの自動処理系ツールでは事情が異なります。GASのような定型処理ツールは、今もなお「綺麗なデータ」が前提です。

用途汚いデータへの対応向いている技術
生成AI(対話・要約・意味理解)曖昧でも文脈で補完ChatGPT / Claudeなど
GAS等の自動処理(形式・構造依存)構造の不備に弱いGoogle Apps Script / Excel VBA
  • 生成AIは、文脈や曖昧さから意味を汲み取ることに長けています。
  • GASなどの自動化ツールは、データの形式や構造が整っていないと動作が破綻しがちです。

たとえば、「2024年5月1日」と「1日・5月・令和6年」が混在する日付欄や、列がシートごとに異なるCSVなどは、自動処理にとって致命的な障害となり得ます。

以下のような“役割分担”が現実的かつ効果的です。

  1. 生成AIに前処理を依頼
     例:「この表の列名を統一して」「“名前”列をすべてカタカナにして」など。
  2. 整ったデータをGASで自動処理
     → データ構造が明確なら、GASの処理は高速かつ安定します。
活用の一例:
  • 汚れたスプレッドシート → ChatGPTでクリーニング
  • 整形済みデータ → GASで自動転記・通知

このように、生成AIとGASの役割を分けて考えることが、業務効率化の鍵となります。生成AIが「汚いデータでも読み解ける」と言われるのは、“意味の解釈”という領域においてです。一方で、GASのような“処理の自動実行”においては、依然として整った構造が求められます。
ここが、ネックになっています。

岡山のホームページ作成