「汚いデータでも大丈夫」─生成AIの本質的な進化

昔「AIを使うにはまずデータを整備しなければならない」という認識が一般的でした。しかし現在では、「汚いデータでもAIが先に整えてくれる」という状況に変化しています。この変化が、AI導入のハードルを劇的に下げているのです。

多くの企業は「AIを導入したい」と考えていたものの、「データが整っていない」ことを理由に導入を見送っていました。
ところが、現在の生成AIは、スクリーンショットや雑然としたPDF、あるいは文字化け気味のファイルであっても、それなりに解釈・処理が可能です。

従来のデータ分析では、データサイエンティストが「前処理」「正規化」「型の統一」などに多くの時間を費やしていました。しかし今では、「とりあえずAIに渡してみる」というアプローチが、意外と機能するのです。

項目	従来（～2022年頃）	現在（2023年以降）
前処理の必要性	必須	AIが自動で補完可能
入力形式の揃え	厳格に必要	曖昧さや違いを吸収可能
データの種類	構造化データ中心	非構造・マルチモーダルも対応可能
人間の準備作業	極めて重要	AIの理解力・補完力が強化

データ整備のコストが激減 → 小規模な企業でも導入しやすくなる。
導入スピードが向上 → トライ＆エラーが迅速に回せる。
試せる現場が増える → 社内PoC（試験導入）が容易になる。

「昔は“汚いデータ”だと『こんなの使えない！』って言われていたけれど、今はAIが勝手に読み解いてくれる。

しかし、Google Apps Script（GAS）などの自動処理系ツールでは事情が異なります。GASのような定型処理ツールは、今もなお「綺麗なデータ」が前提です。

用途	汚いデータへの対応	向いている技術
生成AI（対話・要約・意味理解）	曖昧でも文脈で補完	ChatGPT / Claudeなど
GAS等の自動処理（形式・構造依存）	構造の不備に弱い	Google Apps Script / Excel VBA

生成AIは、文脈や曖昧さから意味を汲み取ることに長けています。
GASなどの自動化ツールは、データの形式や構造が整っていないと動作が破綻しがちです。

たとえば、「2024年5月1日」と「1日・5月・令和6年」が混在する日付欄や、列がシートごとに異なるCSVなどは、自動処理にとって致命的な障害となり得ます。

以下のような“役割分担”が現実的かつ効果的です。

生成AIに前処理を依頼
　例：「この表の列名を統一して」「“名前”列をすべてカタカナにして」など。
整ったデータをGASで自動処理
　→ データ構造が明確なら、GASの処理は高速かつ安定します。

活用の一例：

汚れたスプレッドシート → ChatGPTでクリーニング
整形済みデータ → GASで自動転記・通知

このように、生成AIとGASの役割を分けて考えることが、業務効率化の鍵となります。生成AIが「汚いデータでも読み解ける」と言われるのは、“意味の解釈”という領域においてです。一方で、GASのような“処理の自動実行”においては、依然として整った構造が求められます。
ここが、ネックになっています。

Post Views: 62

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31