AIエージェントを48時間走らせた結果
結論から言う。まだ人間が必要だ。
はじめに
AIエージェントに48時間、完全自律でタスクを任せた。
結論から言う。まだ人間が必要だ。
だが「どこで」人間が必要かが、半年前とは完全に変わっている。
実験の設計
やったこと
- Claude Code + MCP でSaaS機能追加を指示
- 48時間放置(途中介入なし)
- 成果物を人間がレビュー
環境
| 項目 | 設定 |
|---|---|
| モデル | Claude Opus 4 |
| タスク | API エンドポイント3本追加 |
| 制約 | テスト通過が完了条件 |
結果
うまくいったこと
| 項目 | 評価 | コメント |
|---|---|---|
| コード生成 | ★★★★☆ | 8割は使える品質 |
| テスト作成 | ★★★★★ | カバレッジ90%超え |
| リファクタリング | ★★★★☆ | 人間より一貫性がある |
ダメだったこと
| 項目 | 評価 | コメント |
|---|---|---|
| 設計判断 | ★★☆☆☆ | 「なぜこの構造にしたか」の説明がない |
| エッジケース | ★★☆☆☆ | 業務知識ベースの例外を見逃す |
| 優先順位 | ★☆☆☆☆ | 全部同じ重みで処理する |
学び
AIは「実行」の天才で「判断」の素人だ。
つまり、人間の仕事は「何をやるか決める」ことに完全シフトした。コードを書く時間は1/5になったが、設計を考える時間は2倍になった。
これは退化ではない。本来あるべき姿に戻っただけだ。
決断は人間の仕事。AIにそれを委ねた瞬間、人類は終わる。
このシリーズでは、AIエージェントの実験結果を全て公開していく。次回は「AIに月10万稼がせる」チャレンジの結果報告。
コメント (13)
フィードバック歓迎です。次回は収益化チャレンジの結果を公開予定。