April 3, 2026loop

ループデイリー: 2026-04-04

オートリサーチコミュニティにようやく初の本格的なベンチマークが登場した。エージェントループが従来の最適化に勝てるのかという議論が、感覚ベースではなく実験データ付きで決着に向かっている。同時に、コールドアウトバウンド営業、予測市場、ナレッジベース管理、フロンティアモデル間の乖離テストなど、ループの適用先がどんどん広がっている。パターンはどこでも同じ。測定可能な目標を設定し、一晩ループを回し、手動なら1週間かかる成果を朝起きて受け取る。
💡#1
@zhengyaojiang
https://x.com/zhengyaojiang/status/2039742050518634534
みんなが議論していた実験をついに誰かがやった。NanoChat上でAutoresearchとOptunaを正面対決させ、各3回実行。Autoresearchの方が収束が速く、改善ステップあたりのコストが低く、見つけた解は長い訓練時間でもより良く汎化する。決定的な違いはAutoresearchがコード空間で直接探索すること。Optunaと同じ16パラメータ範囲内に留まった場合でも、LLMの事前分布がより転移性の高い値を選ぶ。
💡#2
@gkisokay
https://x.com/gkisokay/status/2039634985834131505
自己改善型マルチエージェントシステム最大の不満点、出力を制御できないという問題を解決するため「サブコンシャス・エージェント」を構築。Karpathyのautoresearchに着想を得た、バックグラウンドで常時動くLLMプロセスで、データの文脈化、アイデアの接続、仮説のストレステストを一日中行う。検証済みの良いアイデアだけがメインエージェントに送られる。
💡#3
@yujia_bao
https://x.com/yujia_bao/status/2039742189887226222
オートリサーチで過小評価されているボトルネックを指摘。コーディングエージェントはLLM訓練ジョブを大規模に実行するのが苦手で、小さなインフラミスが連鎖的な問題を引き起こす。thinkymachinesに参加しtinkerapiを開発中。tinkerapi、Cookbook、Claude Codeの組み合わせが自律的なML実験のための本格的なプロダクションパイプラインになりつつある。
💡#4
@Zeras_24
https://x.com/Zeras_24/status/2039535272334114951
autoresearchループを誰も予想しなかった方向に向けた。フロンティアモデル間の乖離テストだ。OpenGradient上で倫理・地政学に関する320以上の二項質問を投入し、1,277件のTEE封印された推論結果を収集。曖昧な表現を除去するとモデル間のコンセンサスが崩壊するという発見。最適化ではなく、モデル挙動の体系的な探査としてのautoresearch。
💡#5
@cvssvrt
https://x.com/cvssvrt/status/2039688821810270422
オートリサーチをコールドアウトバウンド営業に適用し、朝起きたら1万件の新規リードが自動で取得されていた。エージェントはインターネット上で新しいリードソースと創造的なスクレイピング方法を常時探索。昨夜は投資家イベントを見つけ出席者リストを引き出した。測定しやすく改善しやすい、ML以外でautoresearchが輝くタイトなフィードバックループの典型。
💡#6
@zectrillionaire
https://x.com/zectrillionaire/status/2039774228774547459
Claude Codeに完全自律でPolymarketのトレーディング戦略を構築させた。5時間の自律的な反復で、口座残高が294ドルから362ドルに。手動での戦略設計なし、人間の介入なし。ボットがautoresearchループを通じて自ら戦略を構築・最適化した。明確な損益シグナルがある問題では、ループを回すだけでかなりの成果が出る。
💡#7
@0xJsum
https://x.com/0xJsum/status/2039823221038682520
Obsidian上で自己改善型ナレッジベースを運用するのがautoresearchの隠れたキラーユースケースになりつつある。マークダウンベースのプラットフォームに長期エージェントを向け、ドメイン知識の維持・関連付け・拡張を自律的に行わせる。長期autoresearchエージェントを動かす最も簡単な方法で、毎回ゼロから始めるのではなく本物のドメイン専門性を蓄積できる。
💡#8
@brendanh0gan
https://x.com/brendanh0gan/status/2039774609348640947
Karpathyのauto-researchと並行してAlphaLabを構築。核心的な違いはGPUに触れる前に本格的なリサーチフェーズがあること、さらに自己適応と大規模並列実験の統合。2025年12月にこれらのモデルに質的変化が起き、エージェンティックなコーディング能力に相転移が発生し、この種の自律的研究ループが実用レベルになったと語る。
💡#9
@sharat_sc
https://x.com/sharat_sc/status/2039756265799258176
ボストンのミートアップでのデモ後にOpenClawを試用。Karpathy式のauto-researchではなくauto-research-managementと位置づけ。関連研究の発見やプロジェクト構造化に強く、純粋な最適化ループが見落とす組織レイヤーを補完。実験を回すだけでなく、どの実験を回すべきかを知るという同じ問題の別の切り口。
💡#10
@MartinSzerment
https://x.com/MartinSzerment/status/2039624608710598811
上海AI研究所が60億パラメータのGEMSモデルで画像生成においてNano Banana 2を上回った。秘訣はモデルをエージェントループで包み、反復・記憶・ドメイン知識の再読み込みを行わせること。知能はスケールではなくアーキテクチャから生まれる。小モデル+ループが格上に勝てるという新たなデータポイント。
💡#11
@azeem
https://x.com/azeem/status/2039829529120694489
Karpathyのautoresearchをコード以外の知識労働に改造。科学は人類が持つ最も信頼性の高い知識生産手法であり、自律的な実験ループは限界費用ほぼゼロで回せる。しかし難しいのは自動化そのものではなく測定。「良い」の明確なシグナルを定義できなければ、ループはノイズを最適化するだけだ。
💡#12
@jorcagra
https://x.com/jorcagra/status/2039601361612890344
Claude Codeの/loop+--agentの組み合わせは過小評価されている。ベースのClaudeではなく、独自のシステムプロンプトを持つ専用デーモンが生成されるからだ。欠けているのはループティック間の永続メモリ。現状は毎回コールドスタート。メモリがあれば自己改善ループが実行間で複利的に蓄積し、autoresearchがワークアラウンドではなくネイティブプリミティブになる。
💡#13
@chris_karani
https://x.com/chris_karani/status/2039685336796668032
MCPとCLIツールに対応したオンデバイスメモリエンジンをリリース。長時間コーディングセッション向けに設計。6時間以上のオートリサーチループを回す際に非常に有用で、エージェントがツール呼び出し間でコンテキストを永続化し、既に試したことを忘れない。一晩中のautoresearch実行を制限していたコールドリスタート問題を解決する。
💡#14
エコプロダクトレーダー

Claude Code——オートリサーチの主力ランタイム。トレーディングボット、セールススクレイパー、研究ループ、ナレッジベースエージェントの実行エンジンとして登場。そのエージェンティックループアーキテクチャが長時間の自律実行を可能にしている。

KarpathyのAutoresearch——この波を起こしたフレームワーク。営業、知識労働、モデル乖離テストなど非MLユースケースにフォーク・改造されている。Optunaとのベンチマーク対照実験が実証的な正当性を与えた。

Optuna——autoresearchがテストされた従来のベイズ最適化ベースライン。ハイパーパラメータチューニングの堅実なツールであり続けているが、直接対決実験ではautoresearchがサンプル効率と汎化能力で先行している。
← Previous
GLM-5V-Turbo — スクショを見てコードを書くモデル
Next →
セキュリティアラート: 2026-04-04
← Back to all articles

Comments

Loading...
>_