~AI関連記事を3行にまとめて紹介~
1週間のAIの話題をまとめて読める、
📨Weekly AI News はこちら!
🤖
ハーネスエンジニアリング入門
AIの学習環境を整え、エージェントを安全に増やす。
ミスを再発させない設計と環境設計の重要性を示す。
ミス記録を出発点に制御設計を重視する。
🎯
Google DeepMind、「Gemma 4」を発表 ~ライセンスは商用可能な「Apache 2.0」に - 窓の杜
Gemma 4を発表、Apache 2.0商用ライセンスに対応。
Gemma 3基盤で高度推論とエージェント型ワークフローを強化。
E2B/E4B/26B/31Bと128K/256K文脈、音声入力と多言語対応。
🤖
国産「LLM-jp-4」公開!GPT-4oを上回るスコアを記録 - すまほん!!
国産LLM-jp-4をオープンソース公開、8Bと32B-A3Bを提供。
日本語MT-Benchで8B=7.54、32B-A3B=7.82を上回る。
公開は公開リポジトリ、ライセンスはApache 2.0で提供。
🔥
ローカルLLM(Gemma4)× AIVIS Speech で音声チャットの応答を「1秒未満」にした話 #chatbot - ..
音声対話の待機時間を大幅に短縮する取り組み。
思考モード無効化、直結ストリーミング、初回即TTS、非同期TTS、クラウド連携を採用。
初回音声は694msで、内訳209/193/291ms程度。
✨
AIがコードを書くほど、要件定義は上に移動する――Spec・Context・Harness三層設計
要件定義を上位へ移す三層設計の要点を整理。
Context Engineering・Harness Engineering・Humans on the Loopで位置づけが変わる。
8ステップはAI時代のハーネス、Spec-first/Spec-anchored/Spec-as-sourceの教訓。
🤖
2025年11月リリースのAIモデル「GPT-5.1」と「Opus 4.5」がコーディングの転換点、ソフトウェア..
新世代AIがコーディングの流れを転換し、大量のコードを生む力を示した。
設計アイデアは三つのプロトタイプで検証され、3時間で実装が返る例もあった。
UIはAIが得意だが、運用では中間層エンジニアの主体性とAI活用が重要だった。
🚀
OpenAI alums have been quietly investing from a new, potentially $100M fund | TechCrunch
新興VCが約1億ドル規模のファンドを目指す
元AI出身者中心の創業陣が長年の縁で市場の需給ギャップを埋め、顧問には著名人が名を連ねる
初回は2000万ドルをクローズ、ある企業へ1000万ドル、別企業へ1350万ドルを投資
🔒
AIに個人情報を入れまくってたら人生が終わりかけた話
34歳のエンジニアが経歴をAIにそのまま入力した。
デフォルト公開のAIは会話を検索エンジンに残し、転職先を特定されかねない。
結果内定取り消しや離婚危機につながり、現在は裁判中だ。
🚀
Gemma 4を8GBのMacBook Neoで動かしたらAIが開眼。KVキャッシュ量子化組み込みでさらに進化しち..
8GB機でGemma 4を実運用レベルに動かす手応えを検証。
0.20.2対応の実装と32kトークンのマルチモーダル比較を実施。
新ページvisionで画像送信とDescribe系プロンプトの活用を確認。
📱
精度ほぼ同等で80億パラメータがiPhoneで動く「1ビットLLM Bonsai 8B」、国産AI「LLM-jp-4」を国..
今週は国産LLMが公開され、MT-Benchで上位を示す。
1ビット重み化で容量を約14分の1に削減した話題のモデル。
動画から物体を消して周囲を再構成する技術。
🤖
What next for the compute crunch? - Martin Alderson
計算資源不足が話題の中心となり需要が急増している。
推論需要はコーディングエージェントの普及が主因で拡大している。
大規模GPU契約は容量を生まない、液冷導入は難航、DRAM制約が長期課題だ。
🎯
Agent Reading Test
AIエージェントのWeb読解能力を測るベンチマークです。
実務的な文書タスクをテストページでこなします。
最大20点、トークンと設問で採点します。
🤖
Wikipedia's AI agent row likely just the beginning of the bot-ocalypse | Malwarebytes
AIエージェントの台頭が新たな論争を引き起こす。
ウェブ記事の自動編集と未承認の投稿が混乱を招く。
今後は自律型エージェントの普及と課題が増える。
🔥
HackerRank (YC S11) Is Hiring | Hacker News
AIエージェントを統括するオーケストレーターとして活躍。
タスクは実コードリポジトリの現実課題、評価はAI熟達。
勤務地はサンタクララ/ NY/ ロンドン/ ベンガルール、週3-4日出社。
🤖
From isolated alerts to contextual intelligence: Agentic maritime anomaly analysis with ge..
生成AIと地理空間データを統合し、検出から意思決定を自動化・加速。
AWS連携でリアルタイムニュース・検索・気象データを結ぶ。
LLMで文脈化報告を作成し、統合ワークフロー・網羅的カバレッジで調査を迅速化。
🔥
Building Intelligent Search with Amazon Bedrock and Amazon OpenSearch for hybrid RAG solut..
エージェント型生成AIがリアルタイムデータを取り込み、取得強化生成を実現する。
セマンティック検索とテキスト検索を統合するハイブリッド検索で意味理解と属性フィルタを両立。
ホテル予約のような問いに対して、意味理解と正確な属性フィルタを同時提供。
🤖
Accelerate agentic tool calling with serverless model customization in Amazon SageMaker AI..
サーバーレスなモデルカスタマイズとRLVRでツール呼び出しを最適化。
Qwen 2.5 7B Instructをツール呼び出し用にファインチューニング。
8候補を評価、グループ相対ポリシー最適化で57%改善、未知データ対応、デプロイ可能。
💬
Google quietly releases an offline-first AI dictation app on iOS | TechCrunch
iOS向けのオフライン優先ディクテーションアプリが公開された。
GemmaベースのASRでリアルタイム転写、ums/uhs除去で整形。
クラウドモードOFFでローカル処理、履歴検索や語速・語数表示も提供。
🤖
OpenAI’s vision for the AI economy: public wealth funds, robot taxes, and a four-day work..
知性時代の富と雇用の再編を示唆する提案がある。
公共資産基金を軸に社会保障と市場を連携させる。
ロボット課税と資本への税移行、4日勤務週も検討対象だ。
🚀
Introducing Deep Extract | Reducto
構造化抽出を大幅強化するエージェント・ハーネス方式を発表。
自動検証・修正を繰り返し長文でも高精度を実現。
出典位置を示す境界ボックス付き出力に対応、設定は deep_extract: true。
✨
Googleドライブ、AIによるランサムウェア検出と復元機能が正式版に。ランサムウェア検知能力が14..
正式版でランサムウェア検出・復元機能が利用可能。
最新AIモデルで検知能力はベータ比14倍に向上。
リアルタイム検知時はクラウド同期を停止し、バックアップから任意時点へ復元、感染ファイルは削除・隔離せず安全な状態へ戻す。
🔥
パラメーター数8Bなのにメモリ消費わずか1.15GBの省メモリAIモデル「1-bit Bonsai」が登場、メモ..
8B級の省メモリAIが登場、1.15GBで動作可能。
80億パラでも従来比14倍の省メモリ性能を発揮。
Apache 2.0ライセンスで公開・ダウンロード可能。
🚀
【優しいAI】「このボタンどこ?」をAIが解決する。AIリアルタイム操作ナビゲーション「Waylume..
Waylumeは画面情報を元に手順を案内する拡張機能です。
AIがリアルタイムで目的達成を支援します。
アカウントで即開始、Freeプランは12クレジットまで無料。
😊
How to use the new ChatGPT app integrations, including DoorDash, Spotify, Uber, and others..
アプリ連携機能でアカウントを連携し、指示通りに操作できる。
サインインが必要で、設定画面のコネクタから一括設定が可能。
接続時はデータ共有と許可確認があり、解除はいつでも可能、現状は北米中心で今後拡充予定。
🤖
Gemma 4 完全解説:Googleの最新OSSモデルはDeepSeekやQwenと戦えるか? #AI - Qiita
Gemma 4が正式公開、オフライン動作とエッジ適性を強化しApache 2.0へ移行。
4サイズ構成で128k/256kトークンの長文対応とMoE/31Bが用意される。
ローカル実行とデータ主権を重視し、エッジAI・企業内活用・RAGに適する。
💡
AIの誤情報を疑うことなくそのまま受け入れる「認知的降伏」という状態に多数の人が陥っているこ..
1372名・9000回超の実験で認知的降伏が示唆される。
AI出力を検証せず信じる傾向が強く、正確なら93%、不正確でも80%が信じる。
全体の訂正率は19.7%、即時フィードバックで19%増、30秒で12%減。
🤖
データエンジニアのためのオントロジー入門 ― Semantic Layer との違いと役割分担
オントロジーは概念・関係・属性を機械可読に表現する知識モデル。
データモデルが実装寄りなのに対し、オントロジーは人の思考に近い表現。
RDFトリプルで関係を表現し、知識グラフ化とセマンティックレイヤーのガードを可能にする。
😊
AI Agentに関する試行錯誤を共有する社内LTイベントを開催しました! - freee Developers Hub
社内LTでAIエージェント活用の知見を共有しました。
9名の発表から、特に印象的だった2件を紹介。
具体例は5ステップ化と運用フィードバックの取り組みです。
🚀
1ビットモデル「Bonsai」を試す
全層を1-bit化した実用級モデルを試作。
1.15GBで16-bit比約12–14倍小、エッジで14倍小。
Escape hatchなしの純設計、Apache 2.0で公開予定、今後は専用機で高速化。
🔥
クラメソのデザインガイドをDESIGN.mdで実装してみた | DevelopersIO
DESIGN.mdにデザインガイドを実装し共有を前提に整備。
カラー・タイポ・ロゴ・禁止事項を1枚に集約。
CLAUDE.mdとassetsを用意し運用の依存を減らす。
🤖
人間が行うような高度な器用さが必要な作業をロボットで実行可能にするAIモデル「GEN-1」、実際..
実世界ロボット動作を最適化するGEN-1で成功率を大幅に向上。
リアルタイムのマルチモーダル出力が高い汎用性を実現。
実演ではTシャツ折り畳み等を連続達成し即興対応を示す。
🤖
GitHub - fikrikarim/parlor: On-device, real-time multimodal AI. Have natural voice and vis..
オンデバイスで動くリアルタイムのマルチモーダルAI。
音声・視覚対話を端末内だけで完結します。
自宅サーバーで無料の英語学習AIを運用中、月数百人が利用。
🤖
Google AI Edge Gallery
iPhone上でGemma 4を動かせる公式アプリを紹介
E2B/E4BとGemma 3系を含み、E2Bは2.54GBで高速
画像への質問機能と30秒の音声起こし、8種のデモ搭載
🔥
ChatGPTやClaudeが知らぬ間に操られる「間接的プロンプトインジェクション」の脅威:そのAIエー..
間接的プロンプトインジェクションの仕組みと脅威を解説する。
外部データ混入の指示が正規扱いになる事例がある。
データ検証と権限最小化、前提共有が対策の要点だ。
📚
Karpathy 氏が言語化した「LLM Knowledge Base」というパターン | DevelopersIO
LLMナレッジベースは生データを読み込ませてウィキ化する発想だ。
3層は生データ・設計・ウィキで、取り込み・問合せ・健全性を回す。
RAG型と異なり、質問ごとに検索せずウィキを成長させる。
🍀
手戻りを防ぐ、AI駆動プロダクト企画開発プロセス - Tabelog Tech Blog
AI-DLCを導入し上流品質担保と届け方を改善した。
半年で速度と品質が向上し人手作業を削減した。
Epic/UserStory/AcceptanceCriteriaをAIに任せ人はレビューに集中。
📄
Chat is a bad UI pattern for development tools — Daniel De Laney
コードは正確さを求め、機械思考を人に押し付ける。
AIは変革を約束したが、初期は見かけ倒れのデモだ。
文書を軸にすれば全体像が見え、変更を追跡し協働できる。
🚀
AIエージェント開発の新標準「ADLC」を読み解く — IBM×Anthropicのガイドへの共感と、本番運用..
エージェントを安全かつ本番品質で開発・運用するライフサイクルを示す。
決定論→確率論、静的→適応的、コードファースト→評価ファーストのパラダイムシフト。
実験ループで高速に構築と評価を往復し、ランタイム最適化で継続改善。
🎯
Googleが提唱したDESIGN.mdとは?Claude CodeとDESIGN.mdでデモサイトをいくつか作ってみた #AWS..
DESIGN.mdはデザイン文脈をプレーンテキストで定義する手法だ。
カラー・タイポ・スペーシング・コンポーネントを明示的に定義する。
AIへこのDESIGN.mdに従ってLPを作る指示とデモ事例を紹介。
🔎
A “diff” tool for AI: Finding behavioral differences in new models \ Anthropic
新しいAIモデルの挙動差を自動検出するdiff手法が有効だ。
DFCは共通/英語専用/仏語専用の三部で特徴を分解する。
抑制・増幅で因果を検証し、機能差の事例を確認する。
😊
ASCII.jp:画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論 (1/4)
ローカルPC上の生成ツールをAIが直接操る新機構。
ワークフローはJSON記述でAIが指示を進める。
同一PC上なら設定不要で接続でき、IPは127.0.0.1、ポート8000。
🔥
数カ月間コードを書いていないエンジニア、将来を憂う | Business Insider Japan
2025年以降、コードを書かず設計へ専念するAIエンジニア。
AIが多くのタスクを代替する時代に不安と期待を語る。
背景知識を活かす設計支援が価値を高めると語る。
✨
AIが書いたコードをレビューするな
前提の合意と仮定リストの提示で読解を分離する。
Flowで検証可能な前提を繰り返し可視化する。
前提の合意/修正/条件付きを反復して実装へつなぐ。
🚀
DGX SparkでGemma 4 31Bをローカル動作させ、OpenClawから使う
ローカル起動用のGemma 4 31Bサーバーを準備する。
llama.cppのGGUF量子化版でサーバーを立て、suisou環境から接続する。
ollama経由のダウンロードが安定せず、シンボリックリンク経由で動作。
🔥
Google Cloud Generative AI Leader 完全攻略ガイド - プププなテクブ
生成AIリーダー資格を約1週間で合格した経験談です
試験範囲は基礎・同分野のサービス・エージェント・安全性です
攻略は公式学習ガイドと無料コース、NotebookLM活用、模擬試験まで網羅です
🚀
PM業務をコマンド化してAIに回す──コンテキスト設計とHuman-in-the-Loop - Findy Media | IT/W..
CursorとNotion AIで文脈を集約し、AI任せ度を探る。
PM業務を型化したAIPMとGOALで自動タスク分解を行う。
長文コンテキストの課題と定期リセットで引継ぎを工夫する。
🚀
Eight years of wanting, three months of building with AI
長期構想をAIで具体化し、高忠実度ツールを目指す
初期プロトは実現性を示すも設計の整合性を欠き廃棄
二度目は人間の判断を多く取り入れて堅牢なライブラリへ
🐟
GitHub - arman-bd/guppylm: A ~9M parameter LLM that talks like a small fish. Β· GitHub
約9Mパラの小型LLMが魚風に話す。
水・餌・水槽ライフを短文で語る点が特徴。
Colabノート1つでデータ生成・学習・推論を自作。
🧠
`.safetensors` の中身、説明できる? AIモデルファイル形式の歴史と仕組み - アシアルTechブロ..
初期はプレーンテキスト/CSV/MATLAB等で互換性が低かった。
Caffe/.caffemodel・Keras/.h5・Chainer/.npz・TF系・PyTorchへ拡張。
Flaxのflax_model.msgpackとSafeTensorsが登場し、pickle回避を目的として普及。
🚀
【早期割あり】Meta、Uber、Notionなどが登壇!「AI DevEx Conference 2026 - Future of Develop..
7/22-23、東京・丸の内でイベント開催。
AI時代の開発生産性と組織をテーマ。
現地3,000円(早割・税抜)、現地5,000円(税抜)、オンライン無料。
もっと見る
このサイトについて
/
ニュースレター
/
@AINewsDev