AI News

~AI関連記事を3行にまとめて紹介~

😍

Thoughts on the openAI spring release

  • 新モデルは高速でマルチモーダル対応
  • 感情的知性(EQ)に焦点を置いた改善
  • UX、パフォーマンス、EQの向上に注力

🤖

Chatbots tell people what they want to hear | Hub

  • チャットボットが情報を限定的に共有
  • イデオロギーを強化し極端な考えにつながる恐れ
  • 会話型検索が公共の分断を広げる可能性

😎

OpenAI、「GPT-4o」発表 高速応答で音声・画像・テキスト対応 - Impress Watch

  • 2024年5月14日にテキスト・音声・画像対応の新技術を提供開始
  • 音声入力に対して232ミリ秒で応答可能な高速性能を実現
  • APIは従来比50%安価で、英語・非英語テキストの理解も向上

🤖

オープンAI、新AIモデル「GPT-4O」発表-低価格で高速 - Bloomberg

  • 新AIモデル「GPT-4O」が低価格で高速な音声対応を実現
  • 50カ国語に対応し、会話や画像にも応答可能
  • 数週間内にリリース予定でAI界に新たな動き

🤖

3D CADに搭載されはじめたAI機能と自動化:テルえもんが見たデジタルモノづくり最前線(1)(1/2..

  • 3D CADにAI機能が搭載され、設計作業の効率化が進む
  • 各ベンダーがCAD/CAEの最新動向としてAIの進化に注力
  • 「Autodesk Fusion」ではジェネレーティブデザインが利用可能

💻

ASCII.jp:まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (5..

  • 2024年、ローカルLLMの性能向上と軽量化が進展
  • 「Mac Studio」がローカルLLM動作環境として注目
  • AIキャラクターとの日常雑談が一般化する未来が近づく

😍

OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会..

  • 新しいGPT-4oが音声、テキスト、ビジョンを統合
  • 感情状態を検出し声で感情を伝える機能を搭載
  • 数週間内に新機能がChatGPT PlusやTeamユーザーに展開

🤖

「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似? - ITmedia NEWS

  • 「GPT-4o」は「omni」のoを表す
  • テキスト、音声、画像を組み合わせたマルチモーダルAI
  • 15秒の音声データで本人そっくりな声を生成

👌

GoogleのGeminiがリサーチで大活躍! 仕事の「めんどくさい」を任せてラクしよう | ライフハッカ..

  • AIの回答精度が向上し、引用元提示でリサーチが容易に
  • 出張の計画や予算などの調査がGeminiで簡単に可能
  • 信頼できる情報源からの確認と検索方法の使い分けが重要

🚀

OpenAI 最新モデル「GPT-4o」発表 音声の反応速度向上し自然に会話も | NHK | 生成AI・人工知能

  • 最新モデル「GPT-4o」、音声反応速度が大幅向上
  • 自然な会話が可能に、通訳機能も搭載
  • IT業界の開発競争が一層激化

🧬

a review on protein language models

  • タンパク質配列は言語のように構造と機能を決定
  • モチーフやドメインはタンパク質の「単語」と「フレーズ」
  • 配列によりタンパク質の情報が予め決定される

👀

2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジ..

  • 生成AIの行政業務への適用を目的とした技術検証を実施
  • 2023年12月から2024年3月、中央省庁や自治体職員が参加
  • 検証結果は公開予定、政府情報システムへの応用に期待

💼

システム開発の新潮流 モジュラーモノリス | 日経クロステック(xTECH)

  • マイクロサービスの利点を取り入れた新アーキテクチャー
  • 企業競争力向上に貢献する技術として注目
  • 設計・開発・運用の難度が低いことが特徴

🤖

OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を..

  • AIモデル「GPT-4o」がテキスト・音声・視覚入力を高速処理
  • リアルタイムで会話しながら計算問題を解く機能を実装
  • ChatGPT Plus加入者向けに公開、無料ユーザーにも展開中

😎

メタ、カメラ付きAIイヤホン製造検討 翻訳機能など搭載=報道 | ロイター

  • AI搭載で物体識別や翻訳可能なイヤホン開発中
  • スマートグラスに続きウェアラブル端末強化
  • ユーザーへの情報提供を目的としたAI技術活用

🌟

Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Micr..

  • 新しいマルチモーダルモデルがテキストと画像に対応
  • 生成および対話型AI体験の新基準を確立
  • Azure OpenAI Serviceでプレビュー利用可能

🖥️

OpenAI、macOS向けのChatGPTデスクトップアプリを発表。本日よりChatGPT Plusユーザーにロールア..

  • macOS向けChatGPTデスクトップアプリが登場
  • キーボードショートカットで瞬時に質問可能
  • 数週間後には一般ユーザーにも公開予定

🤖

3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」 | ギズモード・ジャパン

  • 音声と画像を組み合わせた会話型AIが新登場
  • 人間の表情や呼吸音を理解し、多様な応答が可能
  • 320ミリ秒のレスポンス速度で50以上の言語に対応

📱

GitHub Copilot ChatがGitHub Mobileでも正式に利用可能に。どこでも自然言語でコーディングに関..

  • GitHub MobileでAIがコーディング質問に答える機能が利用可能に
  • プルリクエストのレビューやコード編集などがモバイルで実施可能
  • 開発者は自然言語で質問し、AIから回答をモバイルデバイスで受け取れる

😣

「AIずんだもん」3Dモデルが使用中止に 制作者が「不快な内容」と抗議 - KAI-YOU.net

  • 3Dモデルの使用中止を運営者が発表
  • 制作者から不快な利用を理由に抗議受ける
  • 今後は別のモデルで活動継続の予定

🚀

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。

  • GPT-4oが他のモデルと比較し最も優れていることが判明
  • 新モデルは速度がGPT-4の5倍と非常に高速
  • LLMの新たなスタンダードとしての地位を確立しそう

🤖

イオン、AIが値引き率を決める「AIカカク」を拡充 新たに生鮮部門でも活用へ - ITmedia ビジネ..

  • AIが割引率を自動決定する「AIカカク」の適用範囲拡大
  • 畜産・水産部門でのロス率低減と教育時間短縮に貢献
  • 日配品のAIオーダー品目数が約2倍に増加

🗣️

OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対..

  • ChatGPTのマルチモーダルMacアプリが登場
  • 音声やカメラ映像を使った対話が可能に
  • Windows版は年内のリリースを予定

😍

「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に - PC Watch

  • 新モデル「GPT-4o」がテキスト・画像処理に対応
  • 音声入力の応答速度が人間並みに向上
  • API利用料が50%割引、日本語処理も改善

📝

GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコー..

  • 手書き仕様指示からコード自動生成
  • デザイナー向けワイヤーフレーム活用も視野
  • UIデザインからアプリ雛形作成の可能性

😎

GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる #画像処理 - Qiita

  • 食事のカロリー推定が直接可能に
  • 実装の容易さと未知クラス対応が魅力
  • デモ紹介で即利用が可能

🌍

Claude is now available in the EU \ Anthropic

  • ヨーロッパでAIアシスタント「クロード」が利用可能に
  • 無料のWeb版・iOSアプリ提供、ビジネス向けTeamプランも
  • 複数ヨーロッパ言語対応、直感的なインターフェースで簡単統合

👩‍💻

変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには 「AIを知る」「意思..

  • AIの知識を深める
  • 意思決定を積み重ねる
  • 逆張り力を養う

👀

OpenAIのGPT-4oを日本語OCRとして使ってみる

  • GPT-4oは品質改善が見られる新世代AIモデル
  • 音声合成機能の改善や応答速度の向上が特徴
  • 画像認識精度の向上をNode.jsで検証

😎

リリースされたGPT-4oを使って動画のサマリー生成をしてみる! #OpenAI - Qiita

  • GPT-4oのAPIが利用可能になり動画要約が試用可能に
  • 動画や音声の直接アップロード不可でフレーム処理が必要
  • 音声合成は別途対応が必要となる

🎉

Commodore 64 can run AI to generate images — takes 20 minutes per 90 iterations to make 6..

  • コモドール64でAIによる画像生成が可能に
  • 90回の反復で64ピクセルの画像を20分で作成
  • 確率的PCAアルゴリズムを用いた古いハードウェアの活用

🔢

データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!) | データ化学工学研究室(..

  • 数理モデル構築にはサンプル数10が目安
  • モデル解釈にはサンプル数30が推奨される
  • y-randomizationで偶然の相関の影響を確認

🔥

生成AIグラビアをグラビアカメラマンが作るとどうなる?第24回:照明を自由にコントロールできる..

  • 新技術「IC-Light」で照明を自由に操作可能
  • Google Colabで手軽に試せるIC-Light
  • 生成AI業界に新たな動向、Forge用extensionも登場

🆕

OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に | Business Ins..

  • 「GPT-4o」はマルチモーダル機能を強化し、写真や音声も処理
  • 有料版ユーザー向けに展開開始、無料版は利用制限付きで提供
  • PC版アプリリリース予定、macOS版提供後、Windows版は2024年後半

🚀

Introducing the Open Arabic LLM Leaderboard

  • アラビア語処理の専門ベンチマークとしてOALLが設計される
  • アラビア語NLPの研究と開発を促進するプラットフォームを提供
  • 3億8,000万人以上のアラビア語話者に役立つ取り組み

🚀

OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞

  • 最新の生成AI「GPT-4o」が音声AIの自然な対話を実現
  • AIの活用範囲が豊かな感情表現や画像生成に拡大
  • 国際的な規制や著作権ルールの策定が急務

🆕

OpenAI、大規模言語モデル「GPT-4o」発表 - ケータイ Watch

  • 2024年5月、新たな言語モデル「GPT-4o」が登場
  • 英語・コード処理において前モデルと同等の性能を実現
  • APIが高速化し、コストも50%削減

🎉

OpenAI's ChatGPT announcement: Watch the GPT-4o reveal and demo here | TechCrunch

  • GPTの新モデル「GPT-4o」が発表された
  • 声のプロンプトへの反応性とビジョン能力が向上
  • 発表内容はYouTubeチャンネルで公開中

🤖

GoogleのAIに匹敵するオープンソースのAIモデル「Falcon 2」をUAEがリリース - GIGAZINE

  • UAEのTIIがオープンソースAIモデル「Falcon 2」を発表
  • 「Falcon 2」は多言語対応で画像からテキストへ特化
  • Falcon Foundation設立で永遠にオープンソースを保証

👍

Hugging Face x LangChain : A new partner package

  • LangChainにHugging Faceの最新開発をもたらす新パッケージ
  • コミュニティ主導で非推奨部分を更新し維持
  • langchain-huggingfaceのインストールはpipコマンドで簡単

🤖

Build generative AI applications with Amazon Titan Text Premier, Amazon Bedrock, and AWS C..

  • 大規模言語モデルを活用した生成AIアプリの構築が可能
  • 高性能なファウンデーションモデルを提供する完全管理型サービス
  • テキスト生成、要約、分類など多様なタスクに対応

🎬

Founding AI Engineer at Linum | Y Combinator's Work at a Startup

  • アニメーション分野における大きな変化が予想される
  • テキストからビデオへの最先端モデルを開発中
  • 2024年1月に最初のモデルリリース、現在はv2開発に注力

🤖

Expedia starts testing AI-powered features for search and travel planning | TechCrunch

  • AIアシスタントを活用し旅行検索や計画を強化
  • Romieボットがホテル検索や旅程作成を支援
  • 限られたユーザーによるEG Labsプログラムでの機能テスト

🚀

Speeding up ViTs using Block Sparsity | PyTorch

  • A100 GPU上でVision Transformersを1.46倍高速化
  • 精度は2%未満の低下に抑える
  • PyTorchの更新で大規模行列乗算が4.8倍高速に

📱

Gemini on Android becomes more capable and works with Gmail, Messages, YouTube and more | ..

  • Android上のGeminiがGmailやYouTubeなどと連携強化
  • 「Ask this PDF」機能でドキュメントから回答取得可能
  • Gemini Nanoのアップグレードでマルチモダリティ対応

🤖

Google gets serious about AI-generated video at Google I/O 2024 | TechCrunch

  • AIモデルVeoが1080pのビデオクリップ生成
  • I/O 2024で発表、風景やタイムラプスに対応
  • Imagen 2ファミリーの技術を活用しビデオ生成

📧

Gemini comes to Gmail to summarize, draft emails, and more | TechCrunch

  • GmailがAIを活用したアップグレードを実施
  • Gemini AIでメールの検索、要約、起案が可能に
  • 受信トレイの整理や情報抽出をAIが支援

📍

Google is bringing Gemini capabilities to Google Maps Platform | TechCrunch

  • Google Maps PlatformにGeminiモデルの機能が導入される
  • 場所のAIサマリー表示が可能に、開発者の負担を軽減
  • Places APIにAIコンテキスト検索結果が追加、グローバルで利用可能

🎉

Project IDX, Google's next-gen IDE, is now in open beta | TechCrunch

  • 次世代AI中心のブラウザベース開発環境がオープンベータに
  • 100,000人以上の開発者が新開発環境の利用を開始
  • Google MapsやChrome Dev Toolsとの連携を特徴とする

🎥

Veo - Google DeepMind

  • 1080p解像度の高品質ビデオを生成
  • テキストプロンプトのニュアンスを捉える
  • 映画製作を容易にするツール提供

🆙

Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra

  • Gemini 1.0の後継として1.5 Proが100万トークンのコンテキストウィンドウで登場
  • Gemini 1.5 Flashは1.5 Proより軽量で高速なパフォーマンスを実現
  • Gemma 2とProject AstraによるAIアシスタントの未来への進捗を共有

😎

Google I/O 2024: Introducing Veo and Imagen 3 generative AI tools

  • Veoは1080pの高品質ビデオ生成モデルとして紹介された
  • Imagen 3はテキストから高解像度の画像を生成するモデル
  • 音楽AIサンドボックス支援の下、新しいデモ録音を共有

🔍

Watermarking AI-generated text and video with SynthID - Google DeepMind

  • AI生成コンテンツに透かしを埋め込むデジタルツールキット
  • テキスト生成の品質や速度に影響せず透かしを検出
  • 安全なAIコンテンツのやり取りに貢献する技術

🎉

Google announces Gemma 2, a 27B-parameter version of its open model, launching in June | T..

  • 6月に27億パラメータの次世代モデル「Gemma 2」をローンチ
  • PaliGemmaはGemmaファミリーのビジョン言語モデルとして利用可能
  • 新モデルはNvidia GPUやGoogle Cloud TPUで最適化されている

📱

Google TalkBack will use Gemini to describe images for blind people | TechCrunch

  • 2024年の開発者会議で画像説明機能を発表
  • LLMを活用し視覚障がい者向け音声説明を生成
  • Androidデバイスへの搭載は今年後半予定

🚀

Google launches Firebase Genkit, a new open source framework for building AI-powered apps ..

  • 新しいオープンソースフレームワークでAIアプリ開発が迅速化
  • Apache 2.0ライセンス採用、生成AIの標準ユースケースに対応
  • 開発者はローカルテストとサーバーレス展開が可能に

🚀

Google is building its Gemini Nano AI model into Chrome on the desktop | TechCrunch

  • Chromeデスクトップ版にAIモデル「Gemini Nano」が組み込まれる
  • WebGPUとWASMのサポートで幅広いハードウェアで高速実行
  • Chrome DevTools Consoleで新AI機能の提供が可能に

😍

Circle to Search is now a better homework helper | TechCrunch

  • AIが物理学や数学の宿題を解決する機能を発表
  • 新AIモデル「LearnLM」によりジェスチャーで即答可能
  • 対応Android端末で宿題の手伝いができるように拡張

🔍

Google experiments with using video to search, thanks to Gemini AI | TechCrunch

  • Googleが動画検索を強化するためGemini AIを活用
  • 米国のユーザー向けに英語で動画検索の実験開始
  • 視覚的な要素が難しい検索にも対応し機能拡張

🆙

Incorporate offline and online human – machine workflows into your generative AI applicat..

  • 生成AIは画像、テキスト、音声などの新しいコンテンツを生成
  • 人間フィードバックを用いた強化学習で生成AIの精度向上
  • Amazon SageMakerでRLHFを使用しLLMの改善が可能

🤖

Google will soon start using GenAI to organize some search results pages | TechCrunch

  • 2024年の開発者会議で検索結果ページ整理に生成AI使用予定
  • 新しい検索結果ページはオンラインパブリッシャーに大きな影響
  • 広告配置の明確な計画はなく、ユーザー体験に焦点

🔍

Google is adding more AI to its search results | TechCrunch

  • 検索結果にAIを追加し競合との差別化を図る
  • Google IO 2024でAIパワードの概要提供を発表
  • ジェミニを旅行計画エージェントとして活用検討中

🔥

Google's next-gen TPUs promise a 4.7x performance boost | TechCrunch

  • 次世代TPU「Trillium」は計算性能が4.7倍向上
  • メモリ帯域幅を2倍、省エネ性能も67%向上
  • 2025年までに開発者が新チップにアクセス可能に

🗣️

Google reveals plans for upgrading AI in the real world through Gemini Live at Google I/O ..

  • Gemini Liveでスマートフォン上での音声チャットが可能に
  • 画像解析や日常タスクの効率化をAI技術で強化
  • 月額20ドルで提供されるGemini Advancedの新機能

🤖

Google's image-generating AI gets an upgrade | TechCrunch

  • Imagen 3はテキストプロンプトをより正確に理解
  • 生成物は「クリエイティブで詳細」、エラーを減少
  • SynthID使用でディープフェイクの懸念を軽減

🔥

Google's generative AI can now analyze hours of video | TechCrunch

  • Gemini 1.5 Proは最大200万トークンの分析が可能に
  • 改善されたアルゴリズムで多様なデータ理解を実現
  • コンテキストキャッシング機能で迅速かつ安価なアクセスを提供

👌

AI Test Kitchen

  • ビデオFXの提供元はVeo
  • AI Test Kitchenの関連情報
  • 技術提供によるサービス向上

😍

GitHub - google-ai-edge/model-explorer: A modern model graph visualizer and debugger

  • モデルグラフを直感的に階層的に可視化するツール
  • 動的なレイヤー展開・折りたたみやデバッグ機能を提供
  • 複数のモデル形式に対応し、拡張フレームワークも搭載

🚀

Gemini 1.5 Pro のアップデート ・ Gemini Flash ・ PaliGemma ・ Gemma 2|npaka

  • Gemini 1.5 Proが品質向上し、Gemini APIで利用可能に
  • Gemini 1.5 Flashは応答時間の最適化を実現
  • PaliGemmaとGemma 2が新たにラインナップに加わる

😍

Project Astra: the future of AI at Google is fast, multi-modal assistants like Gemini Live..

  • AIアシスタントはマルチモーダルでリアルタイム対応が可能
  • ジェミニ1.5フラッシュなどの新モデルが発表された
  • 将来のAIは個人の好みやコンテキストを理解する

🚀

Gemini Flash - Google DeepMind

  • 軽量で高速なモデルを実現
  • マルチモーダル推論と長いコンテキスト対応
  • 大きなモデルに匹敵する品質を秒未満で提供

🖼️

PaliGemma – Google's Cutting-Edge Open Vision Language Model

  • 新しいビジョン言語モデルファミリーが登場
  • 画像とテキストを理解し、テキストを生成
  • 異なる解像度と精度でモデルが利用可能

🤖

LearnLM is Google's new family of AI models for education | TechCrunch

  • 新しい生成AIモデル「LearnLM」が学習支援を目的に開発された
  • 会話形式で様々な科目を指導する設計
  • YouTubeやGoogle検索、クラスルームなどで機能提供

📚

Google is bringing AI-generated quizzes to academic videos on YouTube | TechCrunch

  • YouTube上で教育ビデオ視聴中に質問可能に
  • Geminiモデルによる長文脈機能を活用
  • 米国のAndroidユーザーに新機能を展開

😎

RAG architecture with Voyage AI embedding models on Amazon SageMaker JumpStart and Anthrop..

  • RAGアーキテクチャがAI応答生成にデータベース活用
  • 埋め込みモデルがデータ選別と精度向上に寄与
  • Voyage AIのモデルがAmazon SageMaker JumpStartで利用可能

🔍

Google is overhauling its search results page with AI overviews and Gemini organization - ..

  • AIによる検索結果の要約が米国ユーザーに展開開始
  • Gemini AIが入力や画像などから検索意図を特定
  • 複雑な検索に対応し、より質の高い情報提供を目指す

🖼️

PaliGemma  |  Google for Developers

  • 画像とテキストを入力に、質問にコンテキスト回答
  • 事前学習済みモデルと研究志向モデルの2種類提供
  • 多面的理解とビジョン言語タスクへの微調整が可能

🚀

Model Explorer  |  Edge  |  Google for Developers

  • オンデバイス展開を加速する可視化ツール
  • 大規模モデルもスムーズにレンダリング
  • ローカルまたはColabでモデル分析が可能

🤖

Google Veo, a serious swing at AI-generated video, debuts at Google I/O 2024 | TechCrunch

  • AIモデルVeoがテキストプロンプトからビデオクリップ生成
  • 1080pの風景やタイムラプスなど多様な映像を作成可能
  • Imagen 2ファミリーの技術を活用し、YouTube映像でトレーニング

💡

GPT-4o’s Memory Breakthrough! (NIAN code) | needle-in-a-needlestack

  • 新基準「NIAN」でLLMの注意力を測定
  • 数千のリメリック含むプロンプトから質問
  • 短いプロンプトでモデル性能が向上

🎉

IBM、AIモデル「Granite」をオープンソース化--商用利用も可能に - ZDNET Japan

  • LLMのオープンソース化にIBMが取り組み、GitHubで公開
  • Apache 2.0ライセンスにより、商用利用が可能に
  • 開発者の参入を容易にし、AIの障壁を下げる効果

🚀

忙しい方向け OpenAI 発表まとめ|ぬこぬこ

  • GPT-4oは性能・速度向上し価格が下がる
  • MacOS用デスクトップアプリが新登場
  • 言語サポート拡大、利用回数制限緩和

🔍

Google adds 'Web' search filter for showing old-school text links as AI rolls out | TechCr..

  • AI時代の検索結果にテキストリンクの「Web」フィルター導入
  • 新機能は検索結果ページ上部に表示
  • SEO業界に影響の可能性、産業全体への影響は不透明

💡

【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞

  • AI検索が一般に提供開始
  • 生成AI「Gemini」が情報処理能力30倍に
  • 国際的な規制策定が急務に

2024年05月15日

|

このサイトについて

/

ニュースレター

/

@AINewsDev