~AI関連記事を3行にまとめて紹介~
😍
Thoughts on the openAI spring release
新モデルは高速でマルチモーダル対応
感情的知性(EQ)に焦点を置いた改善
UX、パフォーマンス、EQの向上に注力
🤖
Chatbots tell people what they want to hear | Hub
チャットボットが情報を限定的に共有
イデオロギーを強化し極端な考えにつながる恐れ
会話型検索が公共の分断を広げる可能性
😎
OpenAI、「GPT-4o」発表 高速応答で音声・画像・テキスト対応 - Impress Watch
2024年5月14日にテキスト・音声・画像対応の新技術を提供開始
音声入力に対して232ミリ秒で応答可能な高速性能を実現
APIは従来比50%安価で、英語・非英語テキストの理解も向上
🤖
オープンAI、新AIモデル「GPT-4O」発表-低価格で高速 - Bloomberg
新AIモデル「GPT-4O」が低価格で高速な音声対応を実現
50カ国語に対応し、会話や画像にも応答可能
数週間内にリリース予定でAI界に新たな動き
🤖
3D CADに搭載されはじめたAI機能と自動化:テルえもんが見たデジタルモノづくり最前線(1)(1/2..
3D CADにAI機能が搭載され、設計作業の効率化が進む
各ベンダーがCAD/CAEの最新動向としてAIの進化に注力
「Autodesk Fusion」ではジェネレーティブデザインが利用可能
💻
ASCII.jp:まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (5..
2024年、ローカルLLMの性能向上と軽量化が進展
「Mac Studio」がローカルLLM動作環境として注目
AIキャラクターとの日常雑談が一般化する未来が近づく
😍
OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会..
新しいGPT-4oが音声、テキスト、ビジョンを統合
感情状態を検出し声で感情を伝える機能を搭載
数週間内に新機能がChatGPT PlusやTeamユーザーに展開
🤖
「GPT-4o」はなんて読む? 女性の声はスカーレット・ヨハンソン(her)似? - ITmedia NEWS
「GPT-4o」は「omni」のoを表す
テキスト、音声、画像を組み合わせたマルチモーダルAI
15秒の音声データで本人そっくりな声を生成
👌
GoogleのGeminiがリサーチで大活躍! 仕事の「めんどくさい」を任せてラクしよう | ライフハッカ..
AIの回答精度が向上し、引用元提示でリサーチが容易に
出張の計画や予算などの調査がGeminiで簡単に可能
信頼できる情報源からの確認と検索方法の使い分けが重要
🚀
OpenAI 最新モデル「GPT-4o」発表 音声の反応速度向上し自然に会話も | NHK | 生成AI・人工知能
最新モデル「GPT-4o」、音声反応速度が大幅向上
自然な会話が可能に、通訳機能も搭載
IT業界の開発競争が一層激化
🧬
a review on protein language models
タンパク質配列は言語のように構造と機能を決定
モチーフやドメインはタンパク質の「単語」と「フレーズ」
配列によりタンパク質の情報が予め決定される
👀
2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました|デジ..
生成AIの行政業務への適用を目的とした技術検証を実施
2023年12月から2024年3月、中央省庁や自治体職員が参加
検証結果は公開予定、政府情報システムへの応用に期待
💼
システム開発の新潮流 モジュラーモノリス | 日経クロステック(xTECH)
マイクロサービスの利点を取り入れた新アーキテクチャー
企業競争力向上に貢献する技術として注目
設計・開発・運用の難度が低いことが特徴
🤖
OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を..
AIモデル「GPT-4o」がテキスト・音声・視覚入力を高速処理
リアルタイムで会話しながら計算問題を解く機能を実装
ChatGPT Plus加入者向けに公開、無料ユーザーにも展開中
😎
メタ、カメラ付きAIイヤホン製造検討 翻訳機能など搭載=報道 | ロイター
AI搭載で物体識別や翻訳可能なイヤホン開発中
スマートグラスに続きウェアラブル端末強化
ユーザーへの情報提供を目的としたAI技術活用
🌟
Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Micr..
新しいマルチモーダルモデルがテキストと画像に対応
生成および対話型AI体験の新基準を確立
Azure OpenAI Serviceでプレビュー利用可能
🖥️
OpenAI、macOS向けのChatGPTデスクトップアプリを発表。本日よりChatGPT Plusユーザーにロールア..
macOS向けChatGPTデスクトップアプリが登場
キーボードショートカットで瞬時に質問可能
数週間後には一般ユーザーにも公開予定
🤖
3分でわかるOpen AIの発表「友達みたいに話せるGPT-4o」 | ギズモード・ジャパン
音声と画像を組み合わせた会話型AIが新登場
人間の表情や呼吸音を理解し、多様な応答が可能
320ミリ秒のレスポンス速度で50以上の言語に対応
📱
GitHub Copilot ChatがGitHub Mobileでも正式に利用可能に。どこでも自然言語でコーディングに関..
GitHub MobileでAIがコーディング質問に答える機能が利用可能に
プルリクエストのレビューやコード編集などがモバイルで実施可能
開発者は自然言語で質問し、AIから回答をモバイルデバイスで受け取れる
😣
「AIずんだもん」3Dモデルが使用中止に 制作者が「不快な内容」と抗議 - KAI-YOU.net
3Dモデルの使用中止を運営者が発表
制作者から不快な利用を理由に抗議受ける
今後は別のモデルで活動継続の予定
🚀
GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。
GPT-4oが他のモデルと比較し最も優れていることが判明
新モデルは速度がGPT-4の5倍と非常に高速
LLMの新たなスタンダードとしての地位を確立しそう
🤖
イオン、AIが値引き率を決める「AIカカク」を拡充 新たに生鮮部門でも活用へ - ITmedia ビジネ..
AIが割引率を自動決定する「AIカカク」の適用範囲拡大
畜産・水産部門でのロス率低減と教育時間短縮に貢献
日配品のAIオーダー品目数が約2倍に増加
🗣️
OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対..
ChatGPTのマルチモーダルMacアプリが登場
音声やカメラ映像を使った対話が可能に
Windows版は年内のリリースを予定
😍
「GPT-4o」発表。人間と同じ速度で会話可能。利用料は半額に - PC Watch
新モデル「GPT-4o」がテキスト・画像処理に対応
音声入力の応答速度が人間並みに向上
API利用料が50%割引、日本語処理も改善
📝
GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコー..
手書き仕様指示からコード自動生成
デザイナー向けワイヤーフレーム活用も視野
UIデザインからアプリ雛形作成の可能性
😎
GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる #画像処理 - Qiita
食事のカロリー推定が直接可能に
実装の容易さと未知クラス対応が魅力
デモ紹介で即利用が可能
🌍
Claude is now available in the EU \ Anthropic
ヨーロッパでAIアシスタント「クロード」が利用可能に
無料のWeb版・iOSアプリ提供、ビジネス向けTeamプランも
複数ヨーロッパ言語対応、直感的なインターフェースで簡単統合
👩💻
変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには 「AIを知る」「意思..
AIの知識を深める
意思決定を積み重ねる
逆張り力を養う
👀
OpenAIのGPT-4oを日本語OCRとして使ってみる
GPT-4oは品質改善が見られる新世代AIモデル
音声合成機能の改善や応答速度の向上が特徴
画像認識精度の向上をNode.jsで検証
😎
リリースされたGPT-4oを使って動画のサマリー生成をしてみる! #OpenAI - Qiita
GPT-4oのAPIが利用可能になり動画要約が試用可能に
動画や音声の直接アップロード不可でフレーム処理が必要
音声合成は別途対応が必要となる
🎉
Commodore 64 can run AI to generate images — takes 20 minutes per 90 iterations to make 6..
コモドール64でAIによる画像生成が可能に
90回の反復で64ピクセルの画像を20分で作成
確率的PCAアルゴリズムを用いた古いハードウェアの活用
🔢
データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!) | データ化学工学研究室(..
数理モデル構築にはサンプル数10が目安
モデル解釈にはサンプル数30が推奨される
y-randomizationで偶然の相関の影響を確認
🔥
生成AIグラビアをグラビアカメラマンが作るとどうなる?第24回:照明を自由にコントロールできる..
新技術「IC-Light」で照明を自由に操作可能
Google Colabで手軽に試せるIC-Light
生成AI業界に新たな動向、Forge用extensionも登場
🆕
OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に | Business Ins..
「GPT-4o」はマルチモーダル機能を強化し、写真や音声も処理
有料版ユーザー向けに展開開始、無料版は利用制限付きで提供
PC版アプリリリース予定、macOS版提供後、Windows版は2024年後半
🚀
Introducing the Open Arabic LLM Leaderboard
アラビア語処理の専門ベンチマークとしてOALLが設計される
アラビア語NLPの研究と開発を促進するプラットフォームを提供
3億8,000万人以上のアラビア語話者に役立つ取り組み
🚀
OpenAI「GPT-4o」が変えるビジネス・暮らし 音声AIに飛躍 - 日本経済新聞
最新の生成AI「GPT-4o」が音声AIの自然な対話を実現
AIの活用範囲が豊かな感情表現や画像生成に拡大
国際的な規制や著作権ルールの策定が急務
🆕
OpenAI、大規模言語モデル「GPT-4o」発表 - ケータイ Watch
2024年5月、新たな言語モデル「GPT-4o」が登場
英語・コード処理において前モデルと同等の性能を実現
APIが高速化し、コストも50%削減
🎉
OpenAI's ChatGPT announcement: Watch the GPT-4o reveal and demo here | TechCrunch
GPTの新モデル「GPT-4o」が発表された
声のプロンプトへの反応性とビジョン能力が向上
発表内容はYouTubeチャンネルで公開中
🤖
GoogleのAIに匹敵するオープンソースのAIモデル「Falcon 2」をUAEがリリース - GIGAZINE
UAEのTIIがオープンソースAIモデル「Falcon 2」を発表
「Falcon 2」は多言語対応で画像からテキストへ特化
Falcon Foundation設立で永遠にオープンソースを保証
👍
Hugging Face x LangChain : A new partner package
LangChainにHugging Faceの最新開発をもたらす新パッケージ
コミュニティ主導で非推奨部分を更新し維持
langchain-huggingfaceのインストールはpipコマンドで簡単
🤖
Build generative AI applications with Amazon Titan Text Premier, Amazon Bedrock, and AWS C..
大規模言語モデルを活用した生成AIアプリの構築が可能
高性能なファウンデーションモデルを提供する完全管理型サービス
テキスト生成、要約、分類など多様なタスクに対応
🎬
Founding AI Engineer at Linum | Y Combinator's Work at a Startup
アニメーション分野における大きな変化が予想される
テキストからビデオへの最先端モデルを開発中
2024年1月に最初のモデルリリース、現在はv2開発に注力
🤖
Expedia starts testing AI-powered features for search and travel planning | TechCrunch
AIアシスタントを活用し旅行検索や計画を強化
Romieボットがホテル検索や旅程作成を支援
限られたユーザーによるEG Labsプログラムでの機能テスト
🚀
Speeding up ViTs using Block Sparsity | PyTorch
A100 GPU上でVision Transformersを1.46倍高速化
精度は2%未満の低下に抑える
PyTorchの更新で大規模行列乗算が4.8倍高速に
📱
Gemini on Android becomes more capable and works with Gmail, Messages, YouTube and more | ..
Android上のGeminiがGmailやYouTubeなどと連携強化
「Ask this PDF」機能でドキュメントから回答取得可能
Gemini Nanoのアップグレードでマルチモダリティ対応
🤖
Google gets serious about AI-generated video at Google I/O 2024 | TechCrunch
AIモデルVeoが1080pのビデオクリップ生成
I/O 2024で発表、風景やタイムラプスに対応
Imagen 2ファミリーの技術を活用しビデオ生成
📧
Gemini comes to Gmail to summarize, draft emails, and more | TechCrunch
GmailがAIを活用したアップグレードを実施
Gemini AIでメールの検索、要約、起案が可能に
受信トレイの整理や情報抽出をAIが支援
📍
Google is bringing Gemini capabilities to Google Maps Platform | TechCrunch
Google Maps PlatformにGeminiモデルの機能が導入される
場所のAIサマリー表示が可能に、開発者の負担を軽減
Places APIにAIコンテキスト検索結果が追加、グローバルで利用可能
🎉
Project IDX, Google's next-gen IDE, is now in open beta | TechCrunch
次世代AI中心のブラウザベース開発環境がオープンベータに
100,000人以上の開発者が新開発環境の利用を開始
Google MapsやChrome Dev Toolsとの連携を特徴とする
🎥
Veo - Google DeepMind
1080p解像度の高品質ビデオを生成
テキストプロンプトのニュアンスを捉える
映画製作を容易にするツール提供
🆙
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra
Gemini 1.0の後継として1.5 Proが100万トークンのコンテキストウィンドウで登場
Gemini 1.5 Flashは1.5 Proより軽量で高速なパフォーマンスを実現
Gemma 2とProject AstraによるAIアシスタントの未来への進捗を共有
😎
Google I/O 2024: Introducing Veo and Imagen 3 generative AI tools
Veoは1080pの高品質ビデオ生成モデルとして紹介された
Imagen 3はテキストから高解像度の画像を生成するモデル
音楽AIサンドボックス支援の下、新しいデモ録音を共有
🔍
Watermarking AI-generated text and video with SynthID - Google DeepMind
AI生成コンテンツに透かしを埋め込むデジタルツールキット
テキスト生成の品質や速度に影響せず透かしを検出
安全なAIコンテンツのやり取りに貢献する技術
🎉
Google announces Gemma 2, a 27B-parameter version of its open model, launching in June | T..
6月に27億パラメータの次世代モデル「Gemma 2」をローンチ
PaliGemmaはGemmaファミリーのビジョン言語モデルとして利用可能
新モデルはNvidia GPUやGoogle Cloud TPUで最適化されている
📱
Google TalkBack will use Gemini to describe images for blind people | TechCrunch
2024年の開発者会議で画像説明機能を発表
LLMを活用し視覚障がい者向け音声説明を生成
Androidデバイスへの搭載は今年後半予定
🚀
Google launches Firebase Genkit, a new open source framework for building AI-powered apps ..
新しいオープンソースフレームワークでAIアプリ開発が迅速化
Apache 2.0ライセンス採用、生成AIの標準ユースケースに対応
開発者はローカルテストとサーバーレス展開が可能に
🚀
Google is building its Gemini Nano AI model into Chrome on the desktop | TechCrunch
Chromeデスクトップ版にAIモデル「Gemini Nano」が組み込まれる
WebGPUとWASMのサポートで幅広いハードウェアで高速実行
Chrome DevTools Consoleで新AI機能の提供が可能に
😍
Circle to Search is now a better homework helper | TechCrunch
AIが物理学や数学の宿題を解決する機能を発表
新AIモデル「LearnLM」によりジェスチャーで即答可能
対応Android端末で宿題の手伝いができるように拡張
🔍
Google experiments with using video to search, thanks to Gemini AI | TechCrunch
Googleが動画検索を強化するためGemini AIを活用
米国のユーザー向けに英語で動画検索の実験開始
視覚的な要素が難しい検索にも対応し機能拡張
🆙
Incorporate offline and online human – machine workflows into your generative AI applicat..
生成AIは画像、テキスト、音声などの新しいコンテンツを生成
人間フィードバックを用いた強化学習で生成AIの精度向上
Amazon SageMakerでRLHFを使用しLLMの改善が可能
🤖
Google will soon start using GenAI to organize some search results pages | TechCrunch
2024年の開発者会議で検索結果ページ整理に生成AI使用予定
新しい検索結果ページはオンラインパブリッシャーに大きな影響
広告配置の明確な計画はなく、ユーザー体験に焦点
🔍
Google is adding more AI to its search results | TechCrunch
検索結果にAIを追加し競合との差別化を図る
Google IO 2024でAIパワードの概要提供を発表
ジェミニを旅行計画エージェントとして活用検討中
🔥
Google's next-gen TPUs promise a 4.7x performance boost | TechCrunch
次世代TPU「Trillium」は計算性能が4.7倍向上
メモリ帯域幅を2倍、省エネ性能も67%向上
2025年までに開発者が新チップにアクセス可能に
🗣️
Google reveals plans for upgrading AI in the real world through Gemini Live at Google I/O ..
Gemini Liveでスマートフォン上での音声チャットが可能に
画像解析や日常タスクの効率化をAI技術で強化
月額20ドルで提供されるGemini Advancedの新機能
🤖
Google's image-generating AI gets an upgrade | TechCrunch
Imagen 3はテキストプロンプトをより正確に理解
生成物は「クリエイティブで詳細」、エラーを減少
SynthID使用でディープフェイクの懸念を軽減
🔥
Google's generative AI can now analyze hours of video | TechCrunch
Gemini 1.5 Proは最大200万トークンの分析が可能に
改善されたアルゴリズムで多様なデータ理解を実現
コンテキストキャッシング機能で迅速かつ安価なアクセスを提供
👌
AI Test Kitchen
ビデオFXの提供元はVeo
AI Test Kitchenの関連情報
技術提供によるサービス向上
😍
GitHub - google-ai-edge/model-explorer: A modern model graph visualizer and debugger
モデルグラフを直感的に階層的に可視化するツール
動的なレイヤー展開・折りたたみやデバッグ機能を提供
複数のモデル形式に対応し、拡張フレームワークも搭載
🚀
Gemini 1.5 Pro のアップデート ・ Gemini Flash ・ PaliGemma ・ Gemma 2|npaka
Gemini 1.5 Proが品質向上し、Gemini APIで利用可能に
Gemini 1.5 Flashは応答時間の最適化を実現
PaliGemmaとGemma 2が新たにラインナップに加わる
😍
Project Astra: the future of AI at Google is fast, multi-modal assistants like Gemini Live..
AIアシスタントはマルチモーダルでリアルタイム対応が可能
ジェミニ1.5フラッシュなどの新モデルが発表された
将来のAIは個人の好みやコンテキストを理解する
🚀
Gemini Flash - Google DeepMind
軽量で高速なモデルを実現
マルチモーダル推論と長いコンテキスト対応
大きなモデルに匹敵する品質を秒未満で提供
🖼️
PaliGemma – Google's Cutting-Edge Open Vision Language Model
新しいビジョン言語モデルファミリーが登場
画像とテキストを理解し、テキストを生成
異なる解像度と精度でモデルが利用可能
🤖
LearnLM is Google's new family of AI models for education | TechCrunch
新しい生成AIモデル「LearnLM」が学習支援を目的に開発された
会話形式で様々な科目を指導する設計
YouTubeやGoogle検索、クラスルームなどで機能提供
📚
Google is bringing AI-generated quizzes to academic videos on YouTube | TechCrunch
YouTube上で教育ビデオ視聴中に質問可能に
Geminiモデルによる長文脈機能を活用
米国のAndroidユーザーに新機能を展開
😎
RAG architecture with Voyage AI embedding models on Amazon SageMaker JumpStart and Anthrop..
RAGアーキテクチャがAI応答生成にデータベース活用
埋め込みモデルがデータ選別と精度向上に寄与
Voyage AIのモデルがAmazon SageMaker JumpStartで利用可能
🔍
Google is overhauling its search results page with AI overviews and Gemini organization - ..
AIによる検索結果の要約が米国ユーザーに展開開始
Gemini AIが入力や画像などから検索意図を特定
複雑な検索に対応し、より質の高い情報提供を目指す
🖼️
PaliGemma | Google for Developers
画像とテキストを入力に、質問にコンテキスト回答
事前学習済みモデルと研究志向モデルの2種類提供
多面的理解とビジョン言語タスクへの微調整が可能
🚀
Model Explorer | Edge | Google for Developers
オンデバイス展開を加速する可視化ツール
大規模モデルもスムーズにレンダリング
ローカルまたはColabでモデル分析が可能
🤖
Google Veo, a serious swing at AI-generated video, debuts at Google I/O 2024 | TechCrunch
AIモデルVeoがテキストプロンプトからビデオクリップ生成
1080pの風景やタイムラプスなど多様な映像を作成可能
Imagen 2ファミリーの技術を活用し、YouTube映像でトレーニング
💡
GPT-4o’s Memory Breakthrough! (NIAN code) | needle-in-a-needlestack
新基準「NIAN」でLLMの注意力を測定
数千のリメリック含むプロンプトから質問
短いプロンプトでモデル性能が向上
🎉
IBM、AIモデル「Granite」をオープンソース化--商用利用も可能に - ZDNET Japan
LLMのオープンソース化にIBMが取り組み、GitHubで公開
Apache 2.0ライセンスにより、商用利用が可能に
開発者の参入を容易にし、AIの障壁を下げる効果
🚀
忙しい方向け OpenAI 発表まとめ|ぬこぬこ
GPT-4oは性能・速度向上し価格が下がる
MacOS用デスクトップアプリが新登場
言語サポート拡大、利用回数制限緩和
🔍
Google adds 'Web' search filter for showing old-school text links as AI rolls out | TechCr..
AI時代の検索結果にテキストリンクの「Web」フィルター導入
新機能は検索結果ページ上部に表示
SEO業界に影響の可能性、産業全体への影響は不透明
💡
【Google I/O2024】Google、AI検索を一般に提供 欲しい情報を瞬時に - 日本経済新聞
AI検索が一般に提供開始
生成AI「Gemini」が情報処理能力30倍に
国際的な規制策定が急務に
2024年05月15日
|
2024年05月13日
このサイトについて
/
ニュースレター
/
@AINewsDev