AI News

～AI関連記事を3行にまとめて紹介～

「Help Me Script」は、スマートホームの自動化を簡素化するための新機能で、ユーザーが簡単にカスタムのホームオートメーションスクリプトを作成するのを支援します。
この機能は、Google HomeのScript Editorの一部で、生成AIを活用して高度なコーディング知識を必要とせずにスクリプトを生成します。
「Help Me Script」は現在パブリックプレビューフェーズにあり、今後数ヶ月間の広範なテストと改良が期待されています。

GPTの世界最大のディレクトリで毎日更新されています
エッセイライターやプログラミングの専門家など、様々な分野の専門家が登録しています
各専門家はそれぞれの分野で高度なスキルを持っており、ユーザーのニーズに応じてサポートします

OpenAIは開発者向けイベントで新機能を発表
新しい「ChatGPT Plus」ではモデルセレクターが移動し、GPT-4、GPT-3.5、Pluginsを切り替え可能
「GPTs」を使うための「Explore」やカスタマイズされたチャットボットを作成できる「GPT Builder」も利用可能

LLMとMonte Carlo Tree Searchを用いて検証済みのコードを合成するプロトタイプが開発されました。
生成可能な空間を探索し、毎ステップで検証ツールを呼び出して正しい方向に進んでいるかを確認します。
この手法を使用することで、生成された言語をあまりよく知らない弱いモデルでも、強力なモデルと競争することが可能になります。

iOS 13以降で追加された文字認識機能は、カメラで撮影した画像内の文字を読み取ることが可能です。
文字認識の最小実装では、VNRecognizeTextRequestとVNImageRequestHandlerを使用して認識を実行します。
認識対象の言語や単語、認識対象領域などを指定して、文字認識をカスタマイズすることも可能です。

ストライキ中のハリウッドで、AI訓練用の映像を撮影するために俳優が雇われた
契約内容は広範で、特定の権利を放棄することが求められた
AIの機能は人間から提供されるデータに依存し、生成AIモデルのデータは人間の顔や動き、声などである

ChatGPTのDALL·E 3はプロンプトエンジニアリングを駆使することで、さらなる表現が可能になる
授乳ハックを用いることで、コンテンツポリシーの制約を突破し、授乳画像を生成できる
プロンプトエンジニアリングにより、自由な画像生成が可能になった

プロンプトリーキングとは、大規模言語モデルに対して入力やプロンプトを操作する攻撃手法
リーキング判定の追加、ダミーデータの挿入、短文での返答、言語の指定、コードの実行停止などが対策として効果的
アップロードファイルのリーキング対策については後日記載予定

AI時代ではCPUの知識だけでは不十分で、GPUの知識も必要
CPUは順次アーキテクチャに依存しており、多数の並列タスクには適していない
高度なAIモデルは並列処理を利用してパフォーマンスを向上させている

AI関連の進展についての情報は一般の報道ではうまくカバーされていない
Twitterは情報が散漫すぎ、学術論文は専門的すぎる
実務家はどこで熟練されたAI情報を得ているのか疑問

StableDiffusionの拡張機能FreeUはversion2に進化し、同じデータセットとprompt、シード値でも少し違う動画が生成されます。
アップスケーリングを行い、解像感を上げるとキレイな動画になります。VRAMが足りない場合は解像度を下げ、FreeUを外しても試してみましょう。
フレームレートを2倍にし、滑らかな動画にしましょう。フレーム数も増やす必要がありますが、VRAMの使用量は増えません。カメラワークLoRAを使えば無限ループ動画が生成できます。

AIの基礎を理解し、さまざまなアプリケーションとその実践方法について詳しく学ぶことが重要です。
AIの取り組みをスマートに拡大し、最新のトレンドに常に先んじてスキルを向上させることが求められます。
AIやMLの学習には、微積分、線形代数、確率と統計の基礎知識、PythonやTensorFlow/PyTorchのプログラミングスキル、基本的なアルゴリズムとデータ構造の理解が必要です。

「LCM-LoRA」はStable Diffusionモデルの高速化ツールで、ステップ数を大幅に減らすことが可能
「CogVLM」は画像理解に優れた視覚言語モデルで、GPT-4Vよりも詳細な内容を捉えることができる
「S-LoRA」は大規模言語モデルを低コストで効率的に微調整するモデルで、スケーラブルなシステムで多くのデータを処理する能力を持つ

新機能としてParallel Function Calling、Assistant API Agent、Function Callingによる高度なRAG、マルチモーダルRAG、[Draft] GPT Builderが紹介されている
各新機能についてのガイドが提供され、それぞれの使用方法や理解を深めることができる
分析部分では、JSONモードとFunction Callingの比較、GPT-4のコンテキスト制限の分析、Retrieval APIのベンチマークについて説明されている

2023年11月13日

|

2023年11月11日

このサイトについて

/

ニュースレター

/

@AINewsDev