Fugu

#Fugu| 来源: 网络整理| 查看: 265

関連論文リスト Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。論文参考訳（メタデータ） (2022-03-27T21:16:10Z)Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。論文参考訳（メタデータ） (2021-12-09T13:54:56Z)Video-Text Pre-training with Learned Regions [59.30893505895156]Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。論文参考訳（メタデータ） (2021-12-02T13:06:53Z)Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。論文参考訳（メタデータ） (2021-05-10T06:55:39Z)GraphFormers: GNN-nested Language Models for Linked Text Representation [18.359150062715617]オンライン広告やレコメンダシステムなど、多くのインテリジェントwebアプリケーションでは、リンクされたテキスト表現が重要である。予め訓練された言語モデルとグラフニューラルネットワークに関する最近のブレークスルーは、対応する技術の開発を促進する。本稿では,グラフニューラルネットワークを言語モデルのトランスフォーマー層に並べてネストするGraphFormerを提案する。論文参考訳（メタデータ） (2021-05-06T12:20:41Z)Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。論文参考訳（メタデータ） (2020-11-18T20:21:19Z)Auto-Encoding Variational Bayes for Inferring Topics and Visualization [2.132096006921048]ビジュアライゼーションとトピックモデリングは、テキスト分析のアプローチとして広く使われている。近年のアプローチでは、生成モデルを用いてトピックと可視化を共同で発見する手法が提案されている。提案手法は,自動変分ベイズをベースとした自動変分ベイズ推定手法で,トピックと可視化を共同で推定する手法である。論文参考訳（メタデータ） (2020-10-19T05:57:11Z)Quantifying Explainability of Saliency Methods in Deep Neural Networks with a Synthetic Dataset [16.1448256306394]本稿では, より客観的な定量的評価を行うために, 地中断熱マップとともに, アドホックを生成可能な合成データセットを提案する。各サンプルデータは、局所化接地トラスマスクと区別される特徴が容易に認識されるセルの画像である。論文参考訳（メタデータ） (2020-09-07T05:55:24Z)Improving Image Captioning with Better Use of Captions [65.39641077768488]本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。論文参考訳（メタデータ） (2020-06-21T14:10:47Z)Embedded Encoder-Decoder in Convolutional Networks Towards Explainable AI [0.0]本稿では,刺激の視覚的特徴を表す新しい説明可能な畳み込みニューラルネットワーク(XCNN)を提案する。 CIFAR-10, Tiny ImageNet, MNISTデータセットを用いた実験結果から, 提案アルゴリズム (XCNN) をCNNで説明可能なものにすることに成功した。論文参考訳（メタデータ） (2020-06-19T15:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

【本文地址】

Fugu

Fugu

今日新闻

推荐新闻