image-text-retrieval

Here are 36 public repositories matching this topic...

OpenGVLab / InternVL

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

image-classification gpt multi-modal semantic-segmentation video-classification image-text-retrieval llm vision-language-model gpt-4v vit-6b vit-22b gpt-4o

Updated Nov 25, 2024
Python

salesforce / BLIP

Star

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

image-captioning visual-reasoning visual-question-answering vision-language vision-language-transformer image-text-retrieval vision-and-language-pre-training

Updated Aug 5, 2024
Jupyter Notebook

OFA-Sys / Chinese-CLIP

Star

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

nlp computer-vision deep-learning transformers pytorch chinese pretrained-models multi-modal clip coreml-models contrastive-loss vision-language multi-modal-learning image-text-retrieval vision-and-language-pre-training

Updated Aug 6, 2024
Python

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models multimodal-large-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Jul 11, 2024

greyovo / PicQuery

Star

🔍 Search local images with natural language on Android, powered by OpenAI's CLIP model. / 在 Android 上用自然语言搜索本地图片 (基于 OpenAI 的 CLIP 模型)

android openai clip image-text-search jetpack-compose image-text-retrieval material-design-3

Updated Oct 28, 2024
Kotlin

slavabarkov / tidy

Star

Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

android kotlin nlp computer-vision deep-learning image-search quantization clip semantic-search image-retrieval onnx cross-modal-retrieval image-text-matching image-text-retrieval

Updated Mar 28, 2024
Kotlin

Paranioar / SGRAF

Star

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

image-retrieval aaai text-matching similarity-metric cross-modal-retrieval image-text-matching image-text-retrieval

Updated Apr 11, 2024
Python

chuhaojin / Text2Poster-ICASSP-22

Star

Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

deep-learning image-processing pytorch artificial-neural-networks object-detection image-retrieval banner-generator banner-advertisements encoder-decoder-architecture image-text-retrieval aigc layout-design multimodal-generation poster-generation geneative-creation

Updated Dec 18, 2023
Python

alipay / Ant-Multi-Modal-Framework

Star

Research Code for Multimodal-Cognition Team in Ant Group

video-editing multimodal-learning video-text-retrieval image-text-retrieval multimodal-llm

Updated Jul 11, 2024
Python

howard-hou / BagFormer

Star

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

vision-language cross-modal-retrieval image-text-retrieval

Updated Jan 14, 2023
Python

sdc17 / UPop

Star

[ICML 2023] UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers.

framework sparsity image-captioning pruning structured model-compression visual-reasoning multimodal-learning visual-question-answering weight-pruning efficient-deep-learning vision-transformer vision-language-transformer image-text-retrieval text-image-retrieval

Updated Nov 4, 2023
Python

X-PLUG / mPLUG

Star

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)

pytorch transformer vqa image-captioning visual-language image-text multimodal pretraining image-text-retrieval

Updated May 8, 2023
Python

MILVLG / rosita

Star

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

vqa vision-and-language pre-training referring-expression-comprehension image-text-retrieval

Updated Jun 13, 2023
Python

hpc203 / Chinese-CLIP-opencv-onnxrun

Star

使用OpenCV onnxruntime部署中文clip做以文搜图，给出一句话来描述想要的图片，就能从图库中搜出来符合要求的图片。包含C 和Python两个版本的程序

clip opencv-dnn image-text-retrieval multimodal-large-language-models

Updated Jan 15, 2024
C

cobanov / image-captioning

Star

Image captioning using python and BLIP

image-captioning blip visual-reasoning vision-language image-text-retrieval img2text

Updated Aug 16, 2023
Python

eric-ai-lab / ComCLIP

Star

Official implementation and dataset for the NAACL 2024 paper "ComCLIP: Training-Free Compositional Image and Text Matching"

causality clip svo slip vision-and-language compositionality flickr8k-dataset image-text-matching flickr30k image-text-retrieval winoground blip2

Updated Aug 18, 2024
Python

eric-ai-lab / CPL

Star

Official implementation of our EMNLP 2022 paper "CPL: Counterfactual Prompt Learning for Vision and Language Models"

vqa image-classification causal-inference vision-and-language image-text-retrieval counterfactual-reasoning prompt-tuning

Updated Dec 5, 2022
Python

Paranioar / RCAR

Star

[TIP2023] The code of “Plug-and-Play Regulators for Image-Text Matching”

tip image-retrieval text-matching regulator cross-modal-retrieval image-text-matching image-text-retrieval

Updated Apr 11, 2024
Python

sdc17 / CrossGET

Star

[ICML 2024] CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers.

framework transformer image-captioning visual-reasoning multimodal-learning visual-question-answering model-acceleration efficient-deep-learning vision-language-transformer image-text-retrieval text-image-retrieval token-ensemble token-matching

Updated Oct 4, 2023

alipay / PC2-NoiseofWeb

Star

Noise of Web (NoW) is a challenging noisy correspondence learning (NCL) benchmark containing 100K image-text pairs for robust image-text matching/retrieval models.

benchmark dataset captioning-images multimodal-learning cross-modal-retrieval acmmm image-text-matching image-text-retrieval noisy-correspondence acmmm2024

Updated Nov 26, 2024
Python

Improve this page

Add a description, image, and links to the image-text-retrieval topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the image-text-retrieval topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

image-text-retrieval

Here are 36 public repositories matching this topic...

OpenGVLab / InternVL

salesforce / BLIP

OFA-Sys / Chinese-CLIP

Paranioar / Awesome_Matching_Pretraining_Transfering

greyovo / PicQuery

slavabarkov / tidy

Paranioar / SGRAF

chuhaojin / Text2Poster-ICASSP-22

alipay / Ant-Multi-Modal-Framework

howard-hou / BagFormer

sdc17 / UPop

X-PLUG / mPLUG

MILVLG / rosita

hpc203 / Chinese-CLIP-opencv-onnxrun

cobanov / image-captioning

eric-ai-lab / ComCLIP

eric-ai-lab / CPL

Paranioar / RCAR

sdc17 / CrossGET

alipay / PC2-NoiseofWeb

Improve this page

Add this topic to your repo