マルチモーダルLLM

学習しないで物体検出するLLM [Florence 2]

学習しないで物体検出やOCRができるモデルFlorence 2 を試してみました。追加学習せずに様々な物体検出タスクをこなせる小さなモデルです。また、Dockerを使って環境構築し、誰もで再現可能にしました。Yoloの代替になるかも。

ローカルで動くMiniCPM-V-2.5というマルチモーダルLLMを動かしてみた(llama.cpp)

ローカルで動くマルチモーダルLLM、「MiniCPM-V-2.5」を試してみました。どのような解像度の画像であっても、縮小せずにLLMに特徴量をとることができることが利点のマルチモーダルLLMです。また、llama.cppを利用することで、多くの環境で利用できることを確かめました。