mllm, qnn, x64
code:https://github.com/UbiquitousLearning/mllm
1. 问题
通过自定义qualcomm graph使用高通的htp后端进行llm推理,网络暂时只有mllm
,和https://github.com/chraac/llama.cpp
。qualcomm是支持x64模拟htp推理的,这样比较好debug,方便调试。但是mllm中是不支持的。因为他htp后端强制使用了libcdsprpc.so
来申请内存,就是高通说的shared mem。但是这部分的问题是可以修复的,需要自己或作者出点工作量。后续的人有同样问题的可参考。
2. other
继续diss一下qualcomm不支持单op的算力调用。diss