1.Seq_length
根据实际使用时,一般的输出句子长度大小进行判断,如果检索到的一条完整的信息长度较长,则需要能输入长度更长的embedding
2.embedding维度
并非越大越好
根据语义丰富性进行选择,如果各种数据都有,那么高维的embedding会更适合。但如果是面向业务,信息精而专,那么小一些维度的embedding效果可能会更好
3.model_size
根据个人的设备情况以及运行速度进行选取,一般不作为参考标准
4.根据实际情况
将模型对数据集进行embedding并进行可视化,如果数据集比较专,那么就能看到各个embedding对数据集抽样的embedding情况,作为其中一个参考标准