选择平台的首要原则是“靠近数据”,让代码靠近数据是保持低延迟的必要条件。
机器学习,特别是深度学习往往会多次遍历所有数据(遍历一次被称为一个epoch)。对于非常大的数据集来说,理想的情况是在存储数据的地方建立模型,这样就不需要大量的数据传输。目前已经有部分数据库在一定程度上支持这种功能。我们会很自然地问到一个问题,即哪些数据库支持内部机器学习,它们又是如何做到的?下面我将对这些数据库进行探讨。
如果用户的数据库不支持内置机器学习,那么他们可以使用MindsDB。该款产品集成了6个数据库和5个商业智能工具,支持的数据库包括MariaDB、MySQL、PostgreSQL、ClickHouse、微软SQL Server和Snowflake。目前MindsDB还正在努力与MongoDB整合,2021年晚些时候还将会与流数据库实现集成。MindsDB支持的商业智能工具包括SAS、Qlik Sense、微软Power BI、Looker和Domo。