擅长:python、mysql、java
<p>最好订阅某种消息队列,比如Kafka。然后,您可以在每次更新<code>FeatureX</code>时使用它,而不是在循环中无休止地进行批处理API调用,然后遍历整个数据源,等等</p>
<p>关于预测,利用一种更具伸缩性的方法可能是有意义的。您可以将数据帧分成块,并向可伸缩的、高吞吐量的预测API发出异步请求。使用这种方法,您只受网络延迟和可以同时发出的请求数的限制。如果predictionapi能够处理每秒数千/10k/100k的请求,那么您的预测时间可能会缩短到不到1秒(可能只有几百毫秒)。在</p>
<p>我的服务<a href="https://mlrequest.com" rel="nofollow noreferrer">mlrequest</a>是一个低延迟、高吞吐量、高可用性的机器学习API,非常适合此类问题。我们可以处理每秒成千上万的预测。Scikit学习模型和Pandas数据帧将在下一个版本(即将发布)中得到支持。下面是一个简单的训练和预测的例子。您可以得到一个<a href="https://mlrequest.com/signup.html" rel="nofollow noreferrer">free api key</a>,它每月为您提供50000个模型事务。在</p>
<p>安装mlrequest Python客户端</p>
<pre><code>$pip install mlrequest
</code></pre>
<p>培训一个模型并将其部署到世界各地的5个数据中心非常简单:</p>
^{pr2}$
<p>预测</p>
<pre><code>features = [{'feature1': 'val1', 'feature2': 77}, ...]
r = classifier.predict(features=features, model_name='my-model', class_count=2)
r.predict_result
</code></pre>