端到端流程

  1. 数据获取与清洗
  2. 特征工程与选择
  3. 模型训练与验证
  4. 上线监控与回滚

常见模型

  • 回归:线性回归、岭回归
  • 分类:逻辑回归、SVM、XGBoost
  • 聚类:KMeans、DBSCAN

交叉验证与评估

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
scores = cross_val_score(RandomForestClassifier(), X, y, cv=5)
print(scores.mean())

优化建议

  • 优先提升数据质量与特征
  • 合理正则化,避免过拟合
  • 用学习曲线定位瓶颈