端到端流程
- 数据获取与清洗
- 特征工程与选择
- 模型训练与验证
- 上线监控与回滚
常见模型
- 回归:线性回归、岭回归
- 分类:逻辑回归、SVM、XGBoost
- 聚类:KMeans、DBSCAN
交叉验证与评估
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
scores = cross_val_score(RandomForestClassifier(), X, y, cv=5)
print(scores.mean())优化建议
- 优先提升数据质量与特征
- 合理正则化,避免过拟合
- 用学习曲线定位瓶颈