1. TFIDF 算法及其应用

    TFIDF(词频-逆文档频率,term frequency–inverse document frequency),是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf的各种版本常被搜索引擎应用,作为文档与用户查询之间相关程度的度量或评级。

    2018/04/14 NLP 信息检索

  2. Gradient Boosting 原理介绍

    集成学习通过构建并结合多个学习器来完成学习任务。通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。集成学习的一般做法:先产生一组“个体学习器”,再用某种策略将它们结合起来。常见的集成策略有:Bagging、Boosting和Stacking。本文介绍Boosting的代表算法Gradient Boosting。

    2018/03/04 机器学习 集成学习