<address id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></address>

      <address id="b53l5"></address>
      <sub id="b53l5"></sub><sub id="b53l5"><meter id="b53l5"><cite id="b53l5"></cite></meter></sub>
        <sub id="b53l5"><progress id="b53l5"></progress></sub>
        <listing id="b53l5"><menuitem id="b53l5"></menuitem></listing>
        <sub id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></sub><thead id="b53l5"><meter id="b53l5"></meter></thead>

          <track id="b53l5"></track>

              165 4

              [学习笔记] 特征工程小结 [推广有奖]

              • 0关注
              • 4粉丝

              讲师

              14%

              还不是VIP/贵宾

              -

              威望
              0
              论坛币
              342 个
              学术水平
              4 点
              热心指数
              8 点
              信用等级
              3 点
              经验
              5645 点
              帖子
              199
              精华
              0
              在线时间
              252 小时
              注册时间
              2018-9-28
              最后登录
              2019-4-20

              楼主
              诗人都在海底 在职认证  发表于 2019-3-16 12:47:08 |只看作者 |倒序
              本帖最后由 诗人都在海底 于 2019-3-18 10:32 编辑

              1. 为什么要进行归一化

                  归一化后会使每一维度数据的更新速度变得更为一致£¬可更快通过梯度下降法找到最优解¡£梯度下降法求解的模型有线性回归¡¢逻辑回归¡¢支持向量机¡¢神经网络模型等£¬但归一化对决策树模型并不适用£¬以C4.5为例£¬模型节点分裂时主要依据数据集关于特征的信息增益比£¬而信息增益比与是否归一化是无关的¡£

              2.类别特征如何处理
              • 序号编码
              • 独热编码
              • 二进制编码
              3 . 高维组合特征

                  一阶离散特征两两组合形成高维组合¡£

              4. 如何?#34892;?#25214;到组合特征

                  通过决策树寻找特征组合

              5. 文本表示模型
              • Bag of Words
              • TF-IDF£¨Term Frequency-Inverse Document Frequency£©
              • Topic Model
              • Word Embedding
              6. Word2Vec

                  一?#26234;?#23618;神经网络模型£¬它有两种网络结构£¬分别是£ºCBOW根据上下文预测当前词的概率¡¢Skip-gram根据当前?#35797;?#27979;上下文的概率¡£


              • Word2vec和LDA的区别和联系

                  LDA£º利用文档中的单?#20351;?#29616;关?#36947;?#36827;行主题聚类¡£也可理解为对¡°文档-单词?#26412;?#38453;进行分解£¬得到¡°文档-主题¡±和¡°主题-单词¡±两个概率分布¡£

                  Word2Vec£º对¡°上下文-单词?#26412;?#38453;进行学习£¬其中上下文由周围的几个单词组成£¬ 由此得到的词向量表示更多地融入了上下文共现的特征¡£也就是说£¬如 果两个单词所对应的Word2Vec向量相似度较高£¬那么它们很可能经常在同样的上下文中出现¡£

              • 主题模型和?#26159;度?#20004;类方法的主要差异

                  主题模型基于¡°上下文-单词?#26412;?#38453;进行主题推理¡£主题模型是一?#21482;?#20110;概率图模型的生成式模型£¬其似然函数可以写成若干条件概率连乘的形式£¬其中包括需要推测的隐含变量£¨即主题£©£»

              ?#26159;度?#26041;法根据¡°文档-单词?#26412;?#38453;学习出词的隐含向量表示¡£?#26159;度?#27169;型一般表达为神经网络的形式£¬似然函数定义在网络的输出之上£¬需要通过学习网络的权重以得?#38477;?#35789;的稠密向量表示¡£

              7. 图像数据不足时的处方法
              • 迁徙学习
              • 生成对抗网络
              • 图像处理
              • 上采样
              • 数据扩充

              关键?#21097;?a href="http://www.9062865.com/t/12915.html" target="_blank" rel="nofollow">Frequency Embedding Document inverse 神经网络模型

              已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
              zl89 + 80 精彩帖子
              经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

              总评分: 经验 + 80  论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

              本帖被以下文库推荐

              沙发
              经管之家编辑部 在职认证  发表于 2019-3-16 13:22:19 |只看作者
              为你点赞£¡
              回复

              使用道具 举报

              藤椅
              充实每一天 发表于 2019-3-16 13:22:46 来自手机 |只看作者
              已点赞¡«
              回复

              使用道具 举报

              板凳
              jessie68us 发表于 2019-3-16 13:45:31 |只看作者
              已经为您点赞£¡
              回复

              使用道具 举报

              报纸
              amtw14 发表于 2019-3-16 14:15:19 |只看作者
              回复

              使用道具 举报

              您需要登录后才可以回帖 登录 | 我要注册

              京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾?#21097;和?#36827;律师 知识产权保护声明   免责及隐私声明

              GMT+8, 2019-4-21 18:03
              Á¬ÂëÌØ´®
              <address id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></address>

                  <address id="b53l5"></address>
                  <sub id="b53l5"></sub><sub id="b53l5"><meter id="b53l5"><cite id="b53l5"></cite></meter></sub>
                    <sub id="b53l5"><progress id="b53l5"></progress></sub>
                    <listing id="b53l5"><menuitem id="b53l5"></menuitem></listing>
                    <sub id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></sub><thead id="b53l5"><meter id="b53l5"></meter></thead>

                      <track id="b53l5"></track>

                          <address id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></address>

                              <address id="b53l5"></address>
                              <sub id="b53l5"></sub><sub id="b53l5"><meter id="b53l5"><cite id="b53l5"></cite></meter></sub>
                                <sub id="b53l5"><progress id="b53l5"></progress></sub>
                                <listing id="b53l5"><menuitem id="b53l5"></menuitem></listing>
                                <sub id="b53l5"><progress id="b53l5"><font id="b53l5"></font></progress></sub><thead id="b53l5"><meter id="b53l5"></meter></thead>

                                  <track id="b53l5"></track>