idf两种不同公式的初步探究

UPDATES: 2015.09.16 今日面试又一次碰到这个问题.面试官的指点又可以丰富一下本文的内容,主要如下: 对于标准定义来说$$f(x) = log(N/x) = log(N) – log(x)$$是这两个元素的减法操作,而错误定义$$g(x) = log(N)/log(x)$$是两个元素的除法操作,不同的运算方式,势必造成对于不同数据的敏感度不甚相同,这与我后面通过图像,导数对比结果不谋而合~ 以下是2015.09.04编写 这篇文章的初衷,来源于一次很有意义的面试中,leader问到的一个关于idf的问题。 主要问题如下: idf公式标准定义为什么? 答案: $$f(x) = log(N/x)$$ 而我自己平日里主要使用的是另外一个版本(错误的 = =), 即为: $$g(x) = log(N)/log(x)$$ 这时候问题就来了,这两个公式有什么异同呢?使用起来,效果有何差别? 当时看到这个问题,我就懵了。因为我平时使用的就是第二种,下意识的认为没有差别。 当然,当时我没有完全答出来,回来之后,抽空想了想,总结如下: 1. Function 从函数本身来看,作图如下: 我们可以知道, 对于g来说,函数值是永远不会等于0的,甚至在x接近N的时候,函数值依然不小,如图中,N=100的时候,从x=20左右开始,g(x)的值基本稳定,在1.5与1之间,区别不大,这比起f(x)的1.5与0的区别,显得区分度不足。 2. Derivatives $$frac{df(x)}{dx} = -x^{-1},

Question Answering with Subgraph Embeddings by A. Bordes ’14 EMNLP

任务定义 给定Q, A对, 以及一个KB. 同时, 假定所有潜在答案都是Entity, 以及Q中包含一个可识别的KB中的Entry. 文章主要思想是将Q, A分别通过变换, 表示为同一个Embeddings空间的两个向量, 通过两个向量的点乘运算, 得到两者的相似度. 训练 1.1 Q Embeddings Q的表示, 是通过将Q的生成向量映射方法设为: $$f(q) = Wphi(q)$$ , 其中$$phi(q)$$为一个关于所有词的计数向量,记录每一个词在$$Q$$中出现次数. $$W$$的每一列, 则是最后学到的每一个词的Embeddings. 同时, 为了与后续Entity表示相结合, 生成同样维数的向量, 提前规定$$W$$的列数应为$$N=N_W + N_S$$, 其中, $$N_W$$为词的个数, $$N_S$$为实体以及关系的个数. 1.2 A Embeddings 文中通过比较, 最终采用了如下方案: 使用A(Entity)在KB中的SubGraph表示.

Modeling Mention, Context and Entity with Neural Networks for Entity Disambiguation by Yaming Sun’ 15 IJCAI

任务定义: 给定一个Entity Mention以及关于它的背景文档, 以及已有Entity KB, 将这个Mention与KB中某个Entity相连接. 使用方法: 1. 训练方法: 将问题归结为对于候选Entity与Context,Mention pair的一个相似度Ranking问题. 以此, 问题归结为如何分别将Entity以及Context, Mention Pair向量化表示的问题. 文章主要创新点, 在于如何对于Context, Mention Pair结合表示, 以及如何对于Entity的不同属性, 类别信息加以表征. 1.1 Context, Mention结合表示 1.1.1 Context单独表示 对于单独的Context而言, Mention周围的上下位词的Embeddings, 以及每一个词与Mention的位置关系, 都作为信息加入, 如下图所示: 最底层 为每一个词的Embeddings以及其与Mention的位置信息的拼接向量. 第二层则为卷积层, 简单将3个词(图示中例子),卷积到一个n维向量, 以得到高维, Global特征. 最高层则是一个Avg Pooling层, 将每一维都取平均值,得到一个相对于卷积层更为Global的信息.

事件抽取特征选择工作文献阅读总结

关于句法分析结果的使用方法 1. The Stages of Event Extraction by David Ahn 06′ 在David Ahn 06’发表的The Stages of Event Extraction一文中, 此文对于ACE 2005’事件抽取任务, 提出了一个baseline效果的方法. 将事件抽取任务分为四个步骤,分为Anchor Identification, Arguments Identification, Attribute Assignment, Event Coreference. 此次阅读文章主要着重点是文章中关于特征提取方面的细节问题, 更具体点, 是关于句法分析结果如何使用的问题. 在上述文章中3.2部分, Ahn提到, 句法分析结果通过工具转为依赖关系结果,使得句法分析可以提供句法成分, 以及依存关系两种信息. 同时, Ahn也提出了一个将文中Entity/timex/value与句法分析结果相连接起来的策略. 在Anchor Identification阶段,

知识库概念挂载三篇论文阅读总结

文献1. 基于多特征表示的本体概念挂载 by 徐立恒’11 文章主要着重解决将网络百科知识条目(概念)挂载到中国大百科知识库的Ontology中. 主要的核心算法, 是一个层级的kNN. 也就是对于一个给定的网络百科知识条目$$d$$, 基于大百科知识库的树状Ontology, 自上而下(自根至叶)地对于每一层需要判别的类别集合,都做一次kNN算法, 结合一些启发性的规则(heuristic rules), 判别所属类别. 具体代码如下: Function get_category(d) Input:an article d Output:the category of d c_>root of tree T calculate each semantic similar score w(d,s) in which s∈S while c has subclasses