玛卡巴卡 LV
发表于 2025-4-9 13:39:16
标注数据少!!!
标注数据少!!!
标注数据少!!!
重要的事情说三遍! 除了像word2vec, bert 为代表的各种embedding, 当你刚入门的时候, 包括segment, postag, dependency parsing 等三大经典tasks 你会发现能用的数据集少之又少. 且, 尤其是DependencyParsing(依存句法分析) 对标注者的知识要求极高, 不是谁想标就标, 感受一下:
业内通用的ctb8.0 (Chinese Tree Bank) 光依存句法分析这块的标注指南就写了192页, 词性标注指南44页, 切词标注指南33页. 也就是说, 刚成为一名NLP合格的标注员就需要熟读250页干货的语言学知识.
对比邻居CV, 3岁以上的孩子可以区分人像, 6岁以上可以标注30+动物 ...
最后, 如果你对NLP还感兴趣, 欢迎使用我们的数据集:
SmoothNLP:三大金融文本数据(工商,新闻,资讯) - 欢迎按需自取最后打个招聘帖: 如果你在寻找NLP相关的实践机会, 我们欢迎Fulltime和Intern的NLP工程师加入, 请将简历发到 hr@http://smoothnlp.com |
|