倍赛首推全类型SaaS标注平台共享标注能力赋能AI基础行业

12月5日报道

2019年《中国人工智能基础数据服务行业白皮书》显示,2018年中国人工智能基础数据服务市场规模达到25.86亿元,预计到2025年市场规模或将突破113亿元。人工智能基础数据服务市场呈现出巨大发展潜力。但伴随着需求的不断膨胀,基础数据服务商在迎来机会的同时,也面临新的挑战——如何有效提升数据标注的产能。

由青岛啤酒集团主办的“活力青岛、干杯世界——青岛啤酒节香飘丝路行”21日至22日在利比里亚举办首站活动,给当地民众和游客带来欢乐和新奇的文化体验。之后该活动还将在多个“一带一路”沿线国家举办。

据了解,该窝点主要从事制作、生产、批发等环节,其中每100元假币按15元左右的价格批发售卖,从今年8月起,已制售假币近1200万元, 其中约800万元分别出售至广西、湖南、贵州等地。目前,专案组正对这些假币进行追缴。

而现在的问题是,我们要如何处理这样的规模呢?

管理属性和灵活性成为SaaS标注工具的优势

开放数据标注能力,普惠AI基础行业

在工具的灵活性方面,倍赛BasicFinder SaaS标注平台将标注标签、标注工具、标注特质项等功能设计成可自由拖拽的模板配置形式,以指定标注范畴,规范标注员的标签和工具使用,减少不必要的标注错误出现。除可自由配置模板,SaaS标注平台也为有能力开发预标模型的AI科技公司或数据服务商提供加速工具接口。在执行大规模的标注项目时,平台使用者可以通过接入预标模型,对大批数据进行预处理,而后人工进行补标,以增加操作员单位时间的作业频次,提高产能输出。

在工具平台的选择方面,也有部分AI科技企业和基础数据服务商通过改写开源工具以获得标注能力,但往往改写工具仅能满足当前最急迫的标注需求,长期却无法适应项目更替,原因在于每次标注需求的变动,都需要技术人员进行再次改写,开发时间周期和技术人力损耗在成本上加重了企业负担。在成本考量之外,开源工具在管理属性和灵活性层面也相对薄弱,而对于一款相对成熟的SaaS标注工具平台来说,“标”是平台基础;“管”是平台的灵魂;“活”则是工具的延伸。

该公司已在世界各地设立了转录“农场”。今年,它举行了多次面向海外转录员的入门招聘活动。一位花了数十年时间为科技公司开发识别系统的语音技术专家说,最近的招聘规模暗示亚马逊音频数据分析的规模令人震惊。亚马逊表示,它“认真对待客户及其录音的安全性”,并且需要全面了解区域性口音和口语化才能使Alexa走向全球。

Ruthy Hope Slatis简直不敢相信她所听到的。她曾被波士顿郊外的一家临时机构雇用,为亚马逊转录音频文件,这是一项被亚马逊所模糊的工作。作为每小时只拿12美元薪酬的合同工,她和同事(正式名称为数据助理)需要听取随机交谈的片段,并在自己的笔记本电脑里记下听到的每个单词。

亚马逊也引入了类似的披露方式,并开始允许Alexa用户选择不进行人工审核。

谷歌暂停了人类对Assistant音频的转录,苹果开始允许用户删除他们的Siri历史记录并选择不共享更多内容,使共享录音成为可选内容,并直接雇用了许多前承包商来增强其对人类监听的控制力。

她和她的同事正在听取的录音通常很激烈、很尴尬,而用户也会在音箱面前承认自己的秘密和恐惧。随着转录项目的发展以及Alexa的流行,录音中透露的私人信息也随之增加。其他合同工回忆说,自己听过孩子分享了他们的家庭住址和电话号码,听到一名男子试图订购性玩具,甚至听到一名晚宴客人大声地想知道亚马逊当时是否正在偷听。Slatis说:“用户往往只是开玩笑,但其实完全不知道自己正在被偷听。”她于2016年选择了辞职。

在啤酒节现场,青岛啤酒集团海外业务总部非洲区经理邢智东说,青岛啤酒节在利比里亚顺利举行,为啤酒节今后的“丝路行”开了好头。啤酒节融和了中利两国的经典与时尚元素,有助于双方开展商业和旅游合作。

经过连续奋战,湖南、广西警方分别准确锁定各地窝点位置、团伙成员架构及活动轨迹,掌握窝点印制动态,经过统一部署,11月28日贺州市公安局对贺州的窝点开展收网。 

然而,这些所谓的智能设备无疑需要依赖成千上万的低薪人群,他们需要在这些声音片段中添加注释,以便技术公司可以升级其“电子耳朵”。至此,我们最微弱的耳语竟成为科技公司最有价值的数据集之一。

自始以来,算法、算力和数据就被认定为拉动人工智能发展的马车,而数据则是马车前进中不可缺少的轮子。由于算法和算力水平的不断提升,以往市场上流行的标注工具已经无法适应AI数据从简易到复杂的趋势变化,因此,标注工具平台的泛用性成为实现精准、高效标注的基本要素。

其实我们一直在被偷听

微软在今年8月承认,它使用人类帮助审查通过语音识别技术生成的语音数据。BMW、惠普和Humana等企业正在将这一技术集成到自己的产品和服务中。包括阿里巴巴、搜索巨头百度和手机制造商小米在内的中国科技公司每个季度都在收集数百万个智能音箱的语音数据。

亚马逊对外只会说这项工作对其绝密的语音识别产品至关重要,然而,这些语音片段中却包含着用户亲密时刻的录音。

啤酒爱好者约翰·瓦塔坎姆拜早早来到啤酒节现场。“几天前得知将举办这个啤酒节的消息后,我一直很期待。来到这里体验到狂欢节般的氛围,真是太棒了!啤酒节上演出的节目让我大开眼界。”他对新华社记者说。

作为基础操作层面,标注工具能力的全面性将对数据加工者起到至关重要的作用。如倍赛BasicFinder曾为招商银行部署数据标注工具平台私有化系统,通过独立系统的配置,同时解决了招行关于标注工具、工序管理和数据安全三个方面的难题,一举帮助其建立起可以独立展开数据标注作业的能力。

2014年秋天,亚马逊推出了Echo智能音箱,该设备带有语音激活虚拟助手软件Alexa。亚马逊在其首个Echo广告中将Alexa视为人工智能的奇迹。在该广告中,一个幸福的家庭正在命令Alexa接收新闻更新、回答问题答案,并帮助孩子们做作业。但是,Slatis很快就开始意识到人类在这款产品背后的影响力。

苹果表示,只有不到0.2%的Siri请求需要进行人类分析。前任经理将合同工的指控视为夸张。曾带领开发团队的Siri联合创始人Tom Gruber说:“实际上,我们要处理的很多都是噪音,并不是说机器打算录制某些声音,这只是某种意义上的概率问题。”

更多相关资讯请关注:死亡成真专区

为了彻底打掉这个印制假币窝点的团伙,11月7日,该案由公安部经侦局牵头成立专案组,湖南、广西警方联合侦办。  

在相关新闻报道不断出现之后,这些大型科技公司于今年调整了他们的虚拟助手项目。

面对记者镜头,在现场卖瓶装水的维妮·吉托笑得合不拢嘴:“这两天我卖出了很多水,因为来啤酒节现场的人并不是人人都喝酒,一些人是来啤酒节看明星和感受欢乐气氛的。我真希望这种节日每个月都有。”

利比里亚新闻、文化和旅游部副部长兰斯·格巴永冈在接受新华社记者采访时表示,对于曾遭受长期内战和2014年埃博拉疫情打击的利比里亚,啤酒节等文化活动除了给人们带来欢乐,还能凝聚民心、促进团结。

推广:猎云银企贷,专注企业债权融资服务。比银行更懂你,比你更懂银行,详情咨询微信:zhangbiner870616,目前仅开通京津冀地区服务。

人工智能在现实应用中多采用有监督学习模式,基于大量标注数据的模型训练能够帮助算法有效降低错误率。虽然现在AI科学家们在探索通过小样本数据以达到训练目的,但就目前的应用成果看,无监督学习或弱监督学习仍然不能取代有监督学习,这就使得在可预见的未来,市场对AI标注数据的需求将呈指数化持续增长,据IDC 统计,全球每年生产的数据量在2025年或将达到163ZB。紧张的产能需求迫使AI科技公司和基础数据服务商对数据生产手段做出积极地调整。其中部分企业通过增加人力的方式扩充产能,但随着人力不断扩充,边际收益逐渐递减,趋于0值。虽然个别企业希望培训机制可以进一步增加人效,却收效甚微。在企业的调整实践经验下,不难发现与增加人力相比,提升标注工具平台在人机协同方向的创新,或许是提升产能更“靠谱”的方式。

Facebook和微软在其隐私政策中添加了更明确的免责声明。

兰斯·格巴永冈说,利比里亚拥有独特文化和丰富旅游资源,期待青岛啤酒节成为利中文化和商业合作新平台。“我们希望学习中国城市的商业旅游开发经验,以推动利比里亚经济发展,促进社会和谐和团结。”

在贺州平桂区一民房内当场缴获电脑3台、百元假币电子模版3套、彩色喷墨打印机11台及喷头墨水一批、水印模版19套、金属防伪线模版1套以及印制假币的空白纸张约5万张。 

面对良好的市场预期,基础数据服务供应商为提升产能纷纷做出积极尝试,2019年11月倍赛BasicFinder第二代云基础设施——全类型SaaS数据标注工具集上线,在基础数据服务领域探索出一条以工具赋能为核心的提升产能之路。或许创新工具的使用将为基础数据服务商打开新局面。

到2019年,苹果将Siri引入其无线耳机和HomePod扬声器等产品后,每月需要处理150亿条语音命令。0.2%意味着每月,人类合同工需要处理3000万条语音命令,一年下来就会是3.6亿条。Siri团队的前首席研究科学家Mike Bastian说,随机录制的风险随着用例的增加也在不断增长。他提到了Apple Watch的“抬起激活”功能,该功能在检测到佩戴者的手腕被抬起时会自动激活Siri。他说:“这就导致假阳性率很高。”

以倍赛BasicFinder SaaS标注平台为例,其内部系统嵌入工作流模块。具体工作流为:任务发布、执行标注、结果审核、数据质检。平台通过每个环节的作业衔接,构建起流程管理系统,与单纯的标注工具相比,任务在SaaS平台中可以获得更快的流转速度。同时由于工序之间采用封闭节点构造,执行标注和审核工序的操作员无法对数据进行下载和传输,又进一步保证了数据的安全性。除流程管理外,该工具平台还具有绩效管理功能,尤其是AI企业或基础数据服务商的管理层用户,可以通过可视化面板了解项目的进度以及团队下每个标注员的工作效率和完成任务的准确度。绩效管理功能的加入,减少了项目经理因过度参与作业环节中的管理工作而耗费精力。之前一个项目经理能同时管理3个项目,在SaaS标注平台的使用下可拓展管理10个,甚至更多的项目。

广西贺州市公安局经济犯罪侦查支队副支队长 李庆明:我们部署了3个多月,因为其中有些嫌疑人是有前科的,对制作假币相对比较专业。 

但是如今,这些全球最大的公司之间正在展开一场新的战争,通过将麦克风内置于手机、智能手表、电视、冰箱、SUV等各种物品中,把Alexa、Siri、Google Assistant和Cortana嵌入到人们的生活中。咨询公司Juniper Research估计,到2023年,全球智能音箱的年市场规模将达到110亿美元,语音控制设备将达到约74亿个,这相当于地球上的每个人都拥有一个设备。

今年早些时候,彭博社首先报道了技术行业使用人类来审查从用户那里收集的音频(并且没有向用户披露这一事实)。这其中就包括了苹果、亚马逊和Facebook。相关高管和工程师表示,建立庞大的人类监听网络会带来问题或干扰,尽管这一直是改善其产品的明显方法。

她记得当时自己在想:“天哪,这就是我正在做的事情。”亚马逊会捕获云中的每个语音命令,并依靠像她这样的数据助理来训练系统。一开始,Slatis认为自己所听取的片段来自有酬劳的测试人员,这些测试人员自愿用自己的语音模式来换取几美元的奖励。然而,她很快意识到这个想法是错误的。

李庆明表示,这个地方是平桂区望高镇石牛塘的一个出租房,从现场来看,有一些半成品,还有制作假币的原材料、纸张、成品,真正的加工窝点在楼上。初步统计,成品和半成品总共有220万元左右。 

许多合同工表示,尽管大多数Siri要求都是很普通的,但他们仍然会听到的色情化的语音,以及种族歧视或恐同性言论。

在AI基础数据服务市场的激烈竞争下,数据的标记质量和项目的执行速率成为数据服务商获得竞争优势的关键。由于数据标注工具私有化部署成本相对较高,倍赛BasicFinder将其 SaaS 化,大大降低了工具的使用成本,普惠中小型AI科技公司和基础数据服务供应商,赋能AI基础行业。

科技公司们说他们正在改正

一些研究人员说,智能手机处理能力的提高和一种称为联合学习的计算机建模形式可能最终会淘汰这些监听行为,因为这些机器将变得足够聪明,可以在没有合同工帮助的情况下解决问题。目前,由于没有更严格的法律或消费者的强烈反对,随着语音设备的激增,人类音频审核队伍几乎肯定会继续增长。

泛用性是标注工具平台的基本能力

雷锋网(公众号:雷锋网)了解到,自从Slatis第一次感到毛骨悚然以来的五年中,四分之一的美国人购买了“智能音箱”设备,例如Echo、Google Home和Apple HomePod。到目前为止,亚马逊已经赢得了这场销售大战,据报道,用户已经购买了超过1亿个Alexa设备。

除此之外,雷锋网也注意到,在过去的几年中,苹果在收集和分析人们的声音方面变得更加激进,担心Siri的理解力和速度落后于Alexa和Google Assistant。苹果将Siri视为语音搜索引擎,因此它必须做好准备以应付无休止的用户查询,并加大对音频分析的依赖。

来自美国的游客汤姆·克罗举着啤酒,身体随着舞台上说唱歌手的演唱节奏摇摆着,啤酒节对他来说是这趟利比里亚之旅的意外惊喜。“来非洲旅游能偶遇啤酒节太酷了,这是我此次旅行的最好礼物。”他兴奋地说。

由于基础数据服务商从事的标注业务具有普遍多样性,单独工具无法满足业务需求。倍赛BasicFinder CEO 杜霖认为:作为SaaS标注工具,最基本的要求就是能对图像、文本、语音、视频以及点云数据做到一站式加工处理,没有完善的工具集,人机协作和提升产能将成为空谈。这也是为什么倍赛BasicFinder在SaaS平台上投入精力,设计出含2D框、分词标注、视频追踪、语音标注及点云标注工具等18款套件的原因,目的就是让平台使用者不必因更换项目而频繁切换工具平台。

产能提升,工具效益非人力可替代

按照科技公司的声明,这些机器并没有每时每刻创建音频文件,因为智能音箱仅在用户激活它们时才录制音频。但是,当始终在线的麦克风被引入厨房和卧室中时,它们可能会无意间捕获到用户不想共享的声音。

2015年,当苹果首席执行官蒂姆・库克宣称隐私是一项“基本人权”之时,苹果的机器每周需要处理超过十亿次请求。当时,用户可以开启一项功能,保持语音助手始终在线,这样他们就不再需要按下按钮来激活语音助手。苹果在其用户协议法律条款中表示,可能会记录和分析语音数据以改善Siri,但没有任何地方提到会是人类员工在监听。一位前合同工说:“监听别人的语音,让我感到非常不舒服。曾在Siri高级开发团队工作的John Burkey说。“这不是间谍行为。这与应用崩溃并询问是否要将报告发送给苹果的行为是相同的。”

2016年,亚马逊创建了Frequent Utterance Database(FUD),以帮助Alexa为常见请求添加答案。与FUD合作的前员工表示,渴望更积极挖掘数据的产品团队与负责保护用户信息的安全团队之间存在紧张关系。2017年,亚马逊推出了配备摄像头的Echo Look,该产品被称为AI造型师,可以推荐服装搭配。知情人士说,它的开发者考虑将相机编程为在用户要求Alexa讲笑话时自动开机。他们的想法是录制用户面部的视频并评估用户是否在笑。这些人说,亚马逊最终搁置了这个想法。该公司表示,Alexa目前没有使用面部识别技术。

Back To Top