重生之AI教父 - 第191章验证码在剥削什么

“现在谷歌的验证码是怎么做的？”

孟繁岐有点好奇，他此前一直对这方面的事情有所怀疑，不过却没有仔细研究过，尤其是比较早期的时候。

“现在的所谓验证码系统，说得专业一点，叫【区分人机的全自动图灵测试系统】(cAptchA)，前些年是一家叫做recAptchA的公司做的，不过这家公司已经被谷歌收购了。”

阿里克斯在这方面关注过一段时间：“现在世界上用得最多的验证码系统，就是这家公司的产品。”

“当时是卡耐基梅隆大学的一个教授想到的，可以说这个系统从推出之初，就是打着白嫖劳动力的主意。”

计算机在1980到1990年左右开始逐渐进入个人家庭，在二十一世纪初，人类开始初步进入数字化生活，并且越来越依赖这种数字化。

这种数字化突如其来，带来了一个很大的难题：那就是这几千年来，所有的知识和典籍，基本上都是通过纸质书籍来记载的。

这些东西很多都是人类的瑰宝，在新的计算机时代，怎么把这些流传下来的知识数字化，是一个很大的难题。

最简单的办法，就是手打录入，但这个就比较要命了。

手工录入需要的人数可不是三四位数那么简单，没有几万上十万人，这项工程是不大可能做出点名头的。

市值万亿的苹果公司，人数才十来万，想搞十万人来录入，代价显然太大了一些。

人力的问题说白了还是钱的问题，这个工程虽然意义重大，什么都好，但就是没有什么油水，它不赚钱。

退一步说，即便你有钱也有人，人类做这种长时间的机械劳动，就是很容易输错。

别的不说，网文作者一天几千字，就到处都是错别字，这还是自己想出来的内容。

若是让他们录入别人的文本，还很可能是看不明白的内容，那还得了？输错字输串行都是再正常不过的事情了。

另一种策略，那就是先扫描，然后结合文字识别技术，自动录入。

听起来非常不错，但大家都知道，直到2023年，这种图像直接识别文字的功能，都仍旧有很多的缺陷和不便之处。

就别提二十一世纪初了，而且很多早期的文字典籍，人看都费劲，扫描出来一团浆糊，识别出来更是一团乱码。

因而，07年的时候，recAptchA这个系统就出现了。

它先是扫描这些文本，然后选出一个个的单词，最后在单词上面加点特技，让人可以识别出来，机器却很难做到。

这就是为什么大家看到的字母验证码总是千奇百怪的形状，上面还有很多干扰的条纹。

这种验证装置，看似是用于验证，可通常都是真假结合。

比如第一个是有正确答案的真的【验证码】，第二个则是其实根本没有答案的义务劳动。

如果你第一个填对了，它就会默认你对第二个验证码的劳动也是正确的，并把这个结果传回项目主机。

并且，同一张义务劳动的图片还会交叉发给多个人类用户，用以对比和确保答案的正确和可信程度。

“你猜猜，recAptchA每天能够协助录入多少字符？”

阿里克斯带着一脸坏笑，他觉得这个数字量孟繁岐一定猜不到。

“你都这么说了，我肯定往大了猜，每天....一天八万多秒，一秒就算他一百个，八百万？”

“08年的时候每天六千万字符，现在应该几个亿了。”

根据统计估算，全世界每天输入验证码上亿次，每次接近十秒钟。

每天网民在验证码上的时间，就得接近百万小时。

通过白嫖这部分劳动力，不知不觉之间，人类已经通过验证码的方式录入了超过两千五百万本书进入数字世界。

这还仅仅只用了几年的时间。

“09年谷歌把recAptchA买下来了，此后，验证码的种类开始变得多种多样起来，而不仅仅只是文本验证了。”

谷歌09年花了将近三千万美金买这个系统，当然不是为了做慈善。

此举，是为了获取海量的带标签数据，为自己后来的人工智能做准备。一半验证你是不是真人，有没有认真答题；另一半，则开始让你义务劳动打白工。

标注门牌号，路牌，分类各种图片，只要你生活在网络的世界，伱就或多或少地每天要给谷歌打几十秒的白工。

“所以说，虽然验证码诞生之初，解决了网络环境和用户安全的大问题，但后面其实性质已经发生了改变？”

“那当然，如果真的要做【分辨对面到底是人是狗】的图灵测试，其实还有更加聪明的办法，比如只需要点击一个我不是机器人的按钮就好了。”

“系统可以追踪用户的鼠标和键盘轨迹，让机器人的模拟成本非常之高，这才是更科学的验证系统。又或者是滑动，拼图的方式，都比验证码科学多了，又不会有识别错误的风险，比如8和b，o和0。至于那些图像的测试验证，其实更多的成为了一种收集数据的手段。”

这方面的内容确实是孟繁岐以前未曾关注过的。

他倒也注意到过，有时候自己胡乱点验证码，竟然也能通过。曾经怀疑过这里面的问题，但没有多想，也没有仔细研究过里面的原理。

更没想到，这个系统竟然收集了如此海量的数据，几年的时间就录入了数千万的书籍。

“现在这些扭曲的文字也不大行了，经过四五年的持续验证码标注，现在机器识别那些扭曲文字的准确率接近100，人类自己反而只有三四十的准确度。”

伊利亚笑着说道，这个数据是他们今年年初刚刚测试得到的。

“因此这种传统的录入单词的方式，现在也已经不够安全了。”

“验证码说得高大上一点，就是图灵测试的一种，确实在设计之初，就很难避免它有利于人工智能的本质。”

孟繁岐仔细想了下，觉得很合理，验证码的本意就是区分机器和人类。机器通过学习这些行为，自然能够在这方面越来越强。

“这个【我不是机器人】，看上去只需要点一下的功能，也不是你想的那么简单。它会追踪你点击验证框之前、当时和之后的行为，比如在网页上花费的时间和浏览的方式，从而来判断是否是人为操作。”

这个孟繁岐倒是稍微了解一点，谷歌后来甚至推出了更加全新的recAptchAv3，这个第三版本的测试方式连一个选框都不需要你去点。

只不过，它会持续在后台分析你浏览网站的方式，并根据种种行为和依据来给你评分。

倘若你的得分过低，你就会看到熟悉的验证码弹窗，来确定你是不是人类。

在谷歌看来，这是最好的体验，用户不需要任何输入，甚至不会意识到自己已经通过了人机的验证，而且它很难被破解程序学习。

可唯一的问题是，谷歌掌握了越来越多的用户隐私。

新的v3系统鼓励网站在各个页面都放置代码，而不仅仅只是登陆页面。

这就意味着，谷歌故意，并且已经做到了这件事，它获得了几乎所有的用户日常浏览行为。

可能这就是为什么谷歌的广告点击率远超第二名一倍多的一个重要因素所在吧。

孟繁岐一边与伊利亚和阿里克斯烤串，一边在心中如此想到，不管这种验证码和后来的人机判断方式到底剥削了人们什么，普通人又有什么办法呢。

绝大部分人其实连基本的知情权都没有，他们可能十多年后二十年后都不知道自己曾经参与了什么事情。

就在不知不觉之间，协助录入上千万本书的大工程，又为科技公司标注了海量的数据。

在这些科技公司利用这些数据获得了足够的智能之后，又反过来分析用户们的行为，提供所谓的【个性化服务】。

最后，人们的行为被彻底的掌握，成为被彻底拿捏的鱼肉。

这不会是大家所恐惧的那种【老大哥】一样强权的监视，而是温润如水，不知不觉不经意之间得被控制。

人们甚至会自己选择被剥削，出卖自己的隐私，因为这实在是太方便了。

“一个星期，甚至一个月不用手机，其实也不会少一块肉，可又有多少人能坚持。即便可以坚持，又有多少人有必要去这么做呢？”

步入大数据和人工智能的时代，普通人能做的似乎就只有减少电子产品的使用，以尽量避免被掌握隐私。

只是这样的挣扎，在每年翻倍的数据海洋当中，显得那么得渺小，无人在乎。

“而我在持续推动的人工智能技术发展，势必会让各大科技公司提早对各种用户数据感到渴求。”

孟繁岐意识到，此时的他，已经不是重生前被数据算法掌控的普通小职员了。

取而代之的，他成为了这一进程的重要推手。

看上去由棋子变成了棋手，实际上却什么也改变不了。

思来想去，孟繁岐感叹道，

顺应潮流的会成功，逆着潮流则会灭亡。

投推荐票上一章章节目录下一章加入书签返回书架

第191章 验证码在剥削什么

第191章验证码在剥削什么