2019-08-30 16:04:00
昔日流水線上的工人,成為了教“人工智能”認識蘋果、桌子、椅子的第一位老師。
芒種剛過,河南郟縣東郊,望不到邊的農田里,農民們彎腰割起了小麥。不遠處機械廠、汽車修理廠,機器聲此起彼伏。但再往西的建材廣場卻人來人往,這些天,廣場三樓,來了幾百個被采集者。
這幾百個人中,有剛從玉米地里匆匆趕過來的農民,連草帽也沒來得及摘下。有機關大樓下了班的公務員,也有服裝店里請了假的導購員。年輕小姑娘們聚在一起,談論著護膚和美妝。角落里,大腹便便的中年大叔點了根煙,低頭玩起手機。
他們被輪流帶進了臨時搭的攝影棚里——一個光線昏暗、不到30平米的小房間,墻壁不久前剛被刷得雪白,里面擺著椅子、三腳架和燈光器材。
有人指引他們坐在椅子上,面朝一部被固定在黑色三腳架上的手機,手機和被拍攝者之間的距離是固定的,不能多,也不能少。每次開拍前,一名皮膚黝黑,身材微胖,長著老實憨厚方臉的員工都會掏出卷尺,仔細再量一遍。
方臉員工叫張凱。量完距離后,他需要用幾部像素不同的手機拍攝這些被采集者。
在白光、黃光、暗光等不同光線下,張凱拍了四輪,加起來總共100張。一般情況下,他3分鐘就能拍完,不會超過5分鐘。
這項工作名為“數據采集”,被拍攝者能得到一個價值一二十元的塑料大桶作為獎品。采集而來的照片、語音等數據,將會提供給人工智能企業(yè),用于機器的訓練和學習。
剛接下任務時,領導告訴張凱,這次的數據收集要嚴格按照給定的規(guī)則,做數據收集,但具體的應用場景,領導沒說,張凱也沒問。
拉對一個框能賺4分錢
去年夏天,張凱有了孩子,他辭掉了原本在石子廠維護器械的工作,回家照顧妻兒。一兩個月后,張凱得重新工作養(yǎng)家,一家名為“千機數據”的公司正好在招人,“輕松、離家近、工資高”。
公司在縣城東邊一個建材廣場的三層,從張凱的老家長橋鎮(zhèn)開車過來,只用20分鐘。他推開公司門的那一刻,空調的涼風灌進身體,面前的場景讓他有些震驚:幾百名員工坐在棕色的沙發(fā)上,埋在電腦屏幕前,不停地拖動鼠標,敲擊鍵盤,“像個大網吧”。
河南郟縣一家數據的辦公室,如同一個大網吧 。記者周小琪 攝
人力主管向他介紹說,公司主要做數據標注,簡單來說就是給圖片上的物體拉框框,只要會用電腦就能干。每天8點上班,中午管飯,休息1個半小時,下午6點30下班,每個月有三四天的假期,工資保底2000塊,多勞多得。
張凱聽得迷迷糊糊,他從沒聽說過“數據標注”,也不懂為什么拉框。但公司環(huán)境好,不像以前一樣風吹日曬,當即決定留下來。
他被安排在一個有電腦的工位上。入職后,領導傳來一個文件包,里面是一份軟件的教學文檔和幾百張廚房、餐廳的圖片。張凱需要做的是:把圖片上的碗、碟、杯子、筷子等餐具都框出來,然后選好屬性、分好類。拉對一個框能賺4分錢。
張凱覺得很新奇——把這些鍋碗瓢盆框出來能干嘛?但初來乍到,他沒好意思多打聽。
第一天上班,張凱費勁拉了幾百個框。他不熟悉規(guī)則,比如,三個堆在一起的碗,是應該一起拉一個框,還是分開拉三個框?
可一周后,他已經熟練到每天能拉幾千個框,掙100多塊錢。時間久了,張凱看什么都帶框,看到家里廚房的鍋碗瓢盆,他第一反應是,框框應該從哪個角度拉?拉多大比較合適?
才來三個月,張凱就開始挑戰(zhàn)難度更高的3D全景圖。圖片都是立體的,有多個平面,分布著各種車輛,有卡車、小汽車、大巴車等,張凱要把車輛都框出來,再分門別類。
這項工作要有良好的空間感才能完成。玩“穿越火線”(一款射擊類游戲)的經驗幫上了張凱,那款游戲的場景也是立體的,常常需要切換視角來觀察敵人。張凱沒費多少力氣就上手了。
但他偶爾還是有犯難的時候。一次,他框出了一輛三個輪子的電動車,選屬性時糾結了好一會兒,選了“三輪車”。剛提交上去,就被審核的領導打了回來,“用電的都是電動車,后面帶斗的、不用電的才是三輪車”。
工作了大半年,張凱就已經是公司最優(yōu)秀的員工之一,但他依舊沒問過,拉這些框是為了什么?“我的原則是,我賺我的錢就行,其他的不用管那么多”。
8月9日上午,張凱在測試一款新的采集軟件。記者周小琪 攝
拍人像
“數據標注”的工作干了一年,張凱開始接手新任務“數據采集”。這份工作不再是坐在電腦前敲鍵盤,需要走出去,到廣場、鄉(xiāng)野或工廠,給符合條件的采集對象拍照、錄音。
采集而來的數據,將會被打包上傳給人工智能企業(yè),企業(yè)再把這些數據分配其他公司進行“數據標注”,最后再傳回去,成為計算機的學習資料。這些資料能教計算機分辨車輛、廚具等不同的物體,讓它們像人一樣,去認識大千世界。
張凱的第一個項目是拍攝手勢識別的項目,公司給定的年齡必須均衡。
找人從公司內部開始。500多名員工,只要領導在公司里吆喝一聲,滿足條件的就自覺過去排隊。
員工拍完以后,再發(fā)動他們拉著自己的親朋好友來拍攝。除此之外,公司還聯系了各個村子有威望、人緣好的人,給他們中介費,讓他們來幫忙找,這種方法效果最好。
一開始張凱完全不清楚為什么采集要在不同的光線和場景下,在他看來,光線的敏感度、場景的變化,沒有什么必然的聯系,對他來說都是一些重復性的動作拍攝工作。
為了拍攝任務,張凱研究了很多照片,經過領導點撥,終于搞清楚了,每個場景的光線及場景變化會在給后期算法的會有很大影響,因為要教會機器在各種場景各種光線中的準確識別,例如暗光,正常光,逆光的需求,雨天,晴天,陰天的場景。
在拍攝前,張凱少不了要回答被拍攝者的質疑。有人問,“照片上有我們的正臉,你們會不會拿來做違法的事?要是把它們用來刷臉支付怎么辦?”
張凱想了想,給出解釋:“大街上那么多攝像頭,如果拍幾張照片就能用來刷臉支付的話,走在路上是不是也不安全?”
見對方神情松動,張凱繼續(xù)說,“我們公司是正規(guī)的,在郟縣開了兩年了,幾百號人,跟我們合作的都是大企業(yè),你就放心吧。”
參與過拍攝的人會被拉進微信群,下次再有拍攝時,直接在群里吆喝一聲,也能拉來不少人。去年夏天,公司接了一個大項目,一次性采集了兩萬多人的影像,這些人都成了公司的人脈。
人像采集現場。記者周小琪 攝
張凱的同事蘇樂丹就做過這個“兩萬多人的大項目”。項目在一間廢棄的二層工廠進行,以三十人或五十人為一組,排好隊,依次戴上墨鏡、口罩或帽子,在一樓、二樓或室外轉幾圈,轉完圈就可以獲贈一口印有“千機數據”的鐵鍋。
攝像頭固定在廠房的不同角落,蘇樂丹的任務是,拿一個大喇叭,維持轉圈圈的秩序,讓他們控制恰當的間距。三四個月下來,她的喉嚨撐不住了,每天都要喝四五杯胖大海水。
這個項目小孩老人都能參加,蘇樂丹叫婆婆也來,婆婆不明白為什么要轉圈。蘇樂丹解釋,是用于攝像頭的對焦測試,檢測在不同場景、不同裝扮下,攝像頭能否識別出同一個人。
但婆婆不能理解。蘇樂丹拉著婆婆到村口,指著監(jiān)控說,“就是測試這個能不能精確地拍到犯罪分子”,婆婆樂意了。
參與采集的居民,可以獲贈開水壺、蒸鍋等禮品
讓AI認識蘋果
創(chuàng)辦千機數據之前,公司的CEO劉洋鋒也很少聽說“人工智能”這個詞,他是公司學歷最高的人之一,今年32歲。在他小時候,電腦還是個稀罕物,他看鄭少秋演的《大時代》,沒被縱橫捭闔的證券市場吸引,只覺得每天坐在電腦面前敲鍵盤很酷。上中專時,他開始學計算機,次次專業(yè)課考試都是第一名。
但進入社會后,劉洋鋒的工作幾乎都碰不著計算機的邊。他在重慶、云南和廣東都待過,開過挖掘機、賣過飲料和化肥。他去過最遠的地方是南美洲,在智利賣產自深圳華強北的山寨手機。
但他說,干計算機的夢想從沒有被磨滅。打工時,別的工人都在宿舍喝酒、吹牛,他買了一大袋跟計算機有關的書,一個人躺在床上看。有時,晚上做夢也會夢見計算機,時隔太久,他已經記不清夢境的具體內容,只記得夢里的自己對計算機有種強烈的擁有感。
從智利回國后,劉洋鋒和兩個發(fā)小湊到一起,準備創(chuàng)業(yè)。去年,一個偶然的機會,他們在網上看到一個轉讓的“數據標注”的單子,這是劉洋鋒第一次聽說“數據標注”這個詞。
劉洋鋒先是試用了一下軟件,在照片上框出了一個在馬路上的行人,操作很容易??伤幻靼?ldquo;數據標注”是干什么的,網上搜不出多少信息,大部分他都理解不了,直到在一個網頁看到這段話:
“要理解數據標注,得先理解AI其實是部分替代人的認知功能?;叵胍幌挛覀兪侨绾螌W習的,例如我們學習認識蘋果,那么就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做‘蘋果’。類比機器學習,我們要教他認識一個蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標注著‘蘋果’兩個字,然后機器通過學習了大量的圖片中的特征,這時候再給機器任意一張?zhí)O果的圖片,它就能認出來了。”
8月9日,員工們正在進行新項目的培訓。記者周小琪 攝
這淺顯直白的解釋,劉洋鋒懂了。他把“蘋果”的例子講給發(fā)小聽,他們都覺得“這事兒能成”。
從上世紀50年代,美國科學家第一次提出了“人工智能”的概念后,經過60年的技術更迭,人工智能已逐漸滲透進人類的生活。
手機聽懂了人類的語言,車輛學會了選擇最優(yōu)路線,能繞過桌子腿、捕捉每一?;覊m的掃地機器人走進了千家萬戶。而廣為人知的人臉識別技術,不僅幫警方在張學友演唱會上先后抓到了多名逃犯,也在今年6月,幫四名走失10年的孩子找到了家。
劉洋鋒并不了解人工智能相關的技術,但從新聞上感覺到人工智能會是未來科技發(fā)展的新趨勢。
他們仨一起湊了10萬塊錢,在縣城租下了一間30平方米的單間,從鄭州拉回了20臺價值1000多塊的二手電腦,拉回來才發(fā)現只擺得下12臺。然后通過微信群和朋友圈招了十幾個員工。
乘著“人工智能”的東風,劉洋鋒的單子越來越多,短短幾月,劉洋鋒把公司規(guī)模擴大了,租下了一整層的空間,差不多3000平方米,可以容納數百名員工,每年租金將近5萬?,F在,除郟縣外,他們還在鄭州、許昌、平頂山等地開設了分公司。
他不再“來者不拒”,有公司聯系他談采集項目,內容是讓采集員拍攝地上的廢紙、果核、頭發(fā)絲兒,包括貓屎,用來訓練掃地機器人的視覺。劉洋鋒拒絕了,“不能天天讓員工趴地上拍貓屎,太奇怪了”。
流水線上的老師
千機數據現在共有500多名員工,大多都和張凱一樣,本地人,年輕,只有初中或高中學歷,對電腦、互聯網和人工智能沒有太多認知。
劉洋鋒招人最重要的標準要能“坐得住”。前不久,有個年輕男生來應聘,說自己工作了兩年,在鄭州和蘇州都待過。劉洋鋒直接拒絕了他,“兩年就能跑兩個城市,說明非常不穩(wěn)定。”
在所有員工中,女性占大多數,她們大多已經結婚生子,丈夫在外地打工,在家照顧老人小孩的重擔都壓在她們身上。到了夏天,一些女性員工會選擇辭職,回去看管放暑假的孩子。還有的員工會直接把孩子帶到公司來,讓他們坐在空位玩電腦游戲。
去年5月,劉研娜在朋友圈看到千機數據招聘電腦操作員的消息,要求很簡單,“18歲到38歲,男女不限,簡單懂電腦,有上進心,細心耐心”,“工資3000到8000,上不封頂,多勞多得”。
劉研娜的第一反應是“騙人的”、“搞傳銷的”。在這座河南中部的小縣城,像她這樣只有中學學歷的年輕女孩,能找到的工作基本只有超市營業(yè)員、商店導購或是飯店服務員,月薪不會超過2000塊。直到來公司轉了一圈后,劉研娜才放下顧慮,成為“網吧”的一員。
8月7日下午,劉研娜正在給不同種類的汽車拉框。新京報記者周小琪 攝
劉研娜一個月最多可以拿到6000塊,她三個小時就能完成483張照片的標注,拉956個框。大部分員工一天可能只能拉100到150張圖片,平均工資只有3000塊。
剛來的時候,出于好奇,劉研娜向身邊的同事打聽,這些框都是干嘛的,沒人答得上來。大多數人都只是低頭做事,不關心這些,私底下也不討論這些話題。直到有一次,領導在開會時偶然提到,這些數據主要應用在無人駕駛和美顏軟件上,“為人工智能服務”,她才似懂非懂。
8月8日上午,公司門口,張凱拿著一部手機,正在測試一項新的采集任務。在背光、偏亮和正常三種光線下,被采集者分別作出了高興、厭惡等表情。作到“驚訝”時,張凱提醒他,“眼睛瞪大點”、“嘴巴再張開一點”。
上個月,張凱升任了主管,不用再親自負責采集工作,只需要對采集員進行指導,但每次采集開始前,他都要先學會如何操作。升職后,張凱的工作越來越忙,以前六點半就能準時下班,現在晚上十點回家成了常態(tài)。
到千機數據工作后,張凱成為了全家離高科技最近的人。
他的母親在東莞工廠的流水線上工作,父親在深圳做裝修、鋪地板磚。弟弟今年19歲,高中還沒上完,就一個人去新疆賣手機配件了。妻子原來在郟縣的一家超市當導購,去年生完孩子后,在家當家庭主婦。
剛找到工作時,家人和朋友都會問他,這份工作是干什么的?他的答案是:標注是坐在電腦前拉框,采集是天天給別人拍照。其他的,張凱不會多說,家人也不會追問。
張凱沒想到自己會跟人工智能產生關聯。他在長橋鎮(zhèn)的一座小村莊長大,家家戶戶都種玉米、小麥和花生,那個年代,很少有人知道“電腦”是什么。等上了中學,同齡人都喜歡泡在網吧玩《夢幻西游》,他不喜歡那款游戲,因為游戲“靠運氣、要砸錢”。他只好一個人在院子里摔“紙面包”、蹦彈珠。
對村里的多數年輕人來說,輟學、打工是必然的命運,沿海工廠的流水線上,隨處可見他們的身影。
張凱念完初中后,跟媽媽一起去了東莞,后來又到了深圳、泉州,他干過最長的一份工作是對講機組裝。四年的時間里,張凱用手指把無數塊鐵制的電池片壓進了對講機盒子里,這些電池片和喇叭、天線、主機板一起,組成了成千上萬個對講機,銷往世界各地。
蘇樂丹和張凱有過相似的經歷。2005年,她跟表姐一起去了廣東,在電子廠做過品鑒、在寶石廠穿過珠子,每天從早上七點半工作到晚上七點半,一個月休息兩天,月薪800多塊錢。
對張凱、蘇樂丹和千機數據的其他普通員工來說,他們現在采集、標注的數據,和穿過的珠子、壓過的電池片沒有什么不同,都是流水線上的一個部件。
唯一的不同是,他們知道珠子怎么穿成手串和項鏈、電池片怎么和其他部件組成對講機,但不知道數據要如何“喂”給機器、機器要如何學習。
張凱到了千機數據之后才第一次聽說“人工智能”這個詞,即便已經升任主管,他對工作的認識也只停留在“為人工智能提供前期數據”的層面。有幾次,北京的研究員來郟縣調研,劉洋鋒帶著他們到公司視察,張凱只是在遠處望了幾眼。
在通往公司的樓梯間,貼著幾張巨幅海報,海報上都是機器人和電腦,看起來科技感十足。劉洋鋒把“人工智能如何認識蘋果”的那段話也印在了上面,張凱一次也沒認真讀過。
8月9日下午,劉洋鋒在辦公室里,看一篇與人臉標注相關的論文。記者周小琪 攝
“萬物皆可AI”
昔日流水線上的工人,成為了教“人工智能”認識蘋果、桌子、椅子的第一位老師,把認知事物的經驗濃縮進一張張圖片中以后,他們對人工智能也開始有了更敏銳的感知。
今年6月,張凱第一次坐上了高鐵。以前為了省錢,他習慣坐20多個小時的大巴。這一次他興奮地發(fā)了朋友圈,配了一張高鐵時速304km/h的圖片,說:“這玩意最快能跑多少?”
進高鐵站時,張凱拿著身份證和高鐵票,經過一道需要人臉識別的閘機,攝像頭對著他的臉掃描了幾秒鐘后,顯示“請通過”。他突然想到,以前做標注時做過人臉標點,會不會應用在了這上面?
兩年前,張凱花8萬塊買了一輛小轎車,出行時,常常用到車載語音系統?,F在,他明白了語音系統之所以能順利運作,是建立在大量的語音采集、標注基礎上的。
刷到跟人工智能相關的新聞時,張凱也會打開看。他對一個“5G時代高科技抓逃犯”的視頻印象深刻,視頻里,地鐵站的監(jiān)控能捕捉到每一個行人的面部信息,精準地識別出犯罪嫌疑人的樣貌。
偶爾,張凱也有擔憂和恐懼。前幾天,他看到有品牌出了一款能自動系鞋帶的運動鞋,他無法理解,連系鞋帶這樣簡單的事都要靠機器來做,那人該干什么?
“科技如果發(fā)展得太快,會淘汰掉很多東西”,張凱最擔心的是,機器會取代掉那些流水線上的工人,他們都會失業(yè)。
2017年,李開復曾公開表示,“一項本來由人從事的工作,如果可以在5秒鐘以內能對工作中需要思考和決策的問題作出相應的決定,那么,這項工作就有非常大的可能被人工智能全部或部分取代”。
他預測,翻譯、銷售、司機、家政等工作,未來10年將有約90%被人工智能全部或部分取代。“但是,還有很多人所特有的、綜合素質的技能是無法被取代的。此外,因為人與機器產生了新的協作方式,還會出現新的工作類型。”
同年7月,國務院發(fā)布的人工智能計劃提出,到2030年,中國要成為人工智能創(chuàng)新核心。工信部教育考試中心副主任周明曾向媒體透露,中國人工智能人才缺口超過500萬人。
張凱覺得,像他們這樣這些做數據采集和標注的工人,很難被替代。“畢竟機器還要通過我們來學習,想象一下,如果機器會自己學習,那就說明它們已經無法把控了,這很可怕。”
劉洋鋒也思考過這個問題。前幾天,在接受電視臺采訪時,他把人工智能產業(yè)比作了一個人,“算法工程師他們負責的是大腦,而我們負責的是四肢”,二者都不可或缺。他們公司采集、標注好的數據,要經過一套特定的算法加工,才能喂給機器,算法是人工智能中最核心的部分。
劉洋鋒也擔憂,畢竟“承接的都是重復性的工作”。他想,隨著技術的發(fā)展,原本需要一萬張照片數據才能完成的學習,或許只需要五張照片就能完成,屆時,他們的工作量將會面臨大幅減少的情況。
為了防止這種情況的出現,劉洋鋒開始把業(yè)務向高端化、專業(yè)化轉移。去年,他承接了一項醫(yī)療數據項目,需要對病例進行分析,公司的員工都做不來,他在網上找了幾十個醫(yī)學研究生來做兼職。
劉洋鋒擔心被淘汰,他加了很多人工智能相關的學術交流群。來自清華、北大等知名高校的教授和研究生們,常常會在里面更新研究進展,或是轉發(fā)研究論文。
劉洋鋒每條消息都會點開看,再轉到朋友圈。群里發(fā)的很多論文都是英文,劉洋鋒看不懂,就用電腦自帶的翻譯軟件一句一句地翻。有些文章的專業(yè)性太強,劉洋鋒就只看摘要和那些跟數據處理相關的部分。
效果很明顯,“以前都是工程師們說什么就是什么,現在我至少可以從專業(yè)的角度,來和他們探討一些東西,比如數據采集、標注的具體要求等等”。
但碰上算法的問題,劉洋鋒就沒轍了。一次,員工們忙活了一個星期,做完了一個人臉標點項目,每張臉上標84個點,一共一萬張圖。對接的部門打包驗收完以后,算法工程師卻說,有幾個點的位置與算法的要求不符,需要調整,必須打回來重做。劉洋鋒只好帶著員工們多干了一周,并多發(fā)了一份工資。
在劉洋鋒過去的人生中,人工智能神秘、新奇且遙不可及。短短兩年,他發(fā)現,“萬物皆可AI”。比如,手機里的視頻軟件,錄制時的美顏功能要靠人工智能,加特效要靠人工智能,給用戶推送的內容也要靠人工智能。
和張凱不同,劉洋鋒期待那個充滿人工智能的未來。創(chuàng)業(yè)這兩年,公司接了很多無人駕駛的項目,框出了數不清的路標、紅綠燈和斑馬線。劉洋鋒看著這些圖片,常常幻想,有朝一日能買一輛無人駕駛汽車,坐進車里,動動嘴,把目的地告訴系統,然后倒頭大睡,車子便把自己送到目的地。
“那一天一定不會太遠”。(作者 周小琪 梁文雪)